洗禮靈魂,修煉python(56)--爬蟲篇—知識補充—編碼之url編碼

来源:http://www.cnblogs.com/yangva/archive/2017/11/03/7774810.html
-Advertisement-
Play Games

其實在最前面的某一篇博文里,是絕對提過編碼的,有ASCII,有UTF-8,有GB2312等等,這些我絕對說過的。 url編碼 首先,Http協議中參數的傳輸是"key=value"這種鍵值對形式的,如果要傳多個參數就需要用“&”符號對鍵值對進行分割。如"?key1=value1&key2=value ...


其實在最前面的某一篇博文里,是絕對提過編碼的,有ASCII,有UTF-8,有GB2312等等,這些我絕對說過的。

url編碼

首先,Http協議中參數的傳輸是"key=value"這種鍵值對形式的,如果要傳多個參數就需要用“&”符號對鍵值對進行分割。如"?key1=value1&key2=value2",這樣在服務端在收到這種字元串的時候,會用“&”分割出每一個參數,然後再用“=”來分割出鍵和值併進行處理。

然後,url只能使用 ASCII 字元集來通過網際網路進行發送,也就是說url允許的只能是英文字母、阿拉伯數字和某些標點符號,不能使用其他文字和符號。那麼如果url中有漢字,就必須編碼成為允許的字元後方可使用。

但是有個問題是,標準的國際組織並沒有規定具體的編碼方法,而是交給應用程式(瀏覽器)根據自己的一套編碼方式進行編碼,有點亂,而每個瀏覽器對同樣的字元解碼都是不太一樣的。但這裡只是指網站子文件的字元編碼混亂,比如前面用的百度搜索,編碼還是一樣的:

火狐瀏覽器:

https://www.baidu.com/s?wd=%E8%83%A1%E6%AD%8C&rsv_spt=1&rsv_iqid=0xa88a849a000297f1&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&rqlang=cn&tn=monline_3_dg&rsv_enter=1&oq=a&inputT=1164&rsv_t=44f3deAD5ZhHUuZS8qctF8DYdHQl0Jc0fIHprlrxVQPAKhGaI7WQzU0%2BDYkOZ7iFCV9H&rsv_pq=bc5bcce5000040e2&rsv_sug3=10&rsv_sug1=9&rsv_sug7=100&bs=a

谷歌瀏覽器:

https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E8%83%A1%E6%AD%8C&oq=%25E8%2583%25A1%25E6%25AD%258C&rsv_pq=bc8022d200026160&rsv_t=cf02s%2BKYldDmROy0mQpW7gMikG0rFAkF5WE0KydGdjM1v4PH9wW87XYxuCA&rqlang=cn&rsv_enter=1&rsv_sug3=1&rsv_sug1=1&rsv_sug7=100&rsv_sug2=0&inputT=12&rsv_sug4=439

IE瀏覽器:

https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=0&rsv_idx=1&tn=baidu&wd=%E8%83%A1%E6%AD%8C&rsv_pq=b3b7634b00004749&rsv_t=fa91EE041mGXpmDfMhWtd6QSrm%2F24pXydfxJc%2BPc5W59OuaHKoicHE4Ngwo&rqlang=cn&rsv_enter=1&rsv_sug3=4

(搜索關鍵詞我已經標註出來)

 

url的編碼樣式是使用【%】加上代表十六進位為一個位元組形式的兩位字元—【0-9和A-F】來(比如%EC),詳細規則:

  • 對於ASCII字元,字母a在ASCII碼中對應的位元組是0x97,那麼Url編碼之後得到的就是%97,字母abc, url編碼後得到的就是%97%98%99
  • 對於非ASCII字元,RFC文檔建議使用utf-8對其進行編碼得到相應的位元組,然後對每個位元組執行百分號編碼。如前面搜索的"胡歌"使用UTF-8字元集得到的位元組為0xE8 0x83 0xA1 0xE6 0xAD 0x8C,經過Url編碼之後得到%E8%83%A1%E6%AD%8C

所以url編碼通常也被稱為百分號編碼(percent-encoding)。所以你覺不覺得url編碼確實混亂,一會兒又是ASCII碼,一會兒又是UTF-8碼?

 不過平時使用時註意一下就可以,不用太在意

 

免責聲明

本博文只是為了分享技術和共同學習為目的,並不出於商業目的和用途,也不希望用於商業用途,特此聲明。如果內容中測試的貴站站長有異議,請聯繫我立即刪除


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • ​ 一、背景概述 (一)產品背景 1.互聯網+的需要 在信息越來越繁雜的互聯網時代,公司所運行的項目越來越多,項目相關服務繁多,服務之間存在複雜的依賴關係,運維與管理任務越來越繁重,手工交付需要花費很多的人力與時間,且安全性和時效性均無法保證。對於多資源型分佈/分離式部署項目,Udeployer應運 ...
  • Struts2中Action從表單取值並且存到Web元素中(session) ...
  • 報錯:Wed Nov 01 13:03:16 CST 2017 WARN: Establishing SSL connection without server's identity verification is not recommended. According to MySQL 5.5.45 ...
  • 類變數:形如static int a; 顧名思義,類變數可以理解為類的變數,類變數在類載入的時候就已經給它分配了記憶體空間,不同於實例變數(int a; ),實例變數是在該類創建對象的時候分配記憶體的。並且,每創建一個對象,就會為該實例變數分配相應的記憶體空間,而類變數它不屬於任何一個對象,它為所有對象所 ...
  • Spring中的Junit ...
  • 如果想把命令E:\zpic作為提供下載的目錄,那麼在cmd里cd到該目錄下,並執行命令:python -m SimpleHTTPServer 預設的埠號是8000, 伺服器根目錄就是運行python命令的工作目錄 如果提示錯誤:No module named SimpleHTTPServer 則試 ...
  • 最近公司安排做CCFA的一些東西,有一項就是做一個網頁播放攝像頭的實時監控。網上百度了很久,很多都是直接用vlc插件實現,但是目前主流瀏覽器都已經不支持vlc插件了,搞了很久也沒成功。 網上大多是這麼實現的: <object type='application/x-vlc-plugin' id='v ...
  • GO可以說是近幾年最熱門的新興語言之一了, 一般人看到 分散式 和 大數據 就會想到GO, 這個系列的文章會通過研究golang的源代碼來分析內部的實現原理, 和CoreCLR不同的是, golang的源代碼已經被很多人研究過了, 我將會著重研究他們未提到過的部分. 另一點和CoreCLR不同的是, ...
一周排行
    -Advertisement-
    Play Games
  • .Net8.0 Blazor Hybird 桌面端 (WPF/Winform) 實測可以完整運行在 win7sp1/win10/win11. 如果用其他工具打包,還可以運行在mac/linux下, 傳送門BlazorHybrid 發佈為無依賴包方式 安裝 WebView2Runtime 1.57 M ...
  • 目錄前言PostgreSql安裝測試額外Nuget安裝Person.cs模擬運行Navicate連postgresql解決方案Garnet為什麼要選擇Garnet而不是RedisRedis不再開源Windows版的Redis是由微軟維護的Windows Redis版本老舊,後續可能不再更新Garne ...
  • C#TMS系統代碼-聯表報表學習 領導被裁了之後很快就有人上任了,幾乎是無縫銜接,很難讓我不想到這早就決定好了。我的職責沒有任何變化。感受下來這個系統封裝程度很高,我只要會調用方法就行。這個系統交付之後不會有太多問題,更多應該是做小需求,有大的開發任務應該也是第二期的事,嗯?怎麼感覺我變成運維了?而 ...
  • 我在隨筆《EAV模型(實體-屬性-值)的設計和低代碼的處理方案(1)》中介紹了一些基本的EAV模型設計知識和基於Winform場景下低代碼(或者說無代碼)的一些實現思路,在本篇隨筆中,我們來分析一下這種針對通用業務,且只需定義就能構建業務模塊存儲和界面的解決方案,其中的數據查詢處理的操作。 ...
  • 對某個遠程伺服器啟用和設置NTP服務(Windows系統) 打開註冊表 HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\W32Time\TimeProviders\NtpServer 將 Enabled 的值設置為 1,這將啟用NTP伺服器功 ...
  • title: Django信號與擴展:深入理解與實踐 date: 2024/5/15 22:40:52 updated: 2024/5/15 22:40:52 categories: 後端開發 tags: Django 信號 松耦合 觀察者 擴展 安全 性能 第一部分:Django信號基礎 Djan ...
  • 使用xadmin2遇到的問題&解決 環境配置: 使用的模塊版本: 關聯的包 Django 3.2.15 mysqlclient 2.2.4 xadmin 2.0.1 django-crispy-forms >= 1.6.0 django-import-export >= 0.5.1 django-r ...
  • 今天我打算整點兒不一樣的內容,通過之前學習的TransformerMap和LazyMap鏈,想搞點不一樣的,所以我關註了另外一條鏈DefaultedMap鏈,主要調用鏈為: 調用鏈詳細描述: ObjectInputStream.readObject() DefaultedMap.readObject ...
  • 後端應用級開發者該如何擁抱 AI GC?就是在這樣的一個大的浪潮下,我們的傳統的應用級開發者。我們該如何選擇職業或者是如何去快速轉型,跟上這樣的一個行業的一個浪潮? 0 AI金字塔模型 越往上它的整個難度就是職業機會也好,或者說是整個的這個運作也好,它的難度會越大,然後越往下機會就會越多,所以這是一 ...
  • @Autowired是Spring框架提供的註解,@Resource是Java EE 5規範提供的註解。 @Autowired預設按照類型自動裝配,而@Resource預設按照名稱自動裝配。 @Autowired支持@Qualifier註解來指定裝配哪一個具有相同類型的bean,而@Resourc... ...