_markupbase.py if not match: UnboundLocalError: local variable 'match' referenced before assignment,分析Python 庫 html.parser 中存在的一個解析BUG

来源:https://www.cnblogs.com/gebilaowangpython/archive/2019/02/20/10409249.html
-Advertisement-
Play Games

BUG觸發時的完整報錯內容(本地無關路徑用已經用 隱去): 在解析HTML時,標簽開始部分使用形如 的瀏覽器判斷標識符,結束時結束標簽 (正確的開始和結束標簽應該為 和 )無法正常匹配關閉即可觸發。 觸發BUG的示例代碼如下: 在 Python 3.7.0 版本中,觸發BUG部分的代碼存在於 中的 ...


BUG觸發時的完整報錯內容(本地無關路徑用已經用 **** 隱去):

**************\lib\site-packages\bs4\builder\_htmlparser.py:78: UserWarning: unknown status keyword 'end ' in marked section
  warnings.warn(msg)
Traceback (most recent call last):
  File "**************/test.py", line 5, in <module>
    bs = BeautifulSoup(html, 'html.parser')
  File "**************\lib\site-packages\bs4\__init__.py", line 281, in __init__
    self._feed()
  File "**************\lib\site-packages\bs4\__init__.py", line 342, in _feed
    self.builder.feed(self.markup)
  File "**************\lib\site-packages\bs4\builder\_htmlparser.py", line 247, in feed
    parser.feed(markup)
  File "D:\Program Files\Python37\lib\html\parser.py", line 111, in feed
    self.goahead(0)
  File "D:\Program Files\Python37\lib\html\parser.py", line 179, in goahead
    k = self.parse_html_declaration(i)
  File "D:\Program Files\Python37\lib\html\parser.py", line 264, in parse_html_declaration
    return self.parse_marked_section(i)
  File "D:\Program Files\Python37\lib\_markupbase.py", line 160, in parse_marked_section
    if not match:
UnboundLocalError: local variable 'match' referenced before assignment

在解析HTML時,標簽開始部分使用形如 <!-[if IE eq 9]> 的瀏覽器判斷標識符,結束時結束標簽<![end if]->(正確的開始和結束標簽應該為<!--[if IE 9]><![endif]-->)無法正常匹配關閉即可觸發。
觸發BUG的示例代碼如下:

from bs4 import BeautifulSoup

html = """
<!-[if IE eq 9]>
    <a href="https://www.shwww.net/">https://www.shwww.net/</a>
<![end if]->
"""

bs = BeautifulSoup(html, 'html.parser')

在 Python 3.7.0 版本中,觸發BUG部分的代碼存在於 \Lib\_markupbase.py 中的 146 行的 parse_marked_section 方法,該方法代碼如下:
https://github.com/python/cpython/blob/bb9ddee3d4e293f0717f8c167afdf5749ebf843d/Lib/_markupbase.py#L160

    def parse_marked_section(self, i, report=1):
        rawdata= self.rawdata
        assert rawdata[i:i+3] == '<![', "unexpected call to parse_marked_section()"
        sectName, j = self._scan_name( i+3, i )
        if j < 0:
            return j
        if sectName in {"temp", "cdata", "ignore", "include", "rcdata"}:
            # look for standard ]]> ending
            match= _markedsectionclose.search(rawdata, i+3)
        elif sectName in {"if", "else", "endif"}:
            # look for MS Office ]> ending
            match= _msmarkedsectionclose.search(rawdata, i+3)
        else:
            self.error('unknown status keyword %r in marked section' % rawdata[i+3:j])
        if not match:
            return -1
        if report:
            j = match.start(0)
            self.unknown_decl(rawdata[i+3: j])
        return match.end(0)

由於錯誤的HTML代碼未正確關閉,使得流程判斷既沒有進入 if sectName in {"temp", "cdata", "ignore", "include", "rcdata"}:
elif sectName in {"if", "else", "endif"}: ,而是報出一個錯誤 UserWarning: unknown status keyword 'end ' in marked section warnings.warn(msg) 後執行到 if not match ,而此時 match 未申明,故而觸發錯誤。

此BUG存在於多個Python版本中,修複方法,在 if sectName in {"temp", "cdata", "ignore", "include", "rcdata"}: 之前預定義一個match變數即可:
https://github.com/python/cpython/blob/bb9ddee3d4e293f0717f8c167afdf5749ebf843d/Lib/_markupbase.py#L152

    def parse_marked_section(self, i, report=1):
        rawdata= self.rawdata
        assert rawdata[i:i+3] == '<![', "unexpected call to parse_marked_section()"
        sectName, j = self._scan_name( i+3, i )
        if j < 0:
            return j
        match = None
        if sectName in {"temp", "cdata", "ignore", "include", "rcdata"}:
            # look for standard ]]> ending
            match= _markedsectionclose.search(rawdata, i+3)
        elif sectName in {"if", "else", "endif"}:
            # look for MS Office ]> ending
            match= _msmarkedsectionclose.search(rawdata, i+3)
        else:
            self.error('unknown status keyword %r in marked section' % rawdata[i+3:j])
        if not match:
            return -1
        if report:
            j = match.start(0)
            self.unknown_decl(rawdata[i+3: j])
        return match.end(0)

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在腳本中如何進行Django的運行 if __name__ == '__main__': import os import django os.environ.setdefault("DJANGO_SETTINGS_MODULE","orm69.settings") django.setup() #... ...
  • SpringBoot自定義異常以及異常處理 在web項目中,我們可能需要給前端返回不同的提示碼。例如:401表示沒有許可權,500代表位置異常,200代表請求成功等。但是這些提示碼遠遠不能滿足我們返回給前端的提示,可能還需要我們自定義錯誤碼給前端,前端獲取相應的錯誤碼以及錯誤信息,展示到頁面中。 使用 ...
  • 實現一個函數,使其能將字元串轉換成整數。 首先,該函數會根據需要丟棄無用的開頭空格字元,直到尋找到第一個非空格的字元為止。 當我們尋找到的第一個非空字元為正或者負號時,則將該符號與之後面儘可能多的連續數字組合起來,作為該整數的正負號;假如第一個非空字元是數字,則直接將其與之後連續的數字字元組合起來, ...
  • 1 搭建springboot 2 配置pom依賴(springboot版本為2.1.3) 3 寫一個controller類 4 SpringBootApplication中增加註解ComponentScan,並啟動 5 啟動測試 http://localhost:8080/index 5.1 開啟驗 ...
  • 在寫代碼過程中,我們修改代碼中寄存器的值,但是有時寄存器的數據較多,手動修改容易出現錯誤而且花費的時間長 這是一段寄存器的配置值: 0x00, 0x34 0x35, 0x25 0x10, 0xd4 0xf5, 0xa5 0x00, 0x34 0x3a, 0xff 0x00, 0x00 0x34, 0 ...
  • 我一直都有一個疑問,豐巢業務服務的生產環境jvm參數設置是禁止system.gc的,也就是開啟設置:-XX:+DisableExplicitGC,但是生產環境卻從來沒有出現過堆外記憶體溢出的情況。說明一下,豐巢使用了阿裡開源的dubbo,而dubbo底層通信預設情況下使用了3.2.5.Final版本的 ...
  • 在實際開發過程中,我們有時候會遇到主線程調用子線程,要等待子線程返回的結果來進行下一步動作的業務。 那麼怎麼獲取子線程返回的值呢,我這裡總結了三種方式: Entity類 主線程等待(這個一看代碼便知曉,沒什麼問題) Join方法阻塞當前線程以等待子線程執行完畢 通過實現Callable介面 這裡又分 ...
  • 一、冒泡排序 冒泡排序(Bubble Sort)是一種交換排序,它的基本思想是:兩兩比較相鄰記錄的關鍵字,如果反序則交換,直到沒有反序的記錄為止。 進一步理解為(假設由小到大排序):對於給定的n個記錄,從第一個記錄開始依次對相鄰的兩個記錄進行比較,當前面的記錄大於後面的記錄時,交換位置,進行一輪比較 ...
一周排行
    -Advertisement-
    Play Games
  • .Net8.0 Blazor Hybird 桌面端 (WPF/Winform) 實測可以完整運行在 win7sp1/win10/win11. 如果用其他工具打包,還可以運行在mac/linux下, 傳送門BlazorHybrid 發佈為無依賴包方式 安裝 WebView2Runtime 1.57 M ...
  • 目錄前言PostgreSql安裝測試額外Nuget安裝Person.cs模擬運行Navicate連postgresql解決方案Garnet為什麼要選擇Garnet而不是RedisRedis不再開源Windows版的Redis是由微軟維護的Windows Redis版本老舊,後續可能不再更新Garne ...
  • C#TMS系統代碼-聯表報表學習 領導被裁了之後很快就有人上任了,幾乎是無縫銜接,很難讓我不想到這早就決定好了。我的職責沒有任何變化。感受下來這個系統封裝程度很高,我只要會調用方法就行。這個系統交付之後不會有太多問題,更多應該是做小需求,有大的開發任務應該也是第二期的事,嗯?怎麼感覺我變成運維了?而 ...
  • 我在隨筆《EAV模型(實體-屬性-值)的設計和低代碼的處理方案(1)》中介紹了一些基本的EAV模型設計知識和基於Winform場景下低代碼(或者說無代碼)的一些實現思路,在本篇隨筆中,我們來分析一下這種針對通用業務,且只需定義就能構建業務模塊存儲和界面的解決方案,其中的數據查詢處理的操作。 ...
  • 對某個遠程伺服器啟用和設置NTP服務(Windows系統) 打開註冊表 HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\W32Time\TimeProviders\NtpServer 將 Enabled 的值設置為 1,這將啟用NTP伺服器功 ...
  • title: Django信號與擴展:深入理解與實踐 date: 2024/5/15 22:40:52 updated: 2024/5/15 22:40:52 categories: 後端開發 tags: Django 信號 松耦合 觀察者 擴展 安全 性能 第一部分:Django信號基礎 Djan ...
  • 使用xadmin2遇到的問題&解決 環境配置: 使用的模塊版本: 關聯的包 Django 3.2.15 mysqlclient 2.2.4 xadmin 2.0.1 django-crispy-forms >= 1.6.0 django-import-export >= 0.5.1 django-r ...
  • 今天我打算整點兒不一樣的內容,通過之前學習的TransformerMap和LazyMap鏈,想搞點不一樣的,所以我關註了另外一條鏈DefaultedMap鏈,主要調用鏈為: 調用鏈詳細描述: ObjectInputStream.readObject() DefaultedMap.readObject ...
  • 後端應用級開發者該如何擁抱 AI GC?就是在這樣的一個大的浪潮下,我們的傳統的應用級開發者。我們該如何選擇職業或者是如何去快速轉型,跟上這樣的一個行業的一個浪潮? 0 AI金字塔模型 越往上它的整個難度就是職業機會也好,或者說是整個的這個運作也好,它的難度會越大,然後越往下機會就會越多,所以這是一 ...
  • @Autowired是Spring框架提供的註解,@Resource是Java EE 5規範提供的註解。 @Autowired預設按照類型自動裝配,而@Resource預設按照名稱自動裝配。 @Autowired支持@Qualifier註解來指定裝配哪一個具有相同類型的bean,而@Resourc... ...