python爬蟲--多任務非同步協程, 快點,在快點......

来源:https://www.cnblogs.com/tangjian219/archive/2019/12/07/12002525.html
-Advertisement-
Play Games

多任務非同步協程asyncio asyncio的使用 多任務協程 aiohttp的使用 非同步協程爬蟲案例 基於aiohttp的多任務協程的爬蟲 ...


多任務非同步協程asyncio

特殊函數:
    - 就是async關鍵字修飾的一個函數的定義
    - 特殊之處:
        - 特殊函數被調用後會返回一個協程對象
        - 特殊函數調用後內部的程式語句沒有被立即執行
        
- 協程
    - 對象。協程==特殊的函數。協程表示的就是一組特定的操作。
    
- 任務對象
    - 高級的協程(對協程的進一步的封裝)
        - 任務對象==協程==特殊的函數
            - 任務對象==特殊的函數
    - 綁定回調:
        - task.add_done_callback(task)
            - 參數task:當前回調函數對應的任務對象
            - task.result():返回的就是任務對象對應的特殊函數的返回值
            
- 事件迴圈對象
    - 創建事件迴圈對象
    - 將任務對象註冊到該對象中並且開啟該對象
    - 作用:loop可以將其內部註冊的所有的任務對象進行非同步執行

- 掛起:就是交出cpu的使用權。

await:被用做在特殊函數的內部,在被阻塞的時候
wait:給每一個任務賦予一個可被掛起的許可權

#【重點】在特殊函數內部的實現中,不可以出現不支持非同步的模塊(例如time,requests)代碼,如果出現了,則會中斷整個的非同步效果!!!

asyncio的使用

import asyncio
import time
from time import sleep

# 特殊函數
async def get_request(url):
    print('正在下載: ',url)
    sleep(2)
    print('下載完畢: ',url)
    return 'page_text'

# 回調函數,普通函數
def parse(task):
    # 參數表示任務對象
    print('i am callback',task.result())


start = time.time()
# 調用特殊函數
func = get_request('www.xx.com')

# 創建任務對象
task = asyncio.ensure_future(func)

# 給任務對象綁定回調函數
task.add_done_callback(parse)

# 創建一個事件迴圈對象
loop = asyncio.get_event_loop()

# 讓loop執行一個任務
loop.run_until_complete(task)

print("總耗時:",time.time()-start) #總耗時: 2.0017831325531006

多任務協程

import asyncio
import time

# 特殊函數
async def get_request(url):
    print('正在下載',url)
    # time.sleep(2) 不支持非同步的模塊 會中斷整個的非同步效果
    await asyncio.sleep(2)
    print('下載完成',url)
    return 'page_text'

def parse(task):
    print(task.result())


start = time.time()
urls = ['www.xxx1.com','www.xxx2.com','www.xxx3.com']

tasks = []  #存放多任務
for url in urls:
    # 調用特殊函數
    func = get_request(url)

    # 創建任務對象
    task = asyncio.ensure_future(func)

    # 給任務對象綁定回調函數
    task.add_done_callback(parse)
    tasks.append(task)

# 創建事件迴圈對象
loop = asyncio.get_event_loop()

# 執行任務
loop.run_until_complete(asyncio.wait(tasks))
print('總耗時:',time.time()-start) #2.0015313625335693

aiohttp的使用

- requests一定是不支持非同步
- aiohttp是一個支持非同步的網路請求模塊
    - 環境安裝
    - 編碼流程:
        - 大致的架構:
             with aiohttp.ClientSession() as s:
                #s.get(url,headers,params,proxy="http://ip:port")
                with s.get(url) as response:
                    #response.read()二進位(.content)
                    page_text = response.text()
                    return page_text
                
    - 補充細節
         - 在每一個with前加上async
         - 需要在每一個阻塞操作前加上await
                async with aiohttp.ClientSession() as s:
                    #s.get(url,headers,params,proxy="http://ip:port")
                    async with await s.get(url) as response:
                        #response.read()二進位(.content)
                        page_text = await response.text()
                        return page_text

非同步協程爬蟲案例

# 需求用多任務非同步協程獲取百度,搜狗,京東,淘寶的頁面源碼數據,並簡單解析
import asyncio
import requests
import time
from lxml import etree
urls = ['https://www.baidu.com','http://www.taobao.com/','http://www.jd.com/','https://www.sogou.com/']
headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
}
# 特殊函數
async def get_request(url):
    print('正在下載',url)
    page_text = requests.get(url,headers=headers).text
    print(url,'下載完成')
    return page_text

# 回調函數
def parse(task):
    page_text = task.result()
    tree = etree.HTML(page_text)
    div = tree.xpath('//div')
    print(div)

start = time.time()
tasks = []#存放多任務
for url in urls:
    func = get_request(url)
    task = asyncio.ensure_future(func)
    task.add_done_callback(parse)
    tasks.append(task)

# 創建事件要在迴圈外
loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))

print('總耗時:',time.time()-start)

#根據結果發現執行並不是非同步,原因是requests不是非同步模塊,所以整個程式不會非同步執行

基於aiohttp的多任務協程的爬蟲

# 需求用多任務非同步協程獲取百度,搜狗,京東,淘寶的頁面源碼數據,並簡答解析
import asyncio
import requests
import time
import aiohttp
from lxml import etree
urls = ['https://www.baidu.com','http://www.taobao.com/','http://www.jd.com/','https://www.sogou.com/']
headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
}
# 特殊函數
async def get_request(url):
    async with aiohttp.ClientSession() as s:
        # s.get(url,headers,params,proxy="http://ip:port")
        async with await s.get(url,headers=headers) as response:
            print('正在下載', url)
            # response.read()二進位(.content)
            page_text = await response.text()
            print(url, '下載完成')
            return page_text

# 回調函數
def parse(task):
    page_text = task.result()
    tree = etree.HTML(page_text)
    div = tree.xpath('//div')
    print(div)

start = time.time()
tasks = []#存放多任務
for url in urls:
    func = get_request(url)
    task = asyncio.ensure_future(func)
    task.add_done_callback(parse)
    tasks.append(task)

# 創建事件要在迴圈外
loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))

print('總耗時:',time.time()-start) #總耗時: 3.0848371982574463

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 利用JavaFX設計一個井字棋游戲,其中包括了能夠與玩家對戰的AI。AI的實現相比五子棋來說要簡單得多,可以保證AI在後手情況下絕對不會輸,具體實現如下: /* * To change this license header, choose License Headers in Project Pr ...
  • 說在前面 我覺得沒有什麼錯誤是調試器無法解決的,如果沒有,那我再說一遍,如果有,那當我沒說 一、拋出異常 可以通過 raise 語句拋出異常,使程式在我們已經知道的缺陷處停下,併進入到 except 語句 raise句法: raise關鍵字 調用的異常函數名 ValueError (這個函數必須是異 ...
  • 一.賦值即定義 1.運行以下代碼會出現報錯 2.使用global關鍵字解決以上報錯 3.不推薦使用global global總結 x+=1這種是特殊形式產生的錯誤的原因?先引用後賦值,而python動態語言是賦值才算定義,才能被引用。解決辦法,在這條語句前增加x=0之類的賦值語句,或者使用globa ...
  • 作者:陳皓 (@左耳朵耗子) | 編輯:玲玲 來源:https://dwz.cn/YELpxqyC 對,你沒看錯,本文就是教你怎麼寫出讓同事無法維護的代碼。 一、程式命名 1、容易輸入的變數名。比如:Fred,asdf 2、單字母的變數名。比如:a,b,c, x,y,z(如果不夠用,可以考慮a1,a ...
  • 1 開發需要環境 工欲善其事,必先利其器。在正式開發之前我們檢查好需要安裝的拓展,不要開發中發現這些問題,打斷思路影響我們的開發效率。 安裝 swoole 拓展包 安裝 redis 拓展包 安裝 laravel5.5 版本以上 如果你還不會用swoole就out了 2 Laravel 生成命令行 p ...
  • 投資機構或電商企業等積累的客戶交易數據繁雜。需要根據用戶的以往消費記錄分析出不同用戶群體的特征與價值,再針對不同群體提供不同的營銷策略。 用戶分析指標 根據美國資料庫營銷研究所Arthur Hughes的研究,客戶資料庫中有三個神奇的要素,這三個要素構成了數據分析最好的指標 R-最近一次消費(Rec ...
  • 前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。作者:bihl 直接上代碼,哈哈!! from urllib import request import os from user_agents import ua_list i ...
  • 前言 這兩三年項目中一直在使用比較流行的spring cloud框架,也算有一定積累,打算有時間就整理一些乾貨與大家分享。 本次分享zuul網關集成jwt身份驗證 業務背景 項目開發少不了身份認證,jwt作為當下比較流行的身份認證方式之一主要的特點是無狀態,把信息放在客戶端,伺服器端不需要保存ses ...
一周排行
    -Advertisement-
    Play Games
  • C#TMS系統代碼-基礎頁面BaseCity學習 本人純新手,剛進公司跟領導報道,我說我是java全棧,他問我會不會C#,我說大學學過,他說這個TMS系統就給你來管了。外包已經把代碼給我了,這幾天先把增刪改查的代碼背一下,說不定後面就要趕鴨子上架了 Service頁面 //using => impo ...
  • 委托與事件 委托 委托的定義 委托是C#中的一種類型,用於存儲對方法的引用。它允許將方法作為參數傳遞給其他方法,實現回調、事件處理和動態調用等功能。通俗來講,就是委托包含方法的記憶體地址,方法匹配與委托相同的簽名,因此通過使用正確的參數類型來調用方法。 委托的特性 引用方法:委托允許存儲對方法的引用, ...
  • 前言 這幾天閑來沒事看看ABP vNext的文檔和源碼,關於關於依賴註入(屬性註入)這塊兒產生了興趣。 我們都知道。Volo.ABP 依賴註入容器使用了第三方組件Autofac實現的。有三種註入方式,構造函數註入和方法註入和屬性註入。 ABP的屬性註入原則參考如下: 這時候我就開始疑惑了,因為我知道 ...
  • C#TMS系統代碼-業務頁面ShippingNotice學習 學一個業務頁面,ok,領導開完會就被裁掉了,很突然啊,他收拾東西的時候我還以為他要旅游提前請假了,還在尋思為什麼回家連自己買的幾箱飲料都要叫跑腿帶走,怕被偷嗎?還好我在他開會之前拿了兩瓶芬達 感覺感覺前面的BaseCity差不太多,這邊的 ...
  • 概述:在C#中,通過`Expression`類、`AndAlso`和`OrElse`方法可組合兩個`Expression<Func<T, bool>>`,實現多條件動態查詢。通過創建表達式樹,可輕鬆構建複雜的查詢條件。 在C#中,可以使用AndAlso和OrElse方法組合兩個Expression< ...
  • 閑來無聊在我的Biwen.QuickApi中實現一下極簡的事件匯流排,其實代碼還是蠻簡單的,對於初學者可能有些幫助 就貼出來,有什麼不足的地方也歡迎板磚交流~ 首先定義一個事件約定的空介面 public interface IEvent{} 然後定義事件訂閱者介面 public interface I ...
  • 1. 案例 成某三甲醫預約系統, 該項目在2024年初進行上線測試,在正常運行了兩天後,業務系統報錯:The connection pool has been exhausted, either raise MaxPoolSize (currently 800) or Timeout (curren ...
  • 背景 我們有些工具在 Web 版中已經有了很好的實踐,而在 WPF 中重新開發也是一種費時費力的操作,那麼直接集成則是最省事省力的方法了。 思路解釋 為什麼要使用 WPF?莫問為什麼,老 C# 開發的堅持,另外因為 Windows 上已經裝了 Webview2/edge 整體打包比 electron ...
  • EDP是一套集組織架構,許可權框架【功能許可權,操作許可權,數據訪問許可權,WebApi許可權】,自動化日誌,動態Interface,WebApi管理等基礎功能於一體的,基於.net的企業應用開發框架。通過友好的編碼方式實現數據行、列許可權的管控。 ...
  • .Net8.0 Blazor Hybird 桌面端 (WPF/Winform) 實測可以完整運行在 win7sp1/win10/win11. 如果用其他工具打包,還可以運行在mac/linux下, 傳送門BlazorHybrid 發佈為無依賴包方式 安裝 WebView2Runtime 1.57 M ...