python 採集鬥圖啦(多線程)

来源:https://www.cnblogs.com/wmc1125/archive/2020/07/29/13399375.html
-Advertisement-
Play Games

import concurrent import requests; from concurrent.futures import ThreadPoolExecutor import os; import parsel; def send_request(url): header = { "user ...


import concurrent
import requests;
from concurrent.futures import ThreadPoolExecutor
import os;
import parsel;

def send_request(url):
    header = {
        "user-agent":'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
    }
    requests.packages.urllib3.disable_warnings()
    response = requests.get(url,headers=header)
    return response
def pare_data(data):
     selector = parsel.Selector(data)
     result_list = selector.xpath('//a[@class="col-xs-6 col-sm-3"]')
     for result in result_list:
        title = result.xpath('./img/@alt').get()
        src_url = result.xpath('./img/@data-original'). get()

        all_title = title+'.'+src_url.split('.')[-1]
        yield all_title,src_url

def save_data(file_name,data):
    dir_name = 'doutu_list'
    if not os.path.exists(dir_name):
        os.mkdir(dir_name)
    with open(dir_name+'/'+file_name,'wb') as f:
        f.write(data)
        print("保存完成:",file_name)


def main(page):
    for page in range(1,page+1):
        print('########################當前為第{}頁########################'.format(page))
        thread_pool = concurrent.futures.ThreadPoolExecutor(max_workers=1)
        res = send_request('https://www.doutula.com/photo/list/?page={}'.format(str(page)))
        src_url = pare_data(res.text)
        for file,url in src_url:
            print(file)
            print(url)
            image_response = send_request(url)
            thread_pool.submit(save_data,file,image_response.content)
        thread_pool.shutdown()

if __name__=='__main__':
    main(1)

高顏值後臺管理系統免費使用 ### 子楓後臺管理系統 ###,可在寶塔面板直接安裝

歡迎關註我的公眾號:子楓的奇妙世界,獲得獨家整理的學習資源和日常乾貨推送。
如果您對我的其他專題內容感興趣,直達我的個人博客:www.wangmingchang.com


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、反射概述 1. java.lang.Class:是反射的源頭 我們創建一個類,通過編譯,生成對應的.calss文件,之後使用java.exe載入(jvm的類載入器)此.class文件,此.class文件載入到記憶體以後,就是一個運行時類,存在緩存區,那麼這個運行時類的本身就是一個class的實例 ...
  • 真實世界的Python儀器監控》主要探討如何運用Python快速構建自動化儀器控制系統,幫助讀者瞭解如何通過自行開發應用程式來監視或者控制儀器硬體。《真實世界的Python儀器監控》內容涵蓋了從接線到建立介面,直到完成可用軟體的整個過程。本書提供逐步講解、清晰實例,以及將PC連接到各種設備的實踐技巧 ...
  • 精通Python網路爬蟲這是一本實戰性的網路爬蟲秘笈,不僅講解瞭如何編寫爬蟲,而且還講解了流行的網路爬蟲的使用。 點擊此處下載 提取碼:h5nn 全書分為4個部分:第壹部分對網路爬蟲做了概要性的介紹,主要介紹了網路爬蟲的常識和所涉及的技術概覽;第二部分是本書的重點之一,詳細講解了網路爬蟲的核心技術, ...
  • 本篇要學習的內容和知識結構概覽 多態性 編譯時的多態性稱為靜態聯編. 當調用重載函數時, 在編譯期就確定下來調用哪個函數. 運行時的多態性稱為動態聯編. 在運行時才能確定調用哪個函數, 由虛函數來支持. 靜態聯編中的賦值相容性及名字支配規律 派生一個類的原因並非總是為了添加新的成員或成員函數, 有時 ...
  • 摘要 Stream 是對集合對象功能的增強,它專註於對集合對象進行各種非常便利、高效的聚合操作,或者大批量數據操作。通常我們需要多行代碼才能完成的操作,藉助於Stream流式處理可以很簡單的實現。 Stream 不是集合元素,它不是數據結構並不保存數據,它是有關演算法和計算的。 創建Steam流 調用 ...
  • 此pdf文為pycharm最全使用教材,由山在嶺就在博主花了一周多時間嘔心創作~ 點擊此處下載提取碼:fdno ...
  • 點擊此處進入下載地址提取碼:67ju 目 錄第一部分 分類 第 1 章 機器學習基礎 .....................................21.1 何謂機器學習 ............................................3 1.1.1 感測器和海量 ...
  • 阿裡雲購買伺服器 購買雲伺服器,伺服器版本選擇centos 7.5版本,之後在控制台打開實例 2,設置root密碼 如果你購買時沒有設置root密碼 這裡需要重置下 下載軟體並安裝寶塔 本地下載putty 鏈接工具 填入你的公網ip 然後open 賬號填root 密碼就是剛纔設置的那個密碼 然後執行 ...
一周排行
    -Advertisement-
    Play Games
  • 一、引言:什麼是 JSON JSON (Java Script Object Notation) 是一種很常用的數據格式,它常常用在 web 應用程式中。它可以表示結構化的數據。 下麵是常見的 JSON 文件結構 { "name": "Kamishiro Rize", "age": "22", "o ...
  • 前言 大家好,我是蝸牛,在上一篇中,我們介紹了不同版本的HTTP區別和發展背景,這篇文章我們來聊聊HTTP的缺點,HTTP缺點大致總結有以下三點: 通信使用明文(不加密),內容可能會被竊聽。 不驗證通信方的身份,因此有可能遭遇偽裝(客戶端和服務端都有可能) 無法證明報文的完整性,有可能會被篡改。 其 ...
  • resultMap處理欄位和屬性的映射關係 如果欄位名與實體類中的屬性名不一致,該如何處理映射關係? 第一種方法:為查詢的欄位設置別名,和屬性名保持一致 下麵是實體類中的屬性名: private Integer empId; private String empName; private Integ ...
  • 大家在看到這篇文章前,為了有一個舒適的c++IDE,一定感受到了Dev-c++的廉價感,Clion功能的多餘,VS的臃腫。他們也有自己的優點,但糟點太多,令人十分難受。而VS Code,可以取長補短。下麵的配置內容,可以讓你在刷題時,享受絲滑的動畫,體會集成終端的方便,讓你覺得Coding不再枯燥。 ...
  • 給定一個不含重覆數字的數組 nums ,返回其 所有可能的全排列 。你可以 按任意順序 返回答案。 示例 1: 輸入:nums = [1,2,3] 輸出:[[1,2,3],[1,3,2],[2,1,3],[2,3,1],[3,1,2],[3,2,1]] 示例 2: 輸入:nums = [0,1] 輸 ...
  • 設計模式的目的 編寫軟體過程中,程式員面臨著來自 耦合性,內聚性以及可維護性,可擴展性,重用性,靈活性 等多方面的 挑戰,設計模式是為了讓程式(軟體),具有更好 代碼重用性 (即:相同功能的代碼,不用多次編寫) 可讀性 (即:編程規範性, 便於其他程式員的閱讀和理解) 可擴展性 (即:當需要增加新的 ...
  • 本文講解了決策樹的創鍵的過程,包括熵,信息增益的計算,還有決策樹的創建,以及使用matplotlib讓決策樹可視化的詳細過程 ...
  • ♠ use C++11 倍數 若 $a,b,k \in \mathbb N$,且 $a \times k=b$,那麼 $b$ 是 $a$ 的倍數,稱 $a$ 整除 $b$,記作 $a \mid b$。 $[1,n]\in \mathbb N$ 中 $x \in \mathbb N$ 的倍數有 $\l ...
  • LinkList可以定義指向List的指針 1.當函數參數為LinkList L時,意味著只改變或操作List的內容,而不需要改變L這個指針 如 Status GetElem(LinkList L,int i,ElemType) 2.當參數為LinkList &L時,意味著需要改變或操作L這個指針本 ...
  • Spring 5框架 一、Spring概念 1、Spring是輕量級的JavaEE框架 2、Spring可以解決企業應用開發的複雜性 3、Spring有兩個核心部分:IOC和AOP ​ 1)IOC:控制反轉,把創建對象過程交給Spring進行管理 ​ 2)AOP:面向切麵,不修改源代碼進行功能增強 ...