python爬蟲 線程池創(chuàng)建并獲取文件代碼實例
更新時間:2019年09月28日 09:37:17 作者:陪伴is最長情的告白
這篇文章主要介紹了python爬蟲 線程池創(chuàng)建并獲取文件代碼實例,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
本實例主要進行線程池創(chuàng)建,多線程獲取、存儲視頻文件
梨視頻:利用線程池進行視頻爬取
#爬取梨視頻數(shù)據(jù) import requests import re from lxml import etree from multiprocessing.dummy import Pool import random # 定義獲取視頻數(shù)據(jù)方法 def getVideoData(url): # url為列表中的視頻url return requests.get(url=url,headers=headers).content # 定義存儲數(shù)據(jù)方法 def saveVideo(data): fileName = str(random.randint(0,5000))+'.mp4' with open(fileName,'wb') as fp: fp.write(data) # 爬取數(shù)據(jù) #實例化一個線程池對象,開啟5個線程池 pool = Pool(5) url = 'https://www.pearvideo.com/category_1' headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36' } page_text = requests.get(url=url,headers=headers).text tree = etree.HTML(page_text) li_list = tree.xpath('//div[@id="listvideoList"]/ul/li') video_url_list = [] # 存的是將要下載視頻的url for li in li_list: detail_url = 'https://www.pearvideo.com/'+li.xpath('./div/a/@href')[0] detail_page = requests.get(url=detail_url,headers=headers).text #因為視頻連接不在標簽匯中,而是一個js語句,所以用正則匹配 video_url = re.findall('srcUrl="(.*?)",vdoUrl',detail_page,re.S)[0] video_url_list.append(video_url) # map函數(shù)的應用:參數(shù)1:回調函數(shù),參數(shù)2:列表; #將列表中的參數(shù)賦值給回調函數(shù)的形參,讓回調函數(shù)處理 video_data_list = pool.map(getVideoData,video_url_list) pool.map(saveVideo,video_data_list)
以上就是本文的全部內(nèi)容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。
相關文章
Python基于whois模塊簡單識別網(wǎng)站域名及所有者的方法
這篇文章主要介紹了Python基于whois模塊簡單識別網(wǎng)站域名及所有者的方法,簡單分析了Python whois模塊的安裝及使用相關操作技巧,需要的朋友可以參考下2018-04-04Python?pycharm提交代碼遇到?jīng)_突解決方法
這篇文章主要介紹了Python?pycharm提交代碼遇到?jīng)_突解決方法,文章圍繞主題展開詳細的內(nèi)容介紹,具有一定的參考價值,需要的小伙伴可以參考一下2022-08-08Python Web靜態(tài)服務器非堵塞模式實現(xiàn)方法示例
這篇文章主要介紹了Python Web靜態(tài)服務器非堵塞模式實現(xiàn)方法,結合實例形式分析了Python單進程非堵塞模式實現(xiàn)的Web靜態(tài)服務器相關操作技巧,需要的朋友可以參考下2019-11-11