亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

python高階爬蟲實戰(zhàn)分析

 更新時間:2018年07月29日 11:30:53   作者:芙蘭Flan  
這篇文章給大家分享了python高階爬蟲實戰(zhàn)的相關(guān)實例內(nèi)容以及技巧分析,有興趣的朋友參考下。

關(guān)于這篇文章有幾句話想說,首先給大家道歉,之前學的時候真的覺得下述的是比較厲害的東西,但是后來發(fā)現(xiàn)真的是基礎(chǔ)中的基礎(chǔ),內(nèi)容還不是很完全。再看一遍自己寫的這篇文章,突然有種想自殺的沖動。emmm所以樓主決定本文全文抹掉重寫一遍,并且為之前點進來看的七十多訪問量的人,致以最誠摯的歉意。好想死。。

在學完了爬蟲全部內(nèi)容后,樓主覺得勉強有資格為接觸爬蟲的新人指指路了。那么廢話不多說,以下正文:

一、獲取內(nèi)容

說爬蟲一定要先說爬取內(nèi)容的方法,python有這么幾個支持爬蟲的庫,一個是urllib和它的后續(xù)版本庫,這個庫做爬取的時候生成的中繼對象是比較多的,樓主也記不大住都有什么,而且這個庫的使用在樓主看來有些過時了。更加建議做爬取的時候使用requests庫(ps:不是request)

使用urllib:

html = urllib.request.urlopen(url).read()

使用requests:

r = requests.get(url)

對于獲取到的內(nèi)容,有以下方法進行處理:
1、使用正則表達式匹配。

2、使用BeautifulSoup對爬取內(nèi)容標簽對象化。

3、通過構(gòu)造節(jié)點樹使用Xpath獲取元素。

第一種方法勝在直接,效率高而且不需要安裝三方庫。第二種方法勝在簡單,標簽對象化后不需要寫復(fù)雜的正則表達式,而且提取標簽更加方便。第三種方法勝在靈活,獲取內(nèi)容更加靈活,就是語法有點多,不熟的話可以對著Xpath語法文檔寫。

使用正則表達式匹配:

pattern_content = '<div class="rich_media_content " id="js_content">(.*?)</div>'
content1 = re.findall(pattern_content, html, re.S)

使用BeautifulSoup對爬取內(nèi)容標簽對象化:

soup = bs4.BeautifulSoup(html, 'lxml')
imgs = soup.find_all('img')

關(guān)于BeautifulSoup的安裝請自行百度,沒記錯的話直接pip是可行的。

通過構(gòu)造節(jié)點樹使用Xpath獲取元素:

selector=etree.HTML(html)
content=selector.xpath('//div[@id="content"]/ul[@id="ul"]/li/text()')

至此,爬取的基本內(nèi)容就敘述完畢了,這里給出的是最簡單的范例,如果想深入了解某種方法,建議去查詢更詳細的技術(shù)文檔。

下面內(nèi)容就是之前的了,略作刪改。

二、偽造表單請求頭

很多網(wǎng)站上的數(shù)據(jù)爬取比較簡單,只需要直接request那個網(wǎng)址就可以,很多小型網(wǎng)站都是這樣。面對這樣的網(wǎng)站數(shù)據(jù),只需要花個幾分鐘隨便寫幾行代碼,就能爬到我們想要的數(shù)據(jù)。

但是想要爬取稍微大型一些的網(wǎng)站數(shù)據(jù),就不會這么容易了。這些網(wǎng)站的服務(wù)器,會分析收到的每一條request,來判斷該請求是否為用戶操作。這種技術(shù),我們把它稱為反爬技術(shù)。常見的反爬技術(shù),樓主知道的有上面所述的分析請求,還有驗證碼技術(shù)。對于這兩種情況,我們在構(gòu)造爬蟲程序的時候就需要稍微費點力氣了。

先來介紹第一種的應(yīng)對方法。首先我們要知道一條request的組成部分,不同網(wǎng)站的request格式可能會有點不同。對于這一點,我們可以通過瀏覽器的開發(fā)者工具,抓到一個網(wǎng)站的請求數(shù)據(jù)格式。如下圖:

11111

此為使用谷歌瀏覽器抓取的請求信息。

我們可以看到request headers的格式,所以在訪問這樣的網(wǎng)站的時候,我們就不能忘了在postdata中放上一條偽造的headers。

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; rv:32.0) Gecko/20100101 Firefox/32.0',
			  'Referer': 'Address'}

其中referer鍵對應(yīng)的值是要訪問的網(wǎng)址。

某些網(wǎng)站還會需要有cookie的用戶驗證,我們可以通過調(diào)用

requests.Session().cookies

來獲得它。

如果在爬蟲中需要提交某些信息的話,還要構(gòu)造一下postdata的數(shù)據(jù)。比如這樣:

postData = {
		'username': ul[i][0],
		'password': ul[i][1],
		'lt': b.group(1),
		'execution': 'e1s1',
		'_eventId': 'submit',
		'submit': '%B5%C7%C2%BC',
	}

三、關(guān)于多網(wǎng)頁的爬取

如果網(wǎng)頁地址有規(guī)律,那么構(gòu)造url用個循環(huán)函數(shù)就好,對于網(wǎng)頁地址中包含隨機碼的時候,通常就是先爬取根頁面,獲取到所有想爬取的子頁面url,把這些url放進一個url池(項目小是一維的列表,項目大的時候可能會是高維的列表)里,循環(huán)爬取。

而比較高效的方式是使用多線程技術(shù),demo有點長只貼關(guān)鍵部分。

class Geturl(threading.Thread):
  def __init__(self):
    threading.Thread.__init__(self)
  def run(self):
    res = requests.get(url, headers=header)
    html = res.text
    # print(html)
    pattern_href = '<a target="_blank" href="(.*?)" rel="external nofollow" id'
    href = re.findall(pattern_href, html, re.S)
    for href in href:
      href = href.replace('amp;', '')
      a.put(href)
      a.task_done()
class Spider(threading.Thread):
  def __init__(self):
    threading.Thread.__init__(self)
  def run(self):
    href = a.get()
    res = requests.get(href, headers=header2)
    html = res.text
    pattern_title = '<title>(.*?)</title>'
    title = re.findall(pattern_title, html, re.S)
    pattern_content = '<div class="rich_media_content " id="js_content">(.*?)</div>'
    content1 = re.findall(pattern_content, html, re.S)
    print(title)
    # time.sleep(1.5)
    pattern_content2 = '>(.*?)<'
    content2 = re.findall(pattern_content2, content1[0], re.S)
    while '' in content2:
      content2.remove('')
    content = ''
    for i in content2:
      content = content + i
    content = content.replace('&nbsp;','')
    print(content)

開兩個線程,一個爬取url放進url池,一個從url池里獲取url然后爬取內(nèi)容,再開一個線程監(jiān)控兩個線程,如果兩個線程運行完畢,結(jié)束主線程。

python的多線程機制底層做的其實不好,理由不多講。另,多線程具體操作很多就不展開講了。

四、關(guān)于使用代理ip

很多網(wǎng)站會有ip檢測機制,當同一ip以人力無法做到的速度多次訪問網(wǎng)站時,通常就會觸發(fā)這種機制。

代理ip的話,通常通過爬取一些開源ip網(wǎng)站發(fā)布的ip構(gòu)建ip代理池,比如西刺、蘑菇等。這樣的一些網(wǎng)站,直接百度代理ip就能找到。然后,使用Flask+Redis維護代理池。這部分詳細說明也比較長,就不細說了。也不是爬蟲必要的東西。另,自己有服務(wù)器的也可以使用SSR的翻墻工具,不過搭建不是樓主親手做的,所以就不詳細說明了。

五、關(guān)于selenium模仿瀏覽器操作

關(guān)于selenium主要介紹以下幾點:

1、selenium 是一套完整的web應(yīng)用程序測試系統(tǒng),包含了測試的錄制(selenium IDE),編寫及運行(Selenium Remote Control)和測試的并行處理(Selenium Grid)。

2、Selenium的核心Selenium Core基于JsUnit,完全由JavaScript編寫,因此可以用于任何支持JavaScript的瀏覽器上。

3、selenium可以模擬真實瀏覽器,自動化測試工具,支持多種瀏覽器,爬蟲中主要用來解決JavaScript渲染問題。

4、用python寫爬蟲的時候,主要用的是selenium的Webdriver。

這些是某說明文檔的內(nèi)容,能看懂就看,看不懂就看樓主的簡單版:

selenium的話主要用于模仿瀏覽器操作,比如向文本框中賦值,點擊按鈕等。配合高效率瀏覽器的話也是實現(xiàn)爬蟲的一個比較好的方法。優(yōu)點是通過模擬瀏覽器操作,不易被反爬檢測。缺點是效率低下,非常不適合大型爬蟲,小作坊自己玩玩就好。

六、關(guān)于Scrapy框架

這又是一塊非常非常龐大的內(nèi)容,很多技術(shù)一旦牽扯上框架就麻煩了。當然學會了的話,做大型項目就簡單多了。重點就是框架一般針對比較大型的系統(tǒng)去做,所以其管理和操作會比較麻煩,內(nèi)部的一些機制也不是很好說明。這一塊的話如果以后有時間就單獨寫一篇文章詳細介紹,畢竟從原理到搭建到配置到使用,內(nèi)容太多。。

七、關(guān)于驗證碼處理

對于處理驗證碼的話,目前簡單點的是直接使用PIL(pillow)做圖像處理,然后使用Tesseract直接識別。此方法樓主已經(jīng)寫好了單獨的文章供大家參考。

另,如果學過機器學習神經(jīng)網(wǎng)絡(luò)這部分的話,還可以使用卷積神經(jīng)網(wǎng)絡(luò)。這個方向樓主還正在學,簡單給大家指條路,不詳述。

以上是樓主想到的爬蟲所有內(nèi)容,若有錯誤還望指正。

相關(guān)文章

  • Python Socket傳輸文件示例

    Python Socket傳輸文件示例

    這篇文章主要介紹了Python Socket傳輸文件示例,發(fā)送端可以不停的發(fā)送新文件,接收端可以不停的接收新文件。有興趣的可以了解一下。
    2017-01-01
  • 你可能不知道的Python 技巧小結(jié)

    你可能不知道的Python 技巧小結(jié)

    有許許多多文章寫了 Python 中的許多很酷的特性,例如變量解包、偏函數(shù)、枚舉可迭代對象,但是關(guān)于 Python 還有很多要討論的話題,因此在本文中,我將嘗試展示一些我知道的和在使用的,但很少在其它文章提到過的特性。那就開始吧
    2020-01-01
  • 基于Python函數(shù)的作用域規(guī)則和閉包(詳解)

    基于Python函數(shù)的作用域規(guī)則和閉包(詳解)

    下面小編就為大家分享一篇基于Python函數(shù)的作用域規(guī)則和閉包詳解,希望對大家有所幫助。一起跟隨小編過來看看吧
    2017-11-11
  • 基于Python+Pygame實現(xiàn)變異狗大戰(zhàn)游戲

    基于Python+Pygame實現(xiàn)變異狗大戰(zhàn)游戲

    只有你想不到,沒有我找不到寫不了的好游戲!這篇文章就來和大家分享一下如何基于Python+Pygame實現(xiàn)變異狗大戰(zhàn)游戲,感興趣的可以了解一下
    2023-03-03
  • python可視化大屏庫big_screen示例詳解

    python可視化大屏庫big_screen示例詳解

    提到數(shù)據(jù)可視化,我們會想到 Plotly、Matplotlib、Pyecharts等可視化庫,或者一些商用軟件Tableau、FineBI等等。如果你希望操作更簡單、展現(xiàn)效果更強大,那么這款工具 big_screen 更適合
    2021-11-11
  • Python爬蟲設(shè)置代理IP(圖文)

    Python爬蟲設(shè)置代理IP(圖文)

    在本篇內(nèi)容里小編給大家分享了關(guān)于Python爬蟲設(shè)置代理IP的相關(guān)知識點和步驟,需要的朋友們參考下。
    2018-12-12
  • python實現(xiàn)對excel進行數(shù)據(jù)剔除操作實例

    python實現(xiàn)對excel進行數(shù)據(jù)剔除操作實例

    python在數(shù)據(jù)分析這方便的介紹應(yīng)該不用多說了,下面這篇文章主要給大家介紹了關(guān)于利用python實現(xiàn)對excel進行數(shù)據(jù)剔除操作的相關(guān)資料,文中通過示例代碼介紹的非常詳細,需要的朋友可以參考借鑒,下面來一起看看吧。
    2017-12-12
  • pandas分別寫入excel的不同sheet方法

    pandas分別寫入excel的不同sheet方法

    今天小編就為大家分享一篇pandas分別寫入excel的不同sheet方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-12-12
  • Python繪圖之在父組件中使用子組件的函數(shù)詳解

    Python繪圖之在父組件中使用子組件的函數(shù)詳解

    這篇文章主要為大家詳細介紹了Python在項目開發(fā)時,如何實現(xiàn)在父組件中使用子組件的函數(shù),文中的示例代碼講解詳細,感興趣的小伙伴可以跟隨小編一起了解一下
    2023-08-08
  • 淺談django rest jwt vue 跨域問題

    淺談django rest jwt vue 跨域問題

    這篇文章主要介紹了django rest jwt vue 跨域問題,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2018-10-10

最新評論