亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

python制作小說爬蟲實(shí)錄

 更新時(shí)間:2017年08月14日 08:51:47   作者:果子圓圓  
本文給大家介紹的是作者所寫的第一個(gè)爬蟲程序的全過程,從構(gòu)思到思路到程序的編寫,非常的細(xì)致,有需要的小伙伴可以參考下

紀(jì)念我的第一個(gè)爬蟲程序,一共寫了三個(gè)白天,其中有兩個(gè)上午沒有看,中途遇到了各種奇怪的問題,伴隨著他們的解決,對(duì)于一些基本的操作也弄清楚了。果然,對(duì)于這些東西的最號(hào)的學(xué)習(xí)方式,就是在使用中學(xué)習(xí),通過解決問題的方式來搞定這些知識(shí)。按需索取,才能更有針對(duì)性。

大體記錄下整個(gè)過程。

--------------------------------------------------------------------------------

準(zhǔn)備構(gòu)思

出于對(duì)于python的熱愛,想要嘗試一些練手的項(xiàng)目,但是不論是看書,還是直接嘗試別人的項(xiàng)目,到最后都會(huì)淪為不停地復(fù)制粘貼...最實(shí)際的就是自己來上手親自寫代碼。思路都是一樣的,但是具體的實(shí)現(xiàn)還得靠自己。

以前的復(fù)制粘貼給我的幫助也就是告訴了我大致的流程。

確定目標(biāo)網(wǎng)址

目標(biāo)網(wǎng)址是關(guān)鍵。我夢(mèng)想中的爬蟲是那種偏向于更智能的,直接給他一個(gè)想要獲取的關(guān)鍵詞,一步步的流程直接自己完成,可以自己給定范圍,也可以直接爬取整個(gè)互聯(lián)網(wǎng)或者更實(shí)際的就是整個(gè)百度上的內(nèi)容,但是,目前就我而言,見到的爬蟲,都是給定目標(biāo)網(wǎng)址,通過目標(biāo)頁面上的內(nèi)容進(jìn)一步執(zhí)行規(guī)定的操作,所以現(xiàn)在來看,我們?cè)趯懪老x之前,需要確定一個(gè)基準(zhǔn)頁面,這個(gè)是需要我們事先制定的。在考慮我們需要程序完成怎樣的功能,獲取頁面文本還是相關(guān)鏈接內(nèi)容還是其他的目的。

我這個(gè)程序想要獲取的是《劍來》小說,把各個(gè)章節(jié)的內(nèi)容爬去下載存儲(chǔ)到文件里。

編程只是實(shí)現(xiàn)目的的工具。

所以重點(diǎn)是分析我們的需求。

獲取小說目錄頁面是基本。這里有各個(gè)章節(jié)的鏈接,標(biāo)題等等內(nèi)容。這是我們需要的。

有了各個(gè)章節(jié)的鏈接,就需要進(jìn)入其中獲得各個(gè)章節(jié)的內(nèi)容。

所以,我們需要獲得頁面內(nèi)容,需要從中獲得目標(biāo)內(nèi)容。

所以使用 urllib.request,re 庫。

前者用來獲得網(wǎng)頁內(nèi)容,后者獲得目標(biāo)信息。

headers

直接使用urllib.request的urlopen(),read()方法是會(huì)報(bào)以下錯(cuò)誤:

raise HTTPError(req.get_full_url(), code, msg, hdrs, fp)
HTTPError: HTTP Error 403: Forbidden

出現(xiàn)urllib2.HTTPError: HTTP Error 403: Forbidden錯(cuò)誤是由于網(wǎng)站禁止爬蟲,可以在請(qǐng)求加上頭信息,偽裝成瀏覽器。

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:55.0) Gecko/20100101 Firefox/55.0'}
request = url_req.Request(url, headers=headers)
response = url_req.urlopen(request, data=None, timeout=3)
html = response.read().decode('GBK')

注意:這里存在兩個(gè)容易出問題的地方。
•編碼:編碼問題是使用爬蟲中有時(shí)候會(huì)很頭痛的問題,由于網(wǎng)頁源代碼編碼格式不明確,所以這里嘗試了許久。

使用chardet庫的detect()方法可以檢測(cè)字節(jié)字符串的編碼。所以直接檢測(cè)這里的html(先不要解碼)。輸出的是GB2312,但是在后面頁面的爬取中,會(huì)出現(xiàn)提示有的字符的編碼異常,所以這里采取了比其范圍更廣的中文字符集GBK,解決了這個(gè)問題。
•設(shè)置超時(shí)范圍:由于頻繁的獲取網(wǎng)頁內(nèi)容,目標(biāo)網(wǎng)站有時(shí)候會(huì)出現(xiàn)沒有響應(yīng)的問題。

(這個(gè)問題可以見我在CSDN上的提問:關(guān)于python爬蟲程序中途停止的問題)

于是我采取了捕獲 urlopen()的socket.timeout異常,并在出現(xiàn)異常的時(shí)候再循環(huán)訪問,直到獲得目標(biāo)頁面。

獲得目標(biāo)內(nèi)容

這里使用的是正則表達(dá)式。re模塊。這里的使用并不復(fù)雜。

首先需要一個(gè)模式字符串。以re.I指定忽略大小寫,編譯后的對(duì)象擁有本身匹配的方法,這里使用的是findall(),返回一個(gè)所有結(jié)果組成的列表??梢约皶r(shí)返回輸出其內(nèi)容,進(jìn)而選擇合適的部分進(jìn)行處理。

python 正則表達(dá)式

通過查看相關(guān)的符號(hào),這里使用(.+?)來實(shí)現(xiàn)匹配非貪婪模式(盡量少的)下任意無限字符,對(duì)之使用(),進(jìn)而匹配括號(hào)內(nèi)的模式。

文件寫入

使用with open() as file:,進(jìn)而可以處理文件。并且可以自動(dòng)執(zhí)行打開和關(guān)閉文件,更為便捷安全。
with open(findall_title[0] + '.txt', 'w+', encoding='utf-8') as open_file:

•這里也要注意編碼的問題,指定utf-8。會(huì)避免一些問題。
•這里使用w+模式,追加寫文件。

完整代碼

# -*- coding: utf-8 -*-
"""
Created on Fri Aug 11 16:31:42 2017
@author: lart
"""

import urllib.request as url_req
import re, socket, time


def r_o_html(url):
  print('r_o_html begin')

  headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:55.0) Gecko/20100101 Firefox/55.0'}

  request = url_req.Request(url, headers=headers)

  NET_STATUS = False
  while not NET_STATUS:
    try:
      response = url_req.urlopen(request, data=None, timeout=3)
      html = response.read().decode('GBK')
      print('NET_STATUS is good')
      print('r_o_html end')
      return html
    except socket.timeout:
      print('NET_STATUS is not good')
      NET_STATUS = False

def re_findall(re_string, operation, html):

  print('re_findall begin')
  pattern = re.compile(re_string, re.I)

  if operation == 'findall':
    result = pattern.findall(html)
  else:
    print('this operation is invalid')
    exit(-1)

  print('re_findall end')
  return result


if __name__ == '__main__':
  url_base = 'http://www.7kankan.la/book/1/'

  html = r_o_html(url_base)

  findall_title = re_findall(r'<title>(.+?)</title>', 'findall', html)

  findall_chapter = re_findall(r'<dd class="col-md-3"><a href=[\',"](.+?)[\',"] title=[\',"](.+?)[\',"]>', 'findall', html)

  with open(findall_title[0] + '.txt', 'w+', encoding='utf-8') as open_file:
    print('article文件打開', findall_chapter)
    for i in range(len(findall_chapter)):
      print('第' + str(i) + '章')

      open_file.write('\n\n\t' + findall_chapter[i][1] + '\n --------------------------------------------------------------------- \n')

      url_chapter = url_base + findall_chapter[i][0]

      html_chapter = r_o_html(url_chapter)

      findall_article = re_findall(r'&nbsp;&nbsp;&nbsp;&nbsp;(.+?)<br />', 'findall', html_chapter)

      findall_article_next = findall_chapter[i][0].replace('.html', '_2.html')

      url_nextchapter = url_base + findall_article_next

      html_nextchapter = r_o_html(url_nextchapter)

      if html_nextchapter:
        findall_article.extend(re_findall(r'&nbsp;&nbsp;&nbsp;&nbsp;(.+?)<br />', 'findall', html_nextchapter))

        for text in findall_article:
          open_file.write(text + '\n')

      time.sleep(1)

  print('文件寫入完畢')

相關(guān)文章

  • python使用PIL縮放網(wǎng)絡(luò)圖片并保存的方法

    python使用PIL縮放網(wǎng)絡(luò)圖片并保存的方法

    這篇文章主要介紹了python使用PIL縮放網(wǎng)絡(luò)圖片并保存的方法,涉及Python操作網(wǎng)絡(luò)圖片的相關(guān)技巧,非常具有實(shí)用價(jià)值,需要的朋友可以參考下
    2015-04-04
  • Python異常的檢測(cè)和處理方法

    Python異常的檢測(cè)和處理方法

    今天小編就為大家分享一篇關(guān)于Python異常的檢測(cè)和處理方法,小編覺得內(nèi)容挺不錯(cuò)的,現(xiàn)在分享給大家,具有很好的參考價(jià)值,需要的朋友一起跟隨小編來看看吧
    2018-10-10
  • PyQt5 QTreeWidget 樹形結(jié)構(gòu)遞歸遍歷當(dāng)前所有節(jié)點(diǎn)的實(shí)現(xiàn)

    PyQt5 QTreeWidget 樹形結(jié)構(gòu)遞歸遍歷當(dāng)前所有節(jié)點(diǎn)的實(shí)現(xiàn)

    Qt中實(shí)現(xiàn)樹形結(jié)構(gòu)可以使用QTreeWidget類,也可以使用QTreeView類,本文主要介紹了PyQt5 QTreeWidget 樹形結(jié)構(gòu)遞歸遍歷當(dāng)前所有節(jié)點(diǎn)的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2021-11-11
  • Python 常用 PEP8 編碼規(guī)范詳解

    Python 常用 PEP8 編碼規(guī)范詳解

    這篇文章主要介紹了Python 常用 PEP8 編碼規(guī)范詳解的相關(guān)資料,需要的朋友可以參考下
    2017-01-01
  • 在Django中限制已登錄用戶的訪問的方法

    在Django中限制已登錄用戶的訪問的方法

    這篇文章主要介紹了在Django中限制已登錄用戶的訪問的方法,Django是最具人氣的Python開發(fā)框架,需要的朋友可以參考下
    2015-07-07
  • Python中求對(duì)數(shù)方法總結(jié)

    Python中求對(duì)數(shù)方法總結(jié)

    這篇文章主要介紹了Python中求對(duì)數(shù)方法總結(jié),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-03-03
  • python中dlib庫的詳細(xì)安裝方法

    python中dlib庫的詳細(xì)安裝方法

    這篇文章主要介紹了python之dlib庫的詳細(xì)安裝方法,文中有非常詳細(xì)的代碼示例,對(duì)正在學(xué)習(xí)python的小伙伴們有很好的幫助,需要的朋友可以參考下
    2021-04-04
  • 基于Python實(shí)現(xiàn)用戶管理系統(tǒng)

    基于Python實(shí)現(xiàn)用戶管理系統(tǒng)

    這篇文章主要為大家詳細(xì)介紹了基于Python實(shí)現(xiàn)用戶管理系統(tǒng),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2019-02-02
  • python運(yùn)行加速的幾種方式

    python運(yùn)行加速的幾種方式

    Python運(yùn)行的慢是歷來被詬病的,本文就來介紹一下python運(yùn)行加速的幾種方式,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2021-07-07
  • pytest框架之fixture詳細(xì)使用詳解

    pytest框架之fixture詳細(xì)使用詳解

    這篇文章主要介紹了pytest框架之fixture詳細(xì)使用詳解,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2021-04-04

最新評(píng)論