Python 爬蟲學(xué)習(xí)筆記之單線程爬蟲
介紹
本篇文章主要介紹如何爬取麥子學(xué)院的課程信息(本爬蟲仍是單線程爬蟲),在開始介紹之前,先來看看結(jié)果示意圖

怎么樣,是不是已經(jīng)躍躍欲試了?首先讓我們打開麥子學(xué)院的網(wǎng)址,然后找到麥子學(xué)院的全部課程信息,像下面這樣

這個(gè)時(shí)候進(jìn)行翻頁(yè),觀看網(wǎng)址的變化,首先,第一頁(yè)的網(wǎng)址是 http://www.maiziedu.com/course/list/, 第二頁(yè)變成了 http://www.maiziedu.com/course/list/all-all/0-2/, 第三頁(yè)變成了 http://www.maiziedu.com/course/list/all-all/0-3/ ,可以看到,每次翻一頁(yè),0后面的數(shù)字就會(huì)遞增1,然后就有人會(huì)想到了,拿第一頁(yè)呢?我們嘗試著將 http://www.maiziedu.com/course/list/all-all/0-1/ 放進(jìn)瀏覽器的地址欄,發(fā)現(xiàn)可以打開第一欄,那就好辦了,我們只需要使用 re.sub() 就可以很輕松的獲取到任何一頁(yè)的內(nèi)容。獲取到網(wǎng)址鏈接之后,下面要做的就是獲取網(wǎng)頁(yè)的源代碼,首先右擊查看審查或者是檢查元素,就可以看到以下界面

找到課程所在的位置以后,就可以很輕松的利用正則表達(dá)式將我們需要的內(nèi)容提取出來,至于怎么提取,那就要靠你自己了,嘗試著自己去找規(guī)律才能有更大的收獲。如果你實(shí)在不知道怎么提取,那么繼續(xù)往下,看我的源代碼吧
實(shí)戰(zhàn)源代碼
# coding=utf-8
import re
import requests
import sys
reload(sys)
sys.setdefaultencoding("utf8")
class spider():
def __init__(self):
print "開始爬取內(nèi)容。。。"
def changePage(self, url, total_page):
nowpage = int(re.search('/0-(\d+)/', url, re.S).group(1))
pagegroup = []
for i in range(nowpage, total_page + 1):
link = re.sub('/0-(\d+)/', '/0-%s/' % i, url, re.S)
pagegroup.append(link)
return pagegroup
def getsource(self, url):
html = requests.get(url)
return html.text
def getclasses(self, source):
classes = re.search('<ul class="zy_course_list">(.*?)</ul>', source, re.S).group(1)
return classes
def geteach(self, classes):
eachclasses = re.findall('<li>(.*?)</li>', classes, re.S)
return eachclasses
def getinfo(self, eachclass):
info = {}
info['title'] = re.search('<a title="(.*?)"', eachclass, re.S).group(1)
info['people'] = re.search('<p class="color99">(.*?)</p>', eachclass, re.S).group(1)
return info
def saveinfo(self, classinfo):
f = open('info.txt', 'a')
for each in classinfo:
f.writelines('title : ' + each['title'] + '\n')
f.writelines('people : ' + each['people'] + '\n\n')
f.close()
if __name__ == '__main__':
classinfo = []
url = 'http://www.maiziedu.com/course/list/all-all/0-1/'
maizispider = spider()
all_links = maizispider.changePage(url, 30)
for each in all_links:
htmlsources = maizispider.getsource(each)
classes = maizispider.getclasses(htmlsources)
eachclasses = maizispider.geteach(classes)
for each in eachclasses:
info = maizispider.getinfo(each)
classinfo.append(info)
maizispider.saveinfo(classinfo)
以上代碼并不難懂,基本就是正則表達(dá)式的使用,然后直接運(yùn)行就可以看到開頭我們的截圖內(nèi)容了,由于這是單線程爬蟲,所以運(yùn)行速度感覺有點(diǎn)慢,接下來還會(huì)繼續(xù)更新多線程爬蟲。
應(yīng)小伙伴們的要求,下面附上requests爬蟲庫(kù)的安裝和簡(jiǎn)單示例
首先安裝pip包管理工具,下載get-pip.py. 我的機(jī)器上安裝的既有python2也有python3。
安裝pip到python2:
python get-pip.py
安裝到python3:
python3 get-pip.py
pip安裝完成以后,安裝requests庫(kù)開啟python爬蟲學(xué)習(xí)。
安裝requests
pip3 install requests
我使用的python3,python2可以直接用pip install requests.
入門例子
import requests
html=requests.get("http://gupowang.baijia.baidu.com/article/283878")
html.encoding='utf-8'
print(html.text)
第一行引入requests庫(kù),第二行使用requests的get方法獲取網(wǎng)頁(yè)源代碼,第三行設(shè)置編碼格式,第四行文本輸出。
把獲取到的網(wǎng)頁(yè)源代碼保存到文本文件中:
import requests
import os
html=requests.get("http://gupowang.baijia.baidu.com/article/283878")
html_file=open("news.txt","w")
html.encoding='utf-8'
print(html.text,file=html_file)
相關(guān)文章
使用 Python 實(shí)現(xiàn)文件遞歸遍歷的三種方式
這篇文章主要介紹了使用 Python 實(shí)現(xiàn)文件遞歸遍歷的三種方式,非常不錯(cuò),具有一定的參考借鑒價(jià)值,需要的朋友參考下吧2018-07-07
Python判斷對(duì)象是否相等及eq函數(shù)的講解
今天小編就為大家分享一篇關(guān)于Python判斷對(duì)象是否相等及eq函數(shù)的講解,小編覺得內(nèi)容挺不錯(cuò)的,現(xiàn)在分享給大家,具有很好的參考價(jià)值,需要的朋友一起跟隨小編來看看吧2019-02-02
基于Python實(shí)現(xiàn)開心消消樂小游戲的示例代碼
這篇文章主要是帶著大家自制一款開心消消樂,還原度超高哦~還在等什么動(dòng)動(dòng)手就能擁有屬于自己的”消消樂“小游戲呢,趕快學(xué)起來吧2022-05-05
Python利用hashlib實(shí)現(xiàn)文件MD5碼的批量存儲(chǔ)
這篇文章主要為大家詳細(xì)介紹了如何用Python和hashlib實(shí)現(xiàn)文件MD5碼的批量存儲(chǔ)功能,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以學(xué)習(xí)一下2023-05-05
Python利用pandas和matplotlib實(shí)現(xiàn)繪制圓環(huán)圖
在可視化的過程中,圓環(huán)圖是一種常用的方式,特別適合于展示各類別占比情況,本文將介紹如何使用 Python中的 pandas 和 matplotlib 庫(kù),來制作一個(gè)店鋪銷量占比的圓環(huán)圖,需要的可以參考下2023-11-11

