python爬取網(wǎng)站數(shù)據(jù)保存使用的方法
編碼問(wèn)題
因?yàn)樯婕暗街形模员厝坏厣婕暗搅司幋a的問(wèn)題,這一次借這個(gè)機(jī)會(huì)算是徹底搞清楚了。
問(wèn)題要從文字的編碼講起。原本的英文編碼只有0~255,剛好是8位1個(gè)字節(jié)。為了表示各種不同的語(yǔ)言,自然要進(jìn)行擴(kuò)充。中文的話有GB系列。可能還聽(tīng)說(shuō)過(guò)Unicode和UTF-8,那么,它們之間是什么關(guān)系呢?
Unicode是一種編碼方案,又稱萬(wàn)國(guó)碼,可見(jiàn)其包含之廣。但是具體存儲(chǔ)到計(jì)算機(jī)上,并不用這種編碼,可以說(shuō)它起著一個(gè)中間人的作用。你可以再把Unicode編碼(encode)為UTF-8,或者GB,再存儲(chǔ)到計(jì)算機(jī)上。UTF-8或者GB也可以進(jìn)行解碼(decode)還原為Unicode。
在python中Unicode是一類對(duì)象,表現(xiàn)為以u(píng)打頭的,比如u'中文',而string又是一類對(duì)象,是在具體編碼方式下的實(shí)際存在計(jì)算機(jī)上的字符串。比如utf-8編碼下的'中文'和gbk編碼下的'中文',并不相同??梢钥慈缦麓a:
>>> str=u'中文'
>>> str1=str.encode('utf8')
>>> str2=str.encode('gbk')
>>> print repr(str)
u'\u4e2d\u6587'
>>> print repr(str1)
'\xe4\xb8\xad\xe6\x96\x87'
>>> print repr(str2)
'\xd6\xd0\xce\xc4'
可以看到,其實(shí)存儲(chǔ)在計(jì)算機(jī)中的只是這樣的編碼,而不是一個(gè)一個(gè)的漢字,在print的時(shí)候要知道當(dāng)時(shí)是用的什么樣的編碼方式,才能正確的print出來(lái)。有一個(gè)說(shuō)法提得很好,python中的Unicode才是真正的字符串,而string是字節(jié)串
文件編碼
既然有不同的編碼,那么如果在代碼文件中直接寫(xiě)string的話,那么它到底是哪一種編碼呢?這個(gè)就是由文件的編碼所決定的。文件總是以一定的編碼方式保存的。而python文件可以寫(xiě)上coding的聲明語(yǔ)句,用來(lái)說(shuō)明這個(gè)文件是用什么編碼方式保存的。如果聲明的編碼方式和實(shí)際保存的編碼方式不一致就會(huì)出現(xiàn)異常??梢砸?jiàn)下面例子: 以u(píng)tf-8保存的文件聲明為gbk
#coding:gbk
str=u'漢'
str1=str.encode('utf8')
str2=str.encode('gbk')
str3='漢'
print repr(str)
print repr(str1)
print repr(str2)
print repr(str3)
提示錯(cuò)誤 File "test.py", line 1 SyntaxError: Non-ASCII character '\xe6' in file test.py on line 1, but no encodi ng declared; see http://www.python.org/peps/pep-0263.html for details 改為
#coding:utf8
str=u'漢'
str1=str.encode('utf8')
str2=str.encode('gbk')
str3='漢'
print repr(str)
print repr(str1)
print repr(str2)
print repr(str3)
輸出正常結(jié)果 u'\u6c49' '\xe6\xb1\x89' '\xba\xba' '\xe6\xb1\x89'
基本方法
其實(shí)用python爬取網(wǎng)頁(yè)很簡(jiǎn)單,只有簡(jiǎn)單的幾句話
import urllib2
page=urllib2.urlopen('url').read()
這樣就可以獲得到頁(yè)面的內(nèi)容。接下來(lái)再用正則匹配去匹配所需要的內(nèi)容就行了。
但是,真正要做起來(lái),就會(huì)有各種各樣的細(xì)節(jié)問(wèn)題。
登錄
這是一個(gè)需要登錄認(rèn)證的網(wǎng)站。也不太難,只要導(dǎo)入cookielib和urllib庫(kù)就行。
import urllib,urllib2,cookielib
cookiejar = cookielib.CookieJar()
urlOpener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookiejar))
這樣就裝載進(jìn)一個(gè)cookie,用urlOpener去open登錄以后就可以記住信息。
斷線重連
如果只是做到上面的程度,不對(duì)open進(jìn)行包裝的話,只要網(wǎng)絡(luò)狀況有些起伏,就直接拋出異常,退出整個(gè)程序,是個(gè)很不好的程序。這個(gè)時(shí)候,只要對(duì)異常進(jìn)行處理,多試幾次就行了:
def multi_open(opener,*arg):
while True:
retryTimes=20
while retryTimes>0:
try:
return opener.open(*arg)
except:
print '.',
retryTimes-=1
正則匹配
其實(shí)正則匹配并不算是一個(gè)特別好的方法,因?yàn)樗娜蒎e(cuò)性很不好,網(wǎng)頁(yè)要完全統(tǒng)一。如果有稍微的不統(tǒng)一,就會(huì)失敗。后來(lái)看到說(shuō)有根據(jù)xpath來(lái)進(jìn)行選取的,下次可以嘗試一下。
寫(xiě)正則其實(shí)是有一定技巧的:
非貪婪匹配。比如這樣一個(gè)標(biāo)簽:<span class='a'>hello</span>,要取出a來(lái),如果寫(xiě)成這樣的表達(dá)式,就不行了:<span class=.*>hello</span>。因?yàn)?進(jìn)行了貪婪匹配。這是要用.?:<span class=.?>hello</span>。
跨行匹配。實(shí)現(xiàn)跨行有一種思路是運(yùn)用DOTALL標(biāo)志位,這樣.就會(huì)匹配到換行。但是這樣一來(lái),整個(gè)匹配過(guò)程就會(huì)變得很慢。本來(lái)的匹配是以行為單位的。整個(gè)過(guò)程最多就是O(nc2),n是行數(shù),c是平均列數(shù)。現(xiàn)在極有可能變?yōu)镺((nc)2)。我的實(shí)現(xiàn)方案是運(yùn)用\n來(lái)匹配換行,這樣可以明確指出匹配最多跨躍多少行。比如:abc\s*\n\s*def,就指出查找的是隔一行的。(.\n)?就可以指定是匹配盡可能少的行。
這里其實(shí)還要注意一個(gè)點(diǎn)。有的行末是帶有\(zhòng)r的。也就是說(shuō)一行是以\r\n結(jié)尾的。當(dāng)初不知道這一點(diǎn),正則就調(diào)試了很久。現(xiàn)在直接用\s,表示行末空格和\r。
無(wú)捕獲分組。為了不對(duì)捕獲的分組造成影響,上面的(.\n)可以改為(?:.\n),這樣捕獲分組時(shí),就會(huì)忽略它。
單括號(hào)要進(jìn)行轉(zhuǎn)義。因?yàn)閱卫ㄌ?hào)在正則里是用來(lái)表示分組的,所以為了匹配單括號(hào)就進(jìn)行轉(zhuǎn)義。正則字符串最好用的是帶有r前綴的字符串,如果不是的話,則要對(duì)\再進(jìn)行轉(zhuǎn)義。
快速正則。寫(xiě)了那么多模式,也總結(jié)出一規(guī)律出來(lái)。先把要匹配的字符相關(guān)的段落拿出來(lái)。要匹配的東西用(.?)代替。把換行\(zhòng)n替換為字符串\s\n\s*,再去掉行首行末的空格。整個(gè)過(guò)程在vim中可以很快就寫(xiě)好。
Excel操作
這次的數(shù)據(jù)是放進(jìn)Excel的。到后面才意識(shí)到如果放進(jìn)數(shù)據(jù)庫(kù)的話,可能就沒(méi)有那么多事了。但是已經(jīng)寫(xiě)到一半,難以回頭了。
搜索Excel,可以得出幾個(gè)方案來(lái),一個(gè)是用xlrt/xlwt庫(kù),這個(gè)不管電腦上是否安裝了Excel,都可以運(yùn)行,但只能是xls格式的。還有一個(gè)是直接包裝了com,需要電腦上安裝了軟件才行。我采用的是前一種。
基本的讀寫(xiě)沒(méi)有問(wèn)題。但是數(shù)據(jù)量一大起來(lái),就有問(wèn)題了。
行數(shù)限制。這個(gè)是xls格式本身決定的,最多行數(shù)只能是65536。而且數(shù)據(jù)一大,文件打開(kāi)也不方便。
結(jié)合以上兩點(diǎn),最終采取了這么一個(gè)策略,如果行數(shù)是1000的倍數(shù),進(jìn)行一次flush,如果行數(shù)超過(guò)65536,新開(kāi)一個(gè)sheet,如果超過(guò)3個(gè)sheet,則新建一個(gè)文件。為了方便,把xlwt包裝了一下
#coding:utf-8#
import xlwt
class XLS:
'''a class wrap the xlwt'''
MAX_ROW=65536
MAX_SHEET_NUM=3
def __init__(self,name,captionList,typeList,encoding='utf8',flushBound=1000):
self.name=name
self.captionList=captionList[:]
self.typeList=typeList[:]
self.workbookIndex=1
self.encoding=encoding
self.wb=xlwt.Workbook(encoding=self.encoding)
self.sheetIndex=1
self.__addSheet()
self.flushBound=flushBound
def __addSheet(self):
if self.sheetIndex != 1:
self.wb.save(self.name+str(self.workbookIndex)+'.xls')
if self.sheetIndex>XLS.MAX_SHEET_NUM:
self.workbookIndex+=1
self.wb=xlwt.Workbook(encoding=self.encoding)
self.sheetIndex=1
self.sheet=self.wb.add_sheet(self.name.encode(self.encoding)+str(self.sheetIndex))
for i in range(len(self.captionList)):
self.sheet.write(0,i,self.captionList[i])
self.row=1
def write(self,data):
if self.row>=XLS.MAX_ROW:
self.sheetIndex += 1
self.__addSheet()
for i in range(len(data)):
if self.typeList[i]=="num":
try:
self.sheet.write(self.row,i,float(data[i]))
except ValueError:
pass
else:
self.sheet.write(self.row,i,data[i])
if self.row % self.flushBound == 0:
self.sheet.flush_row_data()
self.row+=1
def save(self):
self.wb.save(self.name+str(self.workbookIndex)+'.xls')
轉(zhuǎn)換網(wǎng)頁(yè)特殊字符
由于網(wǎng)頁(yè)也有自己獨(dú)特的轉(zhuǎn)義字符,在進(jìn)行正則匹配的時(shí)候就有些麻煩。在官方文檔中查到一個(gè)用字典替換的方案,私以為不錯(cuò),拿來(lái)做了一些擴(kuò)充。其中有一些是為保持正則的正確性。
html_escape_table = {
"&": "&",
'"': """,
"'": "'",
">": ">",
"<": "<",
u"·":"·",
u"°":"°",
#regular expression
".":r"\.",
"^":r"\^",
"$":r"\$",
"{":r"\{",
"}":r"\}",
"\\":r"\\",
"|":r"\|",
"(":r"\(",
")":r"\)",
"+":r"\+",
"*":r"\*",
"?":r"\?",
}
def html_escape(text):
"""Produce entities within text."""
tmp="".join(html_escape_table.get(c,c) for c in text)
return tmp.encode("utf-8")
結(jié)
得出的經(jīng)驗(yàn)差不多就是這些了。不過(guò)最后寫(xiě)出來(lái)的程序自已也不忍再看。風(fēng)格很不好。一開(kāi)始想著先寫(xiě)著試試。然后試著試著就不想改了。
最終的程序要跑很久,其中網(wǎng)絡(luò)通信時(shí)間占了大部分。是不是可以考慮用多線程重構(gòu)一下?想想,還是就這樣吧。
相關(guān)文章
python虛擬環(huán)境的安裝和配置(virtualenv,virtualenvwrapper)
這篇文章主要介紹了python虛擬環(huán)境的安裝和配置(virtualenv,virtualenvwrapper),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-08-08Python實(shí)現(xiàn)把數(shù)字轉(zhuǎn)換成中文
這篇文章主要介紹了Python實(shí)現(xiàn)把數(shù)字轉(zhuǎn)換成中文,一般用于數(shù)字金額轉(zhuǎn)中文大寫(xiě)金額,即將阿拉伯?dāng)?shù)字轉(zhuǎn)換為大寫(xiě)的中文,需要的朋友可以參考下2015-06-06Python使用sqlalchemy實(shí)現(xiàn)連接數(shù)據(jù)庫(kù)的幫助類
這篇文章主要為大家詳細(xì)介紹了Python如何使用sqlalchemy實(shí)現(xiàn)連接數(shù)據(jù)庫(kù)的幫助類,文中的示例代碼講解詳細(xì),具有一定的借鑒價(jià)值,需要的可以參考下2024-02-02Python?基于TCP?傳輸協(xié)議的網(wǎng)絡(luò)通信實(shí)現(xiàn)方法
網(wǎng)絡(luò)編程指在網(wǎng)絡(luò)環(huán)境中,如何實(shí)現(xiàn)不在同一物理位置中的計(jì)算機(jī)之間進(jìn)行數(shù)據(jù)通信,本文重點(diǎn)給大家介紹Python?基于TCP?傳輸協(xié)議的網(wǎng)絡(luò)通信實(shí)現(xiàn)方法,感興趣的朋友跟隨小編一起看看吧2022-02-02Python實(shí)現(xiàn)使用dir獲取類的方法列表
今天小編就為大家分享一篇Python實(shí)現(xiàn)使用dir獲取類的方法列表,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-12-12