快捷導(dǎo)航

Python天氣預(yù)報(bào)采集器實(shí)現(xiàn)代碼(網(wǎng)頁爬蟲)

更新時(shí)間：2012年10月07日 00:36:02 作者：

這個(gè)天氣預(yù)報(bào)采集是從中國天氣網(wǎng)提取廣東省內(nèi)主要城市的天氣并回顯。本來是打算采集騰訊天氣的，但是貌似它的數(shù)據(jù)是用js寫上去還是什么的，得到的html文本中不包含數(shù)據(jù)，所以就算了

爬蟲簡單說來包括兩個(gè)步驟：獲得網(wǎng)頁文本、過濾得到數(shù)據(jù)。
　　1、獲得html文本。
　　python在獲取html方面十分方便，寥寥數(shù)行代碼就可以實(shí)現(xiàn)我們需要的功能。

復(fù)制代碼代碼如下:

 
def getHtml(url): 
page = urllib.urlopen(url) 
html = page.read() 
page.close() 
return html 

這么幾行代碼相信不用注釋都能大概知道它的意思。

　　2、根據(jù)正則表達(dá)式等獲得需要的內(nèi)容。

　　使用正則表達(dá)式時(shí)需要仔細(xì)觀察該網(wǎng)頁信息的結(jié)構(gòu)，并寫出正確的正則表達(dá)式。
　　python正則表達(dá)式的使用也很簡潔。我的上一篇文章《Python的一些用法》介紹了一點(diǎn)正則的用法。這里需要一個(gè)新的用法：

復(fù)制代碼代碼如下:

 
def getWeather(html): 
reg = '<a title=.*?>(.*?)</a>.*?<span>(.*?)</span>.*?<b>(.*?)</b>' 
weatherList = re.compile(reg).findall(html) 
return weatherList 

其中reg是正則表達(dá)式，html是第一步獲得的文本。findall的作用是找到html中所有符合正則匹配的字符串并存放到weatherList中。之后再枚舉weatheList中的數(shù)據(jù)輸出即可。
　　這里的正則表達(dá)式reg有兩個(gè)地方要注意。
　　一個(gè)是“(.*?)”。只要是（）中的內(nèi)容都是我們將要獲得的內(nèi)容，如果有多個(gè)括號，那么findall的每個(gè)結(jié)果就都包含這幾個(gè)括號中的內(nèi)容。上面有三個(gè)括號，分別對應(yīng)城市、最低溫和最高溫。
　　另一個(gè)是“.*?”。python的正則匹配默認(rèn)是貪婪的，即默認(rèn)盡可能多地匹配字符串。如果在末尾加上問號，則表示非貪婪模式，即盡可能少地匹配字符串。在這里，由于有多個(gè)城市的信息需要匹配，所以需要使用非貪婪模式，否則匹配結(jié)果只剩下一個(gè)，且是不正確的。
　　
　　python的使用確實(shí)十分方便：）

您可能感興趣的文章: