Python檢測網(wǎng)站鏈接是否已存在
Python是一種解釋型、面向?qū)ο?、動態(tài)數(shù)據(jù)類型的高級程序設(shè)計語言。
Python由Guido van Rossum于1989年底發(fā)明,第一個公開發(fā)行版發(fā)行于1991年。
像Perl語言一樣, Python 源代碼同樣遵循 GPL(GNU General Public License)協(xié)議。
早就聽說Python語言操作簡單,果然名不虛傳,短短幾句,就實現(xiàn)了基本的功能。
要檢測目標(biāo)網(wǎng)站上是否存在指定的URL,其實過程很簡單:
1、獲得指定網(wǎng)站網(wǎng)頁的HTML代碼
2、在HTML代碼中查找指定的URL
3、如果存在,OK;否則,Error
整個程序引用了兩個lib庫,urllib2和sgmllib。
urllib2庫主要定義了一些訪問URL(基本通過HTTP)的函數(shù)與類。
sgmllib庫主要負(fù)責(zé)解析HTML代碼。
import urllib from sgmllib import SGMLParser class URLLister(SGMLParser): def reset(self): SGMLParser.reset(self) self.urls = [] def start_a(self,attrs): href=[v for k,v in attrs if k=='href'] if href: if (href[].count('http://網(wǎng)站URL')==): self.urls.extend(href) links = ['http://www.google.com/', 'http://www.baidu.com', 'http://www.sohu.net', 'http://www..com', 'http://www.cnblogs.com', 'http://www.qq.com', 'http://www.yahoo.com/', 'http://www.bing.com/', 'http://www..com',] for eachlink in links: f = urllib.urlopen(eachlink) if f.code ==: parser = URLLister() parser.feed(f.read()) f.close() if (len(parser.urls)>=): print 'The link from '+eachlink+' is OK!' else: print 'The link from '+eachlink+' is ERROR!'
這其中幾個主要函數(shù):
1、urllib2.urlopen(url[, data][, timeout])//打開一個URL
2、SGMLParser.feed(data) //獲得需要解析的HTML數(shù)據(jù)
3、SGMLParser.start_tag(attributes) //指定需要解析的HTML標(biāo)簽,在本程序中,我們調(diào)用了start_a,說明我們需要解析HTML代碼中<a>標(biāo)簽。通過查找<a>標(biāo)簽中href屬性的value,可以獲得該網(wǎng)頁上所有鏈接的信息,只要我們指定的URL存在,就OK了。
這其實是一個很小的腳本,但也讓我激動不已。一來,我已經(jīng)跨進(jìn)了Python的世界,并用它解決了實際工作中的問題,二來,它的簡單語法、縮進(jìn)格式著實讓我眼前一亮。今后,希望能夠多多使用Python,解決實際工作中的種種問題,做到學(xué)以致用.
以上內(nèi)容是針對Python檢測網(wǎng)站鏈接是否已存在的相關(guān)介紹,希望對大家有所幫助!
相關(guān)文章
python利用pytesseract 實現(xiàn)本地識別圖片文字
這篇文章主要介紹了python利用pytesseract 實現(xiàn)本地識別圖片文字,幫助大家更好的理解和使用python,感興趣的朋友可以了解下2020-12-12Django ORM多對多查詢方法(自定義第三張表&ManyToManyField)
今天小編就為大家分享一篇Django ORM多對多查詢方法(自定義第三張表&ManyToManyField),具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-08-08PyQt5基本控件使用詳解:單選按鈕、復(fù)選框、下拉框
這篇文章主要介紹了PyQt5基本控件使用:單選按鈕、復(fù)選框、下拉框,本文中的內(nèi)容和實例也基本回答了開篇提到的問題。需要的朋友可以參考下2019-08-08