亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

python抽取指定url頁面的title方法

 更新時間:2018年05月11日 15:21:44   作者:Together_CZ  
今天小編就為大家分享一篇python抽取指定url頁面的title方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧

今天簡單使用了一下python的re模塊和lxml模塊,分別利用的它們提供的正則表達(dá)式和xpath來解析頁面源碼從中提取所需的title,xpath在完成這樣的小任務(wù)上效率非常好,在這里之所以又使用了一下正則表達(dá)式是因為xpath在處理一些特殊的頁面的時候會出現(xiàn)亂碼的情況,當(dāng)然這不是xpath的原因,而是頁面本身編碼,跟utf-8轉(zhuǎn)碼之間有沖突所致,這里看代碼:

# !/usr/bin/python
#-*-coding:utf-8-*-
'''
功能:抽取指定url的頁面內(nèi)容中的title
'''
import re
import chardet
import urllib
from lxml import etree
def utf8_transfer(strs):
 '''
 utf8編碼轉(zhuǎn)換
 '''
 try:
  if isinstance(strs, unicode):
   strs = strs.encode('utf-8')
  elif chardet.detect(strs)['encoding'] == 'GB2312':
   strs = strs.decode("gb2312", 'ignore').encode('utf-8')
  elif chardet.detect(strs)['encoding'] == 'utf-8':
   strs = strs.decode('utf-8', 'ignore').encode('utf-8')
 except Exception, e:
  print 'utf8_transfer error', strs, e
 return strs
def get_title_xpath(Html):
 '''
 用xpath抽取網(wǎng)頁Title
 '''
 Html = utf8_transfer(Html)
 Html_encoding = chardet.detect(Html)['encoding']
 page = etree.HTML(Html, parser=etree.HTMLParser(encoding=Html_encoding))
 title = page.xpath('/html/head/title/text()')
 try:
  title = title[0].strip()
 except IndexError:
  print 'Nothing'
 print title
def get_title(Html):
 '''
 用re抽取網(wǎng)頁Title
 '''
 Html = utf8_transfer(Html)
 compile_rule = ur'<title>.*</title>'
 title_list = re.findall(compile_rule, Html)
 if title_list == []:
  title = ''
 else:
  title = title_list[0][7:-8]
 print title
if __name__ == '__main__':
	url = 'http://www.baidu.com'
	html = urllib.urlopen(url).read()
	new_html = utf8_transfer(html)
	try:
		get_title_xpath(new_html)
		get_title(new_html)
	except Exception, e:
		print e

下面是結(jié)果:

百度一下,你就知道
百度一下,你就知道

簡單的小實踐,繼續(xù)學(xué)習(xí),歡迎交流。

以上這篇python抽取指定url頁面的title方法就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。

相關(guān)文章

  • 如何使用python操作vmware

    如何使用python操作vmware

    這篇文章主要介紹了如何使用python操作vmware,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2019-07-07
  • Python腳本提取fasta文件單序列信息實現(xiàn)

    Python腳本提取fasta文件單序列信息實現(xiàn)

    這篇文章主要為大家介紹了Python腳本提取fasta文件單序列信息實現(xiàn)示例,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2022-07-07
  • Pytorch 神經(jīng)網(wǎng)絡(luò)—自定義數(shù)據(jù)集上實現(xiàn)教程

    Pytorch 神經(jīng)網(wǎng)絡(luò)—自定義數(shù)據(jù)集上實現(xiàn)教程

    今天小編就為大家分享一篇Pytorch 神經(jīng)網(wǎng)絡(luò)—自定義數(shù)據(jù)集上實現(xiàn)教程,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-01-01
  • 用Python畫一個LinkinPark的logo代碼實例

    用Python畫一個LinkinPark的logo代碼實例

    這篇文章主要介紹了用Python畫一個LinkinPark的logo代碼實例,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2019-09-09
  • Pytest生成測試報告的實現(xiàn)

    Pytest生成測試報告的實現(xiàn)

    本文介紹了如何使用 pytest-html 插件生成測試報告,并提供了詳細(xì)的操作步驟、配置項和示例代碼,具有一定的參考價值,感興趣的可以了解一下
    2023-11-11
  • python3中http協(xié)議提供文件服務(wù)器功能詳解

    python3中http協(xié)議提供文件服務(wù)器功能詳解

    http協(xié)議是互聯(lián)網(wǎng)的通用基礎(chǔ)協(xié)議,也可以利用其來開發(fā)文件服務(wù)器,給客戶提供文件瀏覽,查看,下載,上傳等功能,這篇文章主要介紹了python3中http協(xié)議提供文件服務(wù)器功能,需要的朋友可以參考下
    2023-06-06
  • Python 異常處理的實例詳解

    Python 異常處理的實例詳解

    這篇文章主要介紹了Python 異常處理的實例詳解的相關(guān)資料,希望通過本文能幫助到大家掌握Python 異常的知識,需要的朋友可以參考下
    2017-09-09
  • Python WordCloud 修改色調(diào)的實現(xiàn)方式

    Python WordCloud 修改色調(diào)的實現(xiàn)方式

    這篇文章主要介紹了Python WordCloud 修改色調(diào)的實現(xiàn)方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2021-03-03
  • python常用數(shù)據(jù)結(jié)構(gòu)字典梳理

    python常用數(shù)據(jù)結(jié)構(gòu)字典梳理

    這篇文章主要介紹了python常用數(shù)據(jù)結(jié)構(gòu)字典梳理,文章圍繞主題展開詳細(xì)的內(nèi)容介紹,具有一定的參考價值,需要的小伙伴可以參考一下
    2022-08-08
  • python實現(xiàn)二維碼掃碼自動登錄淘寶

    python實現(xiàn)二維碼掃碼自動登錄淘寶

    最近做項目,需要用到自動登錄淘寶,正好在學(xué)習(xí)python,整網(wǎng)絡(luò)爬蟲,所以就嘗試著寫一個腳本,自動解決。有相同需求的小伙伴可以參考下
    2016-12-12

最新評論