亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

python對網(wǎng)頁文本的格式化實例方法

 更新時間:2021年10月12日 08:37:22   作者:小妮淺淺  
在本篇文章里小編給大家整理是一篇關(guān)于python對網(wǎng)頁文本的格式化實例方法,有興趣的朋友們可以跟著學(xué)習(xí)參考下。

1、一個網(wǎng)頁通常包含文本信息。對于不同的文本類型,我們可以選擇合適的HTML語義元素進行標記。

2、em元素用于標記和強調(diào)部分內(nèi)容,small元素用于注釋和署名文本。

實例

<body>
    <h1>論語學(xué)而篇第一</h1>
    <p><small>
    <b>作者:</b><abbr title="名丘,字仲尼">孔子<sup><a href="#" rel="external nofollow" >1</a></sup></abbr>(<time>前551年9月28日-前479年4月11日</time>)
    </small></p>
    <h2>本篇引語</h2>
    <p>《學(xué)而》是《論語》第一篇的篇名?!墩撜Z》中各篇一般都是以第一章的前二三個字作為該篇的篇名?!秾W(xué)而》一篇包括16章,內(nèi)容涉及諸多方面。其中重點是
     <strong>「吾日三省吾身」;「節(jié)用而愛人,使民以時」;「禮之用,和為貴」以及仁、孝、信等</strong>道德范疇。</p>
    <h2>原文</h2>
    <p>子曰:「<mark>學(xué)而時習(xí)之,不亦說乎?</mark>有朋自遠方來,不亦樂乎?人不知,而不慍,不亦君子乎?」 </p>
  </body>

知識點擴展:

Python int與string之間的轉(zhuǎn)化

string–>int

1、10進制string轉(zhuǎn)化為int

int(‘12')

2、16進制string轉(zhuǎn)化為int

int(‘12', 16)

int–>string

1、int轉(zhuǎn)化為10進制string

str(18)

2、int轉(zhuǎn)化為16進制string

hex(18)

2 . 由于鏈家網(wǎng)上面選中第二頁的時候,只是在頁面后面多了一個“d2”, 如: http://sh.lianjia.com/ershoufang/pudong/d2 , 所以要想爬取更多的網(wǎng)頁只需要循環(huán)更新requests 的頁面URL

3 . 增加了一個循環(huán)之后,可以打印所有的爬取結(jié)果

from lxml import etree
import requests
import string
url = 'http://sh.lianjia.com/ershoufang/'
region = 'pudong'
price = 'p23'
finalURL = url+region+price

def spider_room(finallyURL):
   r= requests.get(finallyURL)
   html = requests.get(finalURL).content.decode('utf-8')
   dom_tree = etree.HTML(html)
   # all the messages
   all_message = dom_tree.xpath("http://ul[@class='js_fang_list']/li")
   for index in range(len(all_message)):
      print(all_message[index].xpath('string(.)').strip())
   return
for i in range(20):
   finallyURL = finalURL + '/d'+str(i)
   spider_room(finallyURL)

4 . 爬取了20頁的內(nèi)容,可是內(nèi)容的結(jié)果輸出的形式并沒有改變

以上就是python對網(wǎng)頁文本的格式化實例方法的詳細內(nèi)容,更多關(guān)于python爬蟲中網(wǎng)頁文本的格式化的資料請關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • python函數(shù)的5種參數(shù)詳解

    python函數(shù)的5種參數(shù)詳解

    昨天看《Python核心編程》的時候,剛好看到了函數(shù)部分,于是順勢將目前接觸到的集中參數(shù)類型都總結(jié)一下吧^^
    2017-02-02
  • 在pycharm中設(shè)置顯示行數(shù)的方法

    在pycharm中設(shè)置顯示行數(shù)的方法

    今天小編就為大家分享一篇在pycharm中設(shè)置顯示行數(shù)的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-01-01
  • Python簡單幾步畫個鉆石戒指

    Python簡單幾步畫個鉆石戒指

    這篇文章主要介紹了Python簡單幾步畫個鉆石戒指,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2022-09-09
  • Python的三種主要模塊介紹

    Python的三種主要模塊介紹

    這篇文章介紹了Python的三類主要模塊,文中通過示例代碼介紹的非常詳細。對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2022-07-07
  • python實現(xiàn)拼接圖片

    python實現(xiàn)拼接圖片

    這篇文章主要為大家詳細介紹了python實現(xiàn)拼接圖片,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2020-03-03
  • Python Pingouin數(shù)據(jù)統(tǒng)計分析技術(shù)探索

    Python Pingouin數(shù)據(jù)統(tǒng)計分析技術(shù)探索

    Pingouin庫基于pandas、scipy和statsmodels,為用戶提供了執(zhí)行常見統(tǒng)計分析的功能,它支持各種統(tǒng)計方法和假設(shè)檢驗,例如 t-tests、ANOVA、correlation analysis 等,本文通過一些示例代碼,以更全面地了解如何使用Pingouin庫進行統(tǒng)計分析,
    2024-01-01
  • python taipy庫輕松地將數(shù)據(jù)和機器學(xué)習(xí)模型轉(zhuǎn)為功能性Web應(yīng)用

    python taipy庫輕松地將數(shù)據(jù)和機器學(xué)習(xí)模型轉(zhuǎn)為功能性Web應(yīng)用

    taipy 是一個開源的 Python 庫,任何具有基本 Python 技能的人都可以使用,對于數(shù)據(jù)科學(xué)家、機器學(xué)習(xí)工程師和 Python 程序員來說,它是一個方便的工具,借助 Taipy,你可以輕松地將數(shù)據(jù)和機器學(xué)習(xí)模型轉(zhuǎn)變?yōu)楣δ苄缘?nbsp;Web 應(yīng)用程序
    2024-01-01
  • python3 kmp 字符串匹配的方法

    python3 kmp 字符串匹配的方法

    這篇文章主要介紹了python3 kmp 字符串匹配的方法,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2018-07-07
  • python開發(fā)環(huán)境PyScripter中文亂碼問題解決方案

    python開發(fā)環(huán)境PyScripter中文亂碼問題解決方案

    PyScripter是一個使用Delphi開發(fā)的開源的Python集成開發(fā)環(huán)境(IDE),PyScripter支持Python2.4、2.5、2.6、2.7、3.0、3.1、3.2,而且可以根據(jù)需要切換。
    2016-09-09
  • Pandas標記刪除重復(fù)記錄的方法

    Pandas標記刪除重復(fù)記錄的方法

    下面小編就為大家分享一篇Pandas標記刪除重復(fù)記錄的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-04-04

最新評論