淺談Python采集網(wǎng)頁時正則表達式匹配換行符的問題
更新時間:2018年12月20日 10:10:43 作者:lmb20056127
今天小編就為大家分享一篇淺談Python采集網(wǎng)頁時正則表達式匹配換行符的問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
如下所示:
p1 = r'(?<=<div class="ds_cr">)(.*?)(?=<div id="pageurl">)' #這樣采集html時出錯,采集不到數(shù)據(jù),正則中 . 是不能匹配換行符,改成如下: p1 = r'(?<=<div class="ds_cr">)([\s\S]*?)(?=<div id="pageurl">)' # 這是我們寫的正則表達式規(guī)則,你現(xiàn)在可以不理解啥意思
[\s\S]
\s
匹配任何空白字符,包括空格、制表符、換頁符等等。等價于[ \f\n\r\t\v]。
\S
匹配任何非空白字符。等價于[^ \f\n\r\t\v]。
以上這篇淺談Python采集網(wǎng)頁時正則表達式匹配換行符的問題就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關文章
使用Python進行數(shù)據(jù)清洗和預處理的實現(xiàn)代碼
Python作為數(shù)據(jù)科學領域的熱門編程語言,提供了豐富的庫和工具來處理和清洗數(shù)據(jù),本文將介紹如何使用Python進行數(shù)據(jù)清洗和預處理,并提供相應的代碼示例,需要的朋友可以參考下2024-05-05關于Python網(wǎng)絡爬蟲requests庫的介紹
這篇文章主要介紹了關于Python網(wǎng)絡爬蟲requests庫,而很多時候這些數(shù)據(jù)存儲在網(wǎng)頁中,手動下載需要花費的時間太長,這時候我們就需要網(wǎng)絡爬蟲幫助我們自動爬取這些數(shù)據(jù),需要的朋友可以參考下2023-04-04Python 數(shù)據(jù)結構之隊列的實現(xiàn)
這篇文章主要介紹了Python 數(shù)據(jù)結構之隊列的實現(xiàn)的相關資料,需要的朋友可以參考下2017-01-01