亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

python爬蟲獲取多頁天涯帖子

 更新時間:2018年02月23日 14:18:40   作者:zengdamo  
本篇文章通過爬取多頁天涯帖子內(nèi)容來教給大家深入理解python爬蟲相關(guān)知識,有興趣的參考學(xué)習(xí)下。

今天練習(xí)了抓取多頁天涯帖子,重點復(fù)習(xí)的知識包括

  • soup.find_all和soup.selcet兩個篩選方式對應(yīng)不同的參數(shù);
  • 希望將獲取到的多個內(nèi)容組合在一起返回的時候,要用'zip()'的代碼來實現(xiàn);
  • 兩層代碼結(jié)構(gòu)之間的關(guān)系如何構(gòu)造;

這里有一個疑問:有時候一個標簽可以有多個屬性,不知道soup.find_all()能不能接受不止一個屬性以縮小查找的范圍。

# 引入庫和請求頭文件
import requests
from bs4 import BeautifulSoup
headers = {
  'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'
}

# 定義主體函數(shù)。函數(shù)主體由四部分組成:
#1.請求網(wǎng)址
#2.解析網(wǎng)頁,形成可查找的html格式
#3.通過soup.select或者sopu.find_all查找需要的標簽
#4.通過zip()代碼將多個內(nèi)容合并在一起

def get_content(url):
  res = requests.get(url,headers = headers)
  res.encoding = 'utf-8'
  soup = BeautifulSoup(res.text,'html.parser')
  contents = soup.find_all('div','bbs-content')
  authors = soup.find_all('a','js-vip-check')
  for author,content in zip(authors,contents):
    data = {
    'author':author.get_text().strip(),
    'content': content.get_text().strip()
  }
    print(data)
# 在這里構(gòu)造一個兩層鏈接結(jié)構(gòu):帖子的1、2、3、4頁和帖子的詳情頁的關(guān)系在這里實現(xiàn)
if __name__ == '__main__':
  urls = ['http://bbs.tianya.cn/post-develop-2271894-{}.shtml'.format(str(i)) for i in range (1,5)] # 要注意,這里的‘5'是不包括在范圍里的
  for url in urls:
    get_content(url)

相關(guān)文章

  • python爬蟲中多線程的使用詳解

    python爬蟲中多線程的使用詳解

    queue是python的標準庫,俗稱隊列.可以直接import引用,在python2.x中,模塊名為Queue。這篇文章主要介紹了python爬蟲中多線程的使用,需要的朋友可以參考下
    2019-09-09
  • Pycharm設(shè)置utf-8自動顯示方法

    Pycharm設(shè)置utf-8自動顯示方法

    今天小編就為大家分享一篇Pycharm設(shè)置utf-8自動顯示方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-01-01
  • Python動力系統(tǒng)驗證三體人是否真的存在

    Python動力系統(tǒng)驗證三體人是否真的存在

    這篇文章主要介紹了Python動力系統(tǒng)驗證三體人是否真的存在,文中含有詳細的圖文示例,有需要的朋友可以借鑒參考下,希望能夠有所幫助
    2021-10-10
  • 基于CUDA out of memory的一種神奇解決方式

    基于CUDA out of memory的一種神奇解決方式

    這篇文章主要介紹了基于CUDA out of memory的一種神奇解決方式,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2023-02-02
  • 推薦值得學(xué)習(xí)的12款python-web開發(fā)框架

    推薦值得學(xué)習(xí)的12款python-web開發(fā)框架

    這篇文章主要介紹了值得學(xué)習(xí)的12款python-web開發(fā)框架,幫助大家更好的理解和學(xué)習(xí)Python web開發(fā),感興趣的朋友可以了解下
    2020-08-08
  • Python+Empyrical實現(xiàn)計算風(fēng)險指標

    Python+Empyrical實現(xiàn)計算風(fēng)險指標

    Empyrical 是一個知名的金融風(fēng)險指標庫。它能夠用于計算年平均回報、最大回撤、Alpha值等。下面就教你如何使用 Empyrical 這個風(fēng)險指標計算神器
    2022-05-05
  • Python標準庫之sqlite3使用實例

    Python標準庫之sqlite3使用實例

    這篇文章主要介紹了Python標準庫之sqlite3使用實例,本文講解了創(chuàng)建數(shù)據(jù)庫、插入數(shù)據(jù)、查詢數(shù)據(jù)、更新與刪除數(shù)據(jù)操作實例,需要的朋友可以參考下
    2014-11-11
  • django第一個項目127.0.0.1:8000不能訪問的解決方案詳析

    django第一個項目127.0.0.1:8000不能訪問的解決方案詳析

    django項目服務(wù)啟動后無法通過127.0.0.1訪問,下面這篇文章主要給大家介紹了關(guān)于django第一個項目127.0.0.1:8000不能訪問的解決方案,需要的朋友可以參考下
    2022-10-10
  • Python實現(xiàn)迷宮自動尋路實例

    Python實現(xiàn)迷宮自動尋路實例

    大家好,本篇文章主要講的是Python實現(xiàn)迷宮自動尋路實例,感興趣的同學(xué)趕快來看一看吧,對你有幫助的話記得收藏一下
    2022-02-02
  • 解決python中使用plot畫圖,圖不顯示的問題

    解決python中使用plot畫圖,圖不顯示的問題

    今天小編就為大家分享一篇解決python中使用plot畫圖,圖不顯示的問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-07-07

最新評論