用python爬蟲爬取CSDN博主信息
一、項(xiàng)目介紹
爬取網(wǎng)址:CSDN首頁的Python、Java、前端、架構(gòu)以及數(shù)據(jù)庫(kù)欄目。簡(jiǎn)單分析其各自的URL不難發(fā)現(xiàn),都是https://www.csdn.net/nav/+欄目名樣式,這樣我們就可以爬取不同欄目了。
以Python目錄頁為例,如下圖所示:
爬取內(nèi)容:每篇文章的博主信息,如博主姓名、碼齡、原創(chuàng)數(shù)、訪問量、粉絲數(shù)、獲贊數(shù)、評(píng)論數(shù)、收藏?cái)?shù)
(考慮到周排名、總排名、積分都是根據(jù)上述信息綜合得到的,對(duì)后續(xù)分析沒實(shí)質(zhì)性的作用,這里暫不爬取。)
不想看代碼的朋友可直接跳到第三部分~
二、Selenium爬取
分析目錄頁可知文章是需要?jiǎng)討B(tài)加載的,此時(shí)需要selenium模擬瀏覽器不斷下拉才能獲取新的文章。文章的鏈接如下所示:
1、第一種爬取思路(未果)
思路圖如下:
執(zhí)行的關(guān)鍵代碼如下:
from selenium import webdriver import time driver = webdriver.Chrome() driver.get('https://www.csdn.net/nav/python') #下拉若干次 for i in range(10): driver.execute_script('window.scrollTo(0,document.body.scrollHeight)') time.sleep(1) #定位所有鏈接 blog_url = driver.find_elements_by_css_selector('div.title > h2 > a') #注意:這里保存的是所有element對(duì)象 for i in range(len(blog_url)): url = blog_url[i].get_attribute('href') driver.get(url) #------------相關(guān)信息爬取(省略)---------- driver.back() #返回目錄頁
理論上,這段代碼看起來是可以實(shí)現(xiàn)要求的,但實(shí)際上會(huì)遇到以下兩個(gè)問題!
(1)元素定位問題
報(bào)錯(cuò)的原因:selenium當(dāng)打開新的頁面后,原來定位過的元素都會(huì)失效,需要重新定位元素。上面的driver.back()相當(dāng)于打開的新的頁面(但是對(duì)于我們來說只是返回原來的頁面)
解決方式:只要每次返回目錄頁后重新定位元素即可,如下所示:
for i in range(len(blog_url)): blog_refind_url = driver.find_elements_by_css_selector('div.title > h2 > a') #重新定位 url = blog_refind_url[i].get_attribute('href') driver.get(url) #------------相關(guān)信息爬取(省略)---------- driver.back() #返回目錄頁
重新定位后,不難發(fā)現(xiàn),這必須要求blog_url和blog_refind_url這兩個(gè)列表的長(zhǎng)度一致啊!那也就是:每次返回目錄頁后,需要保持在上一次瀏覽的位置! 由此引發(fā)了第二個(gè)問題:定位元素的不一致。
(2)定位元素不一致
我們?cè)讷@取所有的文章鏈接之前,首先進(jìn)行的下滑頁面的操作。而每次driver.back()之后,頁面都會(huì)回到最初的位置!這就很頭疼,如果要保持一樣的瀏覽位置,難道每次返回后都要下拉相同次數(shù)的頁面么?那么此時(shí)我們需要解決的問題則是:如何保持上一級(jí)頁面的瀏覽位置。emm,查了一些資料,發(fā)現(xiàn)這個(gè)需求是和javascript相關(guān)的。詳細(xì)可參考這篇博客:js:返回到頁面時(shí)滾動(dòng)到上次瀏覽位置
大致解決思路:保存每次下滑的位置,然后最終調(diào)用最后一次下滑的位置。但歸根到底,還是需要每次滑動(dòng)頁面,依舊很麻煩,這種思路到這也只能不了了之了。(會(huì)javascript的朋友可以嘗試如何讓頁面直接恢復(fù)到上一級(jí)頁面瀏覽的位置)
2、第二種爬取思路(成功)
不過,仔細(xì)思考一下,上面兩個(gè)問題的來源關(guān)鍵在于selenium訪問頁面后,元素會(huì)重新定位。而我們第一步定位所有文章鏈接時(shí)保存的列表,里面的元素都是element對(duì)象(它是會(huì)隨著頁面變化而改變的!)。所以,我們只要保存每個(gè)文章的url到一個(gè)列表,挨個(gè)訪問每個(gè)url,不就可以了?
思路圖如下:
兩種思路的對(duì)比與思考:前者裝有所有文章的列表里都是element對(duì)象,而后者裝有所有文章的列表里都是url。后者免去了再返回頁面這一操作,相當(dāng)于將一個(gè)爬取二級(jí)頁面問題轉(zhuǎn)化為一級(jí)頁面問題!
全部代碼如下:
from selenium import webdriver import os os.chdir('C:/Users/dell/Desktop') import time import pandas as pd def scroll_down(driver,num): for i in range(num): driver.execute_script('window.scrollTo(0,document.body.scrollHeight)') time.sleep(1) def save_data(df): data=pd.DataFrame(df,columns=['blog_name','code_time','blog_num', 'view_num','fans_num','likes_num', 'comments_num','collections_num']) data.to_csv('csdn_user.csv',index=False,encoding='gb18030') def crawler_csdn(parts_list): opt = webdriver.ChromeOptions() opt.add_experimental_option('excludeSwitches',['enable-automation']) opt.add_argument('--headless') opt.add_argument('--disable-gpu') opt.add_argument('blink-settings=imagesEnabled=false') driver = webdriver.Chrome(options=opt) df = [] for part in parts_list: count=0 url_des='https://www.csdn.net/nav/'+part driver.get(url_des) scroll_down(driver,30) time.sleep(2) print('開始爬取{}部分'.format(part)) blog_list=[] blog_url = driver.find_elements_by_css_selector('div.title > h2 > a') for url in blog_url: blog_list.append(url.get_attribute('href')) print('共{}個(gè)博主'.format(len(blog_list))) for i in range(len(blog_list)): try: driver.get(blog_list[i]) blog_name = driver.find_element_by_css_selector('div.profile-intro-name-boxTop > a >span.name').text code_time = driver.find_element_by_css_selector('span.personal-home-page.personal-home-years').text blog_num = driver.find_element_by_css_selector( 'div.data-info.d-flex.item-tiling>dl.text-center>a>dt>span.count').text inf_list = driver.find_elements_by_css_selector('div.data-info.d-flex.item-tiling>dl.text-center>dt>span.count') df.append([blog_name, code_time, blog_num, inf_list[0].text, inf_list[2].text, inf_list[3].text, inf_list[4].text, inf_list[5].text]) count += 1 print('第{}個(gè)博主信息爬取完成'.format(count)) except: print('相關(guān)信息不全') print('{}部分爬取完成'.format(part)) return df if __name__ =='__main__': start = time.time() parts_list=['Python','Java','web','arch','db'] df = crawler_csdn(parts_list) save_data(df) end = time.time() spend_time = int((end-start)/60) print('共花費(fèi){}分鐘'.format(spend_time))
爬取結(jié)果如下:
三、Webscraper爬取
之前的博客分享過Webscraper是一種輕量級(jí)的爬取軟件。不想看代碼的朋友可以用它來復(fù)現(xiàn)上述爬取過程。(注:以下爬取過程只是針對(duì)首頁的某一個(gè)欄目)
最終的爬取線路圖如下
依舊以首頁的Python欄為例:
1、創(chuàng)建下拉對(duì)象
這個(gè)container只是一個(gè)ID,它可以取任意名字的。其他的設(shè)置如下圖所示:
Type勾選Element_scroll_down(負(fù)責(zé)下拉頁面)勾選上Multiple后,點(diǎn)擊多個(gè)文章所在模塊后,則會(huì)出現(xiàn)紅色選定。此時(shí)點(diǎn)擊Done selecting,完成selector的配置。Delay設(shè)置為2000毫秒(給予頁面反應(yīng)時(shí)間)
此外,需要在selector后面加上:nth-of-type(-n+300)
,控制爬取的條數(shù),否則它會(huì)一直下拉頁面?。ㄟ@里的300則代表需要爬取的總條數(shù))最終,selector的配置如下:
2、創(chuàng)建文章鏈接對(duì)象
保存container的selector后,點(diǎn)擊進(jìn)入下一層,創(chuàng)建如下selector
具體內(nèi)容如下:
Type選擇LinkSelector中不勾選Multiple,h2 a則是文章鏈接定位的位置
Link不方便定位的話,可以先選擇text進(jìn)行定位,然后得到位置后,再?gòu)?fù)制到link這即可。
3、創(chuàng)建博主信息對(duì)象
同理,保存完inf的selector后,再點(diǎn)擊進(jìn)入下一層,依次創(chuàng)建各類信息的selector,如下所示:
以name為例,其內(nèi)容如下:
type選擇text,相應(yīng)的選擇器內(nèi)容只要鼠標(biāo)點(diǎn)擊博主姓名即可獲得。
這樣,我們就完成了所有的準(zhǔn)備工作,接下來就可爬取啦~所有延遲時(shí)間均設(shè)置為2000ms
最終爬取結(jié)果如下(這里僅作演示,只爬取了七條):
本次創(chuàng)建的sitemap如下,有興趣的朋友可以自己實(shí)驗(yàn)下,只需要import sitemap即可
{"startUrl":"https://blog.csdn.net/nav/python","selectors":[{"parentSelectors": ["_root"],"type":"SelectorElementScroll","multiple":true,"id":"container","selector":"ul.feedlist_mod li.clearfix:nth-of-type(-n+300)","delay":"2000"},{"parentSelectors": ["container"],"type":"SelectorLink","multiple":false,"id":"inf","selector":"h2 a","delay":""},{"parentSelectors": ["inf"],"type":"SelectorText","multiple":false,"id":"name","selector":"div.profile-intro-name-boxTop span.name","regex":"","delay":""},{"parentSelectors": ["inf"],"type":"SelectorText","multiple":false,"id":"blog_num","selector":"dl.text-center:nth-of-type(1) a span.count","regex":"","delay":""},{"parentSelectors": ["inf"],"type":"SelectorText","multiple":false,"id":"code_time","selector":"span.personal-home-page.personal-home-years","regex":"","delay":""},{"parentSelectors": ["inf"],"type":"SelectorText","multiple":false,"id":"views_num","selector":"div.data-info:nth-of-type(2) dl.text-center > dt span.count","regex":"","delay":""},{"parentSelectors": ["inf"],"type":"SelectorText","multiple":false,"id":"fans","selector":"dl#fanBox.text-center span.count","regex":"","delay":""},{"parentSelectors": ["inf"],"type":"SelectorText","multiple":false,"id":"agreement","selector":"dl.text-center:nth-of-type(3) > dt span.count","regex":"","delay":""},{"parentSelectors": ["inf"],"type":"SelectorText","multiple":false,"id":"comment","selector":"div.data-info:nth-of-type(4) dl.text-center:nth-of-type(4) span.count","regex":"","delay":""},{"parentSelectors":["inf"],"type":"SelectorText","multiple":false,"id":"collection_num","selector":"dl.text-center:nth-of-type(5) span.count","regex":"","delay":""}],"_id":"csdn"}
總結(jié):Webscraper雖然簡(jiǎn)單易操作,速度也和selenium差不多,但每次只能爬一個(gè)網(wǎng)址,需要連續(xù)爬取多個(gè)網(wǎng)址,還是得碼代碼~
以上就是使用python快速爬取CSDN博主信息的詳細(xì)內(nèi)容,更多關(guān)于python爬取CSDN博主信息的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
Python內(nèi)置函數(shù)delattr的具體用法
本篇文章主要介紹了Python內(nèi)置函數(shù)delattr的具體用法,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2017-11-11使用Python進(jìn)行二進(jìn)制文件讀寫的簡(jiǎn)單方法(推薦)
下面小編就為大家?guī)硪黄褂肞ython進(jìn)行二進(jìn)制文件讀寫的簡(jiǎn)單方法(推薦)。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2016-09-09Python的ORM框架中SQLAlchemy庫(kù)的查詢操作的教程
這篇文章主要介紹了Python的ORM框架中SQLAlchemy庫(kù)的查詢操作的教程,SQLAlchemy用來操作數(shù)據(jù)庫(kù)十分方便,需要的朋友可以參考下2015-04-04Python編程中實(shí)現(xiàn)迭代器的一些技巧小結(jié)
只談迭代器的話在Python中只是一個(gè)泛指的概念,具體的可以用yield、生成器表達(dá)式、iter等多種方式來構(gòu)建,這里我們整理了Python編程中實(shí)現(xiàn)迭代器的一些技巧小結(jié):2016-06-06對(duì)Python通過pypyodbc訪問Access數(shù)據(jù)庫(kù)的方法詳解
今天小編就為大家分享一篇對(duì)Python通過pypyodbc訪問Access數(shù)據(jù)庫(kù)的方法詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-10-10使用Python實(shí)現(xiàn)將數(shù)據(jù)寫入Excel工作表
在數(shù)據(jù)處理和報(bào)告生成等工作中,Excel?表格是一種常見且廣泛使用的工具,本文中將介紹如何使用?Python?寫入數(shù)據(jù)到?Excel?表格,并提供更高效和準(zhǔn)確的?Excel?表格數(shù)據(jù)寫入方案,需要的可以參考下2024-01-01Pytorch Tensor基本數(shù)學(xué)運(yùn)算詳解
今天小編就為大家分享一篇Pytorch Tensor基本數(shù)學(xué)運(yùn)算詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-12-12