Python爬蟲獲取數(shù)據(jù)保存到數(shù)據(jù)庫中的超詳細教程(一看就會)
1.簡介介紹
-網(wǎng)絡爬蟲(又稱為網(wǎng)頁蜘蛛,網(wǎng)絡機器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
-一般在瀏覽器上可以獲取到的,通過爬蟲也可以獲取到,常見的爬蟲語言有PHP,JAVA,C#,C++,Python,為啥我們經(jīng)常聽到說的都是Python爬蟲,這是因為python爬蟲比較簡單,功能比較齊全。
2.Xpath獲取頁面信息
通過Xpath進行爬蟲就是獲取到頁面html后通過路徑的表達式來選取標簽節(jié)點,沿著路徑選取需要爬取的數(shù)據(jù)。
Xpath常用表達式:
| 表達式 | 描述 |
|---|---|
| / | 從根節(jié)點選?。ㄈ∽庸?jié)點) |
| // | 選擇的當前節(jié)點選擇文檔中的節(jié)點 |
| . | 選取當前節(jié)點。 |
| … | 選取當前節(jié)點的父節(jié)點。 |
| @ | 選取屬性 |
| * | 表示任意內(nèi)容(通配符) |
| | | 運算符可以選取多個路徑 |
Xpath常用函數(shù):
| 函數(shù) | 用法 | 解釋 |
|---|---|---|
| startswith() | xpath(‘//div[starts-with(@id,”celent”)]‘) | #選取id值以celent開頭的div節(jié)點 |
| contains() | xpath(‘//div[contains(@id,”celent”)]‘) | #選取id值包含celent的div節(jié)點 |
| and() | xpath(‘//div[contains(@id,”celent”) and contains(@id,”in”)]‘) | #選取id值包含celent的div節(jié)點 |
| text() | _.xpath(’./div/div[4]/a/em/text()’) | #選取em標簽下文本內(nèi)容 |
Xpath實操解析:
# 案例1
# //為從當前html中選取節(jié)點;[@class="c1text1"]為獲取所有的class為c1text1的節(jié)點;/h1[1]為選取的節(jié)點下的第一個h1節(jié)點,如果沒有[1]則是獲取所有的,可以通過循環(huán)進行獲取數(shù)據(jù)
etreeHtml.xpath('//*[@class="c1text1"]/h1[1]/text()')
# 案例2
#//為從當前html中選取節(jié)點;[@class="c1text1"]為獲取所有的class為c1text1的節(jié)點;/a為獲取當前節(jié)點下的所有a標簽節(jié)點,得到一個ObjectList;通過for循環(huán)獲取里面每個標簽數(shù)據(jù),./@src為獲取當前節(jié)點的src屬性值
etreeHtml2 = etreeHtml.xpath('//*[@class="c1text1"]/a')
for _ in etreeHtml2:
etreeHtml.xpath(./@src)
3.通過Xpath爬蟲實操
本次實例以爬取我的CSDN文章列表信息保存到數(shù)據(jù)庫為案列
3-1.獲取xpath
通過F12打開開發(fā)者模式,點擊左上角圖標可參考下圖,選擇需要爬取數(shù)據(jù)的容器,在右邊選擇復制選擇xpath就可以得到xpath路徑了(//*[@id=“userSkin”]/div[2]/div/div[2]/div[1]/div[2]/div/div);

完整代碼展示:
# 導入需要的庫
import requests
from lxml import etree
import pymysql
# 文章詳情信息類
class articleData():
def __init__(self, title, abstract, path,date):
self.title = title #文章名稱
self.abstract = abstract #文章摘要
self.path = path #文章路徑
self.date = date #發(fā)布時間
def to_string(self):
print("文章名稱:"+self.title
+";文章摘要:"+self.abstract
+";文章路徑:"+self.path
+";發(fā)布時間:"+self.date)
#保存狗狗詳情數(shù)據(jù)
#保存數(shù)據(jù)
def saveData(DataObject):
count = pymysql.connect(
host='xx.xx.xx.xx', # 數(shù)據(jù)庫地址
port=3306, # 數(shù)據(jù)庫端口
user='xxxxx', # 數(shù)據(jù)庫賬號
password='xxxxxx', # 數(shù)據(jù)庫密碼
db='xxxxxxx' # 數(shù)據(jù)庫名
)
# 創(chuàng)建數(shù)據(jù)庫對象
db = count.cursor()
# 寫入sql
# print("寫入數(shù)據(jù):"+DataObject.to_string())
sql = f"insert into article_detail(title,abstract,alias,path,date) " \
f"values ('{DataObject.title}','{DataObject.abstract}','{DataObject.path}','{DataObject.date}')"
# 執(zhí)行sql
print(sql)
db.execute(sql)
# 保存修改內(nèi)容
count.commit()
db.close()
# 爬取數(shù)據(jù)的方向
def getWebData():
# 網(wǎng)站頁面路徑
url = "https://blog.csdn.net/BadBoyxiaolin?spm=1000.2115.3001.5343"
# 請求頭,模擬瀏覽器請求
header = {
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.82 Safari/537.36"
}
# 獲取頁面所有節(jié)點代碼
html = requests.get(url=url, headers=header)
# 打印頁面代碼查看
# print(html.text)
# 如果亂碼可以設置編碼格式
# html.encoding = 'gb2312'
# 通過xpath獲取數(shù)據(jù)對應節(jié)點
etreeHtml = etree.HTML(html.text)
dataHtml = etreeHtml.xpath('//*[@class="mainContent"]/div/div/div')
# 循環(huán)獲取數(shù)據(jù)
for _ in dataHtml:
# ''.join()是將內(nèi)容轉換為字符串可以后面接replace數(shù)據(jù)進行處理
title = ''.join(_.xpath('./article/a/div[1]/h4/text()'))#文章標題
abstract = ''.join(_.xpath('./article/a/div[2]/text()'))#文章摘要
path = ''.join(_.xpath('./article/a/@href'))#文章路徑
date = ''.join(_.xpath('./article/a/div[3]/div/div[2]/text()')).replace(' ','').replace('·','').replace('發(fā)布博客','')#發(fā)布時間
#初始化文章類數(shù)據(jù)
article_data = articleData(title,abstract,path,date)
article_data.to_string() #打印數(shù)據(jù)看看是否對
#保存數(shù)據(jù)到數(shù)據(jù)庫
# saveData(article_data)
if __name__ == "__main__":
getWebData()
總結
到此這篇關于Python爬蟲獲取數(shù)據(jù)保存到數(shù)據(jù)庫中的文章就介紹到這了,更多相關Python爬蟲數(shù)據(jù)保存到數(shù)據(jù)庫內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
Python實戰(zhàn)小項目之Mnist手寫數(shù)字識別
MNIST 數(shù)據(jù)集已經(jīng)是一個被”嚼爛”了的數(shù)據(jù)集, 很多教程都會對它”下手”, 幾乎成為一個 “典范”. 不過有些人可能對它還不是很了解, 下面通過一個小實例來帶你了解它2021-10-10
Python自動化辦公之Excel數(shù)據(jù)的寫入
這篇文章主要為大家詳細介紹一下Python中excel的寫入模塊- xlsxwriter,并利用該模塊實現(xiàn)Excel數(shù)據(jù)的寫入,感興趣的小伙伴可以了解一下2022-05-05
一文搞懂Python中pandas透視表pivot_table功能
透視表是一種可以對數(shù)據(jù)動態(tài)排布并且分類匯總的表格格式?;蛟S大多數(shù)人都在Excel使用過數(shù)據(jù)透視表,也體會到它的強大功能,而在pandas中它被稱作pivot_table,今天通過本文給大家介紹Python中pandas透視表pivot_table功能,感興趣的朋友一起看看吧2021-11-11
Python函數(shù)式編程指南(二):從函數(shù)開始
這篇文章主要介紹了Python函數(shù)式編程指南(二):從函數(shù)開始,本文講解了定義一個函數(shù)、使用函數(shù)賦值、閉包、作為參數(shù)等內(nèi)容,需要的朋友可以參考下2015-06-06
python和pywin32實現(xiàn)窗口查找、遍歷和點擊的示例代碼
這篇文章主要介紹了python和pywin32實現(xiàn)窗口查找、遍歷和點擊的示例代碼,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2020-04-04
Pandas提高數(shù)據(jù)分析效率的13個技巧匯總
這篇文章主要是為大家歸納整理了13個工作中常用到的pandas使用技巧,方便更高效地實現(xiàn)數(shù)據(jù)分析,感興趣的小伙伴可以跟隨小編一起學習一下2022-05-05
關于torch.scatter與torch_scatter庫的使用整理
這篇文章主要介紹了關于torch.scatter與torch_scatter庫的使用整理,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2023-09-09

