Python爬蟲獲取基金基本信息

更新時間：2022年05月05日 15:06:56 作者：??斜月????

這篇文章主要介紹了Python爬蟲獲取基金基本信息，文章基于上一篇文章內容基于python的相關資料展開主題，需要的小伙伴可以參考一下

1 前言

上篇文章Python爬蟲獲取基金列表我們已經講述了如何從基金網站上獲取基金的列表信息。這一騙我們延續(xù)上一篇，繼續(xù)分享如何抓取基金的基本信息做展示。展示的內容包括基金的基本信息，諸如基金公司，基金經理，創(chuàng)建時間以及追蹤標、持倉明細等信息。

2 如何抓取基本信息

# 在這里我就直接貼地址了，這個地址的獲取是從基金列表跳轉，然后點基金概況就可以獲取到了。
http://fundf10.eastmoney.com/jbgk_005585.html

基金的詳情頁面和基金的基本信息頁面：

現在我們需要做的事情就是怎么把基金的基本概況數據抓取下來，很遺憾，這個工作不像上次那樣可以直接通過接口調用的方式獲取結果，而是需要我們解析頁面html，通過獲取元素來解析我們所需要的信息。這時我們就需要使用xpath來獲取所需要的元素。

3 xpath 獲取數據

解析html 數據，我們通常使用 xpath 來獲取頁面的數據，在這里我們也首選這個 xpath,那么怎么使用呢？首先需要安裝相關的類庫。

# 安裝 lxml
pip install lxml

使用瀏覽器打開，然后點擊[檢查]使用選擇基金基本信息，然后如圖所示選擇[copy XPath],可以獲取到數據所在的表格位置

from lxml import etree
# ...
# 將返回的數據結果進行解析，形成 html 文檔
html = etree.HTML(resp_body)
result = etree.tostring(html, pretty_print=True)
# 打印獲取到的結果
print(result)
# 抓取數據的位置，這個地方的數據是通過瀏覽器的 xpath 定位來確定的 
table_body = html.xpath('//*[@id="bodydiv"]/div[8]/div[3]/div[2]/div[3]/div/div[1]/table/tbody')
# 打印數據結果
print(table_body)

按照常理來說，這里應該可以獲取到基金基本新的結果，但是萬萬沒想到呀，竟然失算了，獲取到的結果竟然為空，百思不得其解。我還以為是api使用的不夠熟練，不能正確的獲取，直到我仔細研究了返回的頁面信息，才看到根本沒有 tbody 這個元素，可能是瀏覽器渲染后導致的結果，也就是說通過 xpath 來定位元素位置來獲取數據這條路可能不行。事實上也確實是如此，基金基本信息的數據是放在頁面的 scripts 標簽里面的，所以這個條真的就行不通了?？赡芡ㄟ^xpath是配合Selenium一起使用做頁面自動化測試的，這個有機會再去研究吧。

4 bs4 獲取數據

既然直接獲取頁面元素的方式行不通，那么就只有解析返回頁面來獲取數據了，java 語言的話可以使用 joup來解析獲取數據，但是python又如何來操作呢？這就需要使用 bs4 來解決了。安裝方式如下:

# 簡稱bs4,python解析html非常好用的第三方類庫
pip install beautifulsoup4

其主要使用的解析方法如下圖所示，接下來我們使用lxml來解析html數據，如何使用html5lib的話，需要先進行安裝才能使用 pip install html5lib。

解析數據的思路是這樣的，我們看到瀏覽器返回的結果是包含 table>tr>td 這樣的結構，我們先獲取到基金對應信息的table,然后獲取到table中的 td,因為這個表格展示內容是固定的，我們選取對應的數據下標即可獲取對應的數據。

# 解析返回的報文
soup = BeautifulSoup(resp_body, 'lxml')
# 獲取數據的table標簽所有數據
body_list = soup.find_all("table")
# 基金信息對應的是第二個
basic_info = body_list[1]
# 打印結果并循環(huán)輸出td的內容
print(basic_info)
td_list = basic_info.find_all("td")
for node in td_list:
 ? print(node.get_text())

這里涉及兩個方法find_all和get_text,第一個是元素選擇器，可以根據標簽class進行搜索，第二個是獲取元素中的內容。

5 最終結果展現

經常不斷的嘗試，最終的最簡版代碼如下所示:

from lxml import etree
import requests
from prettytable import PrettyTable
import datetime
# 使用BeautifulSoup解析網頁
from bs4 import BeautifulSoup
# 獲取基金基本信息
def query_fund_basic(code):
 ? ?# http://fundf10.eastmoney.com/jbgk_005585.html
 ? ?response = requests.get("http://fundf10.eastmoney.com/jbgk_{}.html".format(code))
 ? ?resp_body = response.text
 ? ?soup = BeautifulSoup(resp_body, 'lxml')
 ? ?body_list = soup.find_all("table")
 ? ?basic_info = body_list[1]
 ? ?# print(basic_info)
 ? ?tr_list = basic_info.find_all("td")
 ? ?# 暫存一下列表
 ? ?tmp_list = []
 ? ?tmp_list.append(tr_list[2].get_text().replace("（前端）", ""))
 ? ?tmp_list.append(tr_list[1].get_text())
 ? ?tmp_list.append(tr_list[8].get_text())
 ? ?tmp_list.append(tr_list[10].get_text())
 ? ?tmp_list.append(tr_list[5].get_text().split("/")[0].strip())
 ? ?tmp_list.append(tr_list[5].get_text().split("/")[1].strip().replace("億份", ""))
 ? ?tmp_list.append(tr_list[3].get_text())
 ? ?tmp_list.append(tr_list[18].get_text())
 ? ?tmp_list.append(tr_list[19].get_text())
 ? ?return tmp_list
if __name__ == '__main__':
 ? ?print("start analyze !")
 ? ?code_list = ["005585", "000362"]
 ? ?# 需要關注的基本信息如右所示 基金代碼 基金名稱 基金公司 基金經理 創(chuàng)建時間 
 ? ?# 基金份額 基金類型 業(yè)績基準 跟蹤標的
 ? ?head_list = ["code", "name", "company", "manager", "create_time", 
 ? ?"fund_share", "fund_type", "comp_basic", "idx_target"]
 ? ? # 生成表格對象
 ? ?tb = PrettyTable() 
 ? ?tb.field_names = head_list ?# 定義表頭
 ? ?for node in code_list:
 ? ? ? tb.add_row(query_fund_basic(node))
 ? ?# 輸出表格
 ? ?print(tb)
 ? ?reslt = str(tb).replace("+", "|")
 ? ?print(reslt)

最終打印的結果如下所示，感覺很期待: