快捷導(dǎo)航

Python中的Xpath和lxml庫(kù)的使用詳解

更新時(shí)間：2023年12月06日 10:00:55 作者：凌冰_

這篇文章主要介紹了Python中的Xpath和lxml庫(kù)的使用詳解,XPath即 XML路徑語(yǔ)言,它是一門在 XML 文檔中查找信息的語(yǔ)言,最初被用來(lái)搜尋 XML 文檔,同時(shí)它也適用于搜索 HTML 文檔,因此,在爬蟲(chóng)過(guò)程中可以使用 XPath 來(lái)提取相應(yīng)的數(shù)據(jù),需要的朋友可以參考下

一、Xpath表達(dá)式

XPath（全稱：XML Path Language）即 XML 路徑語(yǔ)言，它是一門在 XML 文檔中查找信息的語(yǔ)言，最初被用來(lái)搜尋 XML 文檔，同時(shí)它也適用于搜索 HTML 文檔。

因此，在爬蟲(chóng)過(guò)程中可以使用 XPath 來(lái)提取相應(yīng)的數(shù)據(jù)。

Xpath節(jié)點(diǎn):有父、子、同代、先輩、后代節(jié)點(diǎn)

<?xml version="1.0" encoding="utf-8"?>
<shop>
    <book>
      <title lang="zh-CN">java</title>
      <name>Java編程思想</name>
      <year>2011</year>
      <address>www.baidu.com</address>
    </book>
</shop>

說(shuō)明：

title name year address 都是 book 的子節(jié)點(diǎn)
book 是 title name year address 父節(jié)點(diǎn)
title name year address 屬于同代節(jié)點(diǎn)
title 元素的先輩節(jié)點(diǎn)是 book shop
shop 的后代節(jié)點(diǎn)是 book title name year address

二、Xpath基本語(yǔ)法

1) 基本語(yǔ)法

2) xpath通配符

xpath（'/div/*'）選取div下的所有子節(jié)點(diǎn)xpath('/div[@*]')選取所有帶屬性的div節(jié)點(diǎn)

3) 多路徑匹配

xpath表達(dá)式1 | xpath表達(dá)式2 | xpath表達(dá)式3

xpath('//div|//table') 選取所有的div和table節(jié)點(diǎn)

4）功能函數(shù)

三、lxml庫(kù)

lxml 是 Python 的第三方解析庫(kù)，完全使用 Python 語(yǔ)言編寫，它對(duì) Xpath 表達(dá)式提供了良好的支持，因此能夠了高效地解析 HTML/XML 文檔。

本節(jié)講解如何通過(guò) lxml 庫(kù)解析 HTML 文檔。

安裝lxml庫(kù)

pip3 install lxml

lxml使用流程

1) 導(dǎo)入模塊

from lxml import etree

2)創(chuàng)建解析對(duì)象

parse_html = etree.HTML(html)

3) 調(diào)用xpath表達(dá)式

r_list = parse_html.xpath('xpath表達(dá)式')

4) lxml庫(kù)數(shù)據(jù)提取

print(r_list)

四、實(shí)戰(zhàn)案例

豆瓣書店

#豆瓣書店
import requests
from lxml import  etree
 
if __name__ == '__main__':
    url='https://market.douban.com/book/?utm_campaign=book_nav_freyr&utm_source=douban&utm_medium=pc_web'
    headers_={
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36"
    }
    res=requests.get(url,headers_)
    # print(res.text)
    html=etree.HTML(res.text)
    #獲取所有的li
    lis=html.xpath('.//li[@class="book-item"]')
    #循環(huán)
    for li in lis:
        #獲取li下的圖片
        img=li.xpath('.//div[@class="panel-img"]/img/@src')[0]
        # print(img)
        # 獲取li下的標(biāo)題
        title = li.xpath('.//div[@class="panel-detail"]/div/h3/text()')[0]
        print(img, title)