from bs4 import BeautifulSoup

html_str = '''
<div>
    <ul>
        <li class="web" id="0"><a href="www.python.org" rel="external nofollow"  rel="external nofollow"  rel="external nofollow"  rel="external nofollow" >Python</a></li>
        <li class="web" id="1"><a href="www.java.com" rel="external nofollow"  rel="external nofollow"  rel="external nofollow"  rel="external nofollow" >Java</a></li>
        <li class="web" id="2"><a href="www.csdn.net" rel="external nofollow"  rel="external nofollow"  rel="external nofollow"  rel="external nofollow" >CSDN</a></li>
    </ul>
</div>
'''
soup = BeautifulSoup(html_str, 'lxml')
# prettify()用于格式化輸出HTML/XML文檔
print(soup.prettify())

bs4 提供了find_all()與find()兩個常用的查找方法它們的用法如下：

2.1 find_all()

find_all() 方法用來搜索當前 tag 的所有子節(jié)點，并判斷這些節(jié)點是否符合過濾條件，最后以列表形式將符合條件的內(nèi)容返回，語法格式如下：

find_all(name, attrs, recursive, text, limit)

參數(shù)說明：
name：查找所有名字為 name 的 tag 標簽，字符串對象會被自動忽略。attrs：按照屬性名和屬性值搜索 tag 標簽，注意由于 class 是 Python 的關(guān)鍵字，所以要使用 “class_”。recursive：find_all() 會搜索 tag 的所有子孫節(jié)點，設(shè)置 recursive=False 可以只搜索 tag 的直接子節(jié)點。text：用來搜文檔中的字符串內(nèi)容，該參數(shù)可以接受字符串、正則表達式、列表、True。limit：由于 find_all() 會返回所有的搜索結(jié)果，這樣會影響執(zhí)行效率，通過 limit 參數(shù)可以限制返回結(jié)果的數(shù)量。

from bs4 import BeautifulSoup

html_str = '''
<div>
    <ul>
        <li class="web" id="0"><a href="www.python.org" rel="external nofollow"  rel="external nofollow"  rel="external nofollow"  rel="external nofollow" >Python</a></li>
        <li class="web" id="1"><a href="www.java.com" rel="external nofollow"  rel="external nofollow"  rel="external nofollow"  rel="external nofollow" >Java</a></li>
        <li class="web" id="2"><a href="www.csdn.net" rel="external nofollow"  rel="external nofollow"  rel="external nofollow"  rel="external nofollow" >CSDN</a></li>
    </ul>
</div>
'''
soup = BeautifulSoup(html_str, 'lxml')

print(soup.find_all("li"))
print(soup.find_all("a"))
print(soup.find_all(text="Python"))

上面程序使用 find_all() 方法，來查找頁面中所有的<li></li>標簽、<a></a>標簽和"Python"字符串內(nèi)容。

2.2 find()

find() 方法與 find_all() 方法極其相似，不同之處在于 find() 僅返回第一個符合條件的結(jié)果，因此 find() 方法也沒有limit參數(shù)，語法格式如下：

find(name, attrs, recursive, text)

除了和 find_all() 相同的使用方式以外，bs4 為 find() 方法提供了一種簡寫方式：

soup.find("li")
soup.li

這兩行代碼的功能相同，都是返回第一個<li></li>標簽，完整程序：

from bs4 import BeautifulSoup

html_str = '''
<div>
    <ul>
        <li class="web" id="0"><a href="www.python.org" rel="external nofollow"  rel="external nofollow"  rel="external nofollow"  rel="external nofollow" >Python</a></li>
        <li class="web" id="1"><a href="www.java.com" rel="external nofollow"  rel="external nofollow"  rel="external nofollow"  rel="external nofollow" >Java</a></li>
        <li class="web" id="2"><a href="www.csdn.net" rel="external nofollow"  rel="external nofollow"  rel="external nofollow"  rel="external nofollow" >CSDN</a></li>
    </ul>
</div>
'''
soup = BeautifulSoup(html_str, 'lxml')

print(soup.li)
print(soup.a)

上面的程序會打印出第一個<li></li>標簽和第一個<a></a>標簽。

2.3 select()

bs4 支持大部分的 CSS 選擇器，比如常見的標簽選擇器、類選擇器、id 選擇器，以及層級選擇器。Beautiful Soup 提供了一個 select() 方法，通過向該方法中添加選擇器，就可以在 HTML 文檔中搜索到與之對應(yīng)的內(nèi)容。

應(yīng)用如下：

from bs4 import BeautifulSoup

html_str = '''
<div>
    <ul>
        <li class="web" id="web0"><a href="www.python.org" rel="external nofollow"  rel="external nofollow"  rel="external nofollow"  rel="external nofollow" >Python</a></li>
        <li class="web" id="web1"><a href="www.java.com" rel="external nofollow"  rel="external nofollow"  rel="external nofollow"  rel="external nofollow" >Java</a></li>
        <li class="web" id="web2"><a href="www.csdn.net" rel="external nofollow"  rel="external nofollow"  rel="external nofollow"  rel="external nofollow" >CSDN</a></li>
    </ul>
</div>
'''
soup = BeautifulSoup(html_str, 'lxml')
#根據(jù)元素標簽查找
print(soup.select('body'))
#根據(jù)屬性選擇器查找
print(soup.select('a[href]'))
#根據(jù)類查找
print(soup.select('.web'))
#后代節(jié)點查找
print(soup.select('div ul'))
#根據(jù)id查找
print(soup.select('#web1'))

更多方法及其詳細使用說明，請參見官方文檔：
https://beautiful-soup-4.readthedocs.io/en/latest/

3.代碼實例

學(xué)會了 Beautiful Soup ，讓我們試著改寫一下上次的爬蟲代碼吧：

import os
import sys
import requests
from bs4 import BeautifulSoup

x = requests.get('https://www.csdn.net/')

soup = BeautifulSoup(x.text, 'lxml')

img_list = soup.select('img[src]')

# 創(chuàng)建img文件夾
os.chdir(os.path.dirname(sys.argv[0]))

if not os.path.exists('img'):
    os.mkdir('img')
    print('創(chuàng)建文件夾成功')
else:
    print('文件夾已存在')

# 下載圖片
for i in range(len(img_list)):
    item = img_list[i]['src']
    img = requests.get(item).content
    if item.endswith('jpg'):
        with open(f'./img/{i}.jpg', 'wb') as f:
            f.write(img)
    elif item.endswith('jpeg'):
        with open(f'./img/{i}.jpeg', 'wb') as f:
            f.write(img)
    elif item.endswith('png'):
        with open(f'./img/{i}.png', 'wb') as f:
            f.write(img)
    else:
        print(f'第{i + 1}張圖片格式不正確')
        continue
    print(f'第{i + 1}張圖片下載成功')