快捷導(dǎo)航

用python爬取豆瓣前一百電影

更新時間：2022年01月17日 09:57:56 作者：mez_Blog

大家好，本篇文章主要講的是用python爬取豆瓣前一百電影，感興趣的同學(xué)趕快來看一看吧，對你有幫助的話記得收藏一下

二、解析網(wǎng)頁
1.使用 BeautifulSoup 解析網(wǎng)頁；
2.使用 BeautifulSoup 對象調(diào)用 find_all() 方法定位包含單部電影全部信息的標(biāo)簽；
3.使用 Tag.text 提取序號、電影名、評分、推薦語；
4.使用 Tag['屬性名'] 提取電影詳情鏈接。

三、存儲數(shù)據(jù)
1.使用 with open() as … 創(chuàng)建要寫入內(nèi)容的 csv 文件；
2.使用 csv.DictWriter() 將文件對象轉(zhuǎn)換為 DictWriter 對象；
3.參數(shù) fieldnames 用來設(shè)置 csv 文件的表頭；
4.使用 writeheader() 寫入表頭；
5.使用 writerows() 將內(nèi)容寫入 csv 文件。

實現(xiàn)代碼：

import csvimport requestsfrom bs4 import BeautifulSoup# 設(shè)置列表，用以存儲每部電影的信息data_list = []# 設(shè)置請求頭headers = {    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36'}# 使用 for 循環(huán)遍歷取值范圍為 0~3 的數(shù)據(jù)for page_number in range(4):    # 設(shè)置要請求的網(wǎng)頁鏈接    url = 'https://movie.douban.com/top250?start={}&filter='.format(page_number * 25)    # 請求網(wǎng)頁    movies_list_res = requests.get(url, headers=headers)    # 解析請求到的網(wǎng)頁內(nèi)容    bs = BeautifulSoup(movies_list_res.text, 'html.parser')    # 搜索網(wǎng)頁中所有包含單部電影全部信息的 Tag    movies_list = bs.find_all('div', class_='item')    # 使用 for 循環(huán)遍歷搜索結(jié)果    for movie in movies_list:        # 提取電影的序號        movie_num = movie.find('em').text        # 提取電影名        movie_name = movie.find('span').text        # 提取電影的評分        movie_score = movie.find("span",class_='rating_num').text        # 提取電影的推薦語        movie_instruction = movie.find("span",class_='inq').text        # 提取電影的鏈接        movie_link = movie.find('a')['href']        # 將信息添加到字典中        movie_dict = {            '序號': movie_num,            '電影名': movie_name,            '評分': movie_score,            '推薦語': movie_instruction,            '鏈接': movie_link        }        # 打印電影的信息        print(movie_dict)        # 存儲每部電影的信息        data_list.append(movie_dict)# 新建 csv 文件，用以存儲電影信息with open('movies.csv', 'w', encoding='utf-8-sig') as f:    # 將文件對象轉(zhuǎn)換成 DictWriter 對象    f_csv = csv.DictWriter(f, fieldnames=['序號', '電影名', '評分', '推薦語', '鏈接'])    # 寫入表頭與數(shù)據(jù)    f_csv.writeheader()    f_csv.writerows(data_list)