腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

軟件下載

android MAC 驅(qū)動下載字體下載 DLL

源碼下載

PHP ASP.NET ASP JSP

軟件編程

C# JAVA C 語言 Delphi Android

網(wǎng)絡(luò)編程

PHP ASP.NET ASP JavaScript

在線工具

CSS格式化 JS格式化 Html轉(zhuǎn)化為Js

數(shù)據(jù)庫

MYSQL MSSQL oracle DB2 MARIADB

CMS

PHPCMS DEDECMS 帝國CMS WordPress

常用工具

PHP開發(fā)工具 python Photoshop 必備軟件

Python?超簡潔且詳細(xì)爬取西瓜視頻案例

更新時間：2021年11月25日 11:25:07 作者：嗨學(xué)編程

今天給大家?guī)硪黄廊∥鞴弦曨l的小教程，很簡單的幾十行代碼就可以實(shí)現(xiàn)了，每一段代碼都詳細(xì)說明了用途，看完你就能夠自己動手寫，感興趣的同學(xué)快來跟著小編往下看吧

一、寫在前面

真的，為什么別人發(fā)游戲這么多人看，我發(fā)了兩次了加起來才一百個。

算了算了，不整游戲了，反正你們也不愛看~

今天來試試把頭條上扭腰上熱門的那些妹子爬一爬，不知道我頂不頂?shù)米

二、準(zhǔn)備工作

1、使用的環(huán)境

python 3.8
pycharm 2021.2 專業(yè)版

2、要用的第三方模塊

selenium
requests
parsel

三、大致流程

鑒于你們不喜歡我啰嗦，但是流程呢，我還是要給你們寫出來，所以我就單獨(dú)把它列出來了。

1、網(wǎng)站分析(明確需求)

在視頻網(wǎng)頁源代碼當(dāng)中找到 embedUrl 對應(yīng)的鏈接；

在鏈接當(dāng)中找到視頻播放地址，在元素面板當(dāng)中；

發(fā)現(xiàn)規(guī)律 embedUrl上面的 groupby_id 其實(shí)就是當(dāng)前視頻鏈接上的id，下載視頻的時候就只需要一個 id 就可以下載視頻；（https://www.ixigua.com/embed?group_id=7029910152576926238）

2、代碼實(shí)現(xiàn)過程

構(gòu)建embedUrl https://www.ixigua.com/embed?group_id=7029910152576926238
使用selenium訪問該鏈接提
取視頻鏈接地址
拼接視頻鏈接地址
使用requests發(fā)送請求并且獲取視頻二進(jìn)制
數(shù)據(jù)保存視頻

如果大家在學(xué)習(xí)Python的過程中不知道學(xué)習(xí)方向，該怎么學(xué)，沒有好的系統(tǒng)的學(xué)習(xí)資料、沒人交流解答等等，都可以私我，我都給大家準(zhǔn)備好了。

四、代碼展示分析

首先導(dǎo)入一下模塊

import requests
from selenium import webdriver

進(jìn)入瀏覽器設(shè)置

options = webdriver.ChromeOptions()

1、構(gòu)建embedUrl https://www.ixigua.com/embed?group_id=7029910152576926238

group_id = input("請輸入你要下載視頻的id:")
url = 'https://www.ixigua.com/embed?group_id=' + group_id

無頭瀏覽器

options.add_argument("--headless")

加一個偽裝

options.add_argument('User-Agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"')

2、使用selenium訪問該鏈接 driver: 瀏覽器

driver = webdriver.Chrome(executable_path="chromedriver.exe", options=options)

打開一個網(wǎng)頁驅(qū)動配置: 代碼操作瀏覽器的一個中間人

driver.get(url)

隱式等待: 最多等待五秒如果一秒鐘加載完了繼續(xù)執(zhí)行

driver.implicitly_wait(5)

3、提取視頻鏈接地址

info = driver.find_elements_by_xpath('//*[@id="player_default"]/xg-controls/xg-definition/ul/li[1]')
video_url = info[0].get_attribute("url")

4、拼接視頻鏈接地址

video_url = 'http:' + video_url

5、使用requests發(fā)送請求并且獲取視頻二進(jìn)制數(shù)據(jù)

video_data = requests.get(video_url).content
with open('1.mp4', mode='wb') as f:
    f.write(video_data)

所有代碼

import requests
from selenium import webdriver

# 進(jìn)入瀏覽器設(shè)置
options = webdriver.ChromeOptions()
# 1. 構(gòu)建embedUrl https://www.ixigua.com/embed?group_id=7029910152576926238
group_id = input("請輸入你要下載視頻的id:")
url = 'https://www.ixigua.com/embed?group_id=' + group_id
# 無頭瀏覽器
options.add_argument("--headless")
# 加一個偽裝
options.add_argument('User-Agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"')
# 2. 使用selenium訪問該鏈接
# driver: 瀏覽器
driver = webdriver.Chrome(executable_path="chromedriver.exe", options=options)
# 打開一個網(wǎng)頁
# 驅(qū)動配置: 代碼操作瀏覽器的一個中間人
driver.get(url)
# 隱式等待: 最多等待五秒 如果一秒鐘加載完了 繼續(xù)執(zhí)行
driver.implicitly_wait(5)
# 3. 提取視頻鏈接地址
info = driver.find_elements_by_xpath('//*[@id="player_default"]/xg-controls/xg-definition/ul/li[1]')
video_url = info[0].get_attribute("url")
# 4. 拼接視頻鏈接地址
video_url = 'http:' + video_url
# 5. 使用requests發(fā)送請求 并且獲取視頻二進(jìn)制數(shù)據(jù)
video_data = requests.get(video_url).content
with open('1.mp4', mode='wb') as f:
    f.write(video_data)
print("爬取成功!!!")
#留了報錯，看看大家夠不夠機(jī)智找出來

兄弟們看完覺得有幫助，記得點(diǎn)贊三連哇~