Python 通過(guò)爬蟲實(shí)現(xiàn)GitHub網(wǎng)頁(yè)的模擬登錄的示例代碼
1. 實(shí)例描述
通過(guò)爬蟲獲取網(wǎng)頁(yè)的信息時(shí),有時(shí)需要登錄網(wǎng)頁(yè)后才可以獲取網(wǎng)頁(yè)中的可用數(shù)據(jù),例如獲取 GitHub
網(wǎng)頁(yè)中的注冊(cè)號(hào)碼時(shí),就需要先登錄賬號(hào)才能在登錄后的頁(yè)面中看到該信息,如下圖所示。那么該如何實(shí)現(xiàn)模擬登錄的功能呢?本文實(shí)現(xiàn)將通過(guò)爬蟲實(shí)現(xiàn) GitHub
網(wǎng)頁(yè)的模擬登錄。
2. 代碼實(shí)現(xiàn)
在實(shí)現(xiàn) GitHub
網(wǎng)頁(yè)的模擬登錄時(shí),首先需要查看提交登錄請(qǐng)求時(shí)都要哪些請(qǐng)求參數(shù),然后獲取登錄請(qǐng)求的所有參數(shù),再發(fā)送登錄請(qǐng)求。如果登錄成功的情況下獲取頁(yè)面中的注冊(cè)號(hào)碼信息即可。具體步驟如下:
(1) 點(diǎn)擊 此處 打開 GitHub
的登錄頁(yè)面,然后輸入賬號(hào)與密碼,如下圖所示。
(2) 用 F12
或者 鼠標(biāo)右鍵單擊網(wǎng)頁(yè)選擇 檢查
打開瀏覽器的開發(fā)者工具,選擇獲取網(wǎng)絡(luò)請(qǐng)求過(guò)程,然后單擊登錄頁(yè)面中的 Sign in
按鈕,此時(shí)開發(fā)者工具中將顯示 GitHub
網(wǎng)頁(yè)的登錄請(qǐng)求過(guò)程,重點(diǎn)查找名稱為 session
的網(wǎng)絡(luò)請(qǐng)求。如下圖所示。
(3) 單擊名稱為 session
的網(wǎng)絡(luò)請(qǐng)求,然后在 Headers
請(qǐng)求信息中主要查看 Request Headers
與 Form Data
中的各種信息,其中紅框內(nèi)為重要參數(shù)與數(shù)據(jù)。如下圖所示。
說(shuō)明:Host
為主頁(yè)面地址,Referer
為當(dāng)前請(qǐng)求的來(lái)源地址。User-Agent
為瀏覽器的頭部信息。Form Data
中的所有信息都是登錄請(qǐng)求的所用參數(shù),其中動(dòng)態(tài)參數(shù)為重要參數(shù),authenticity_token
為加密字符串,login
為登錄的賬號(hào),password
為密碼,其它參數(shù)為靜態(tài)參數(shù)。由于動(dòng)態(tài)參數(shù)只有 authenticity_token
、login
以及password
,而用戶名與密碼只需要將動(dòng)態(tài)字符串填寫對(duì)應(yīng)的位置即可,所以接下來(lái)需要獲取 authenticity_token
參數(shù)所對(duì)應(yīng)的加密字符串。
(4) 在瀏覽器中退出所登錄的 GitHub
賬號(hào),返回 GitHub
的登錄頁(yè)面,打開瀏覽器開發(fā)者工具,查看網(wǎng)頁(yè)的 html
代碼,然后在代碼中搜索 authenticity_token
關(guān)鍵詞,標(biāo)簽內(nèi) value
所對(duì)應(yīng)的值為 authenticity_token
參數(shù)的加密字符串。如下圖所示。
(5) 實(shí)現(xiàn)爬蟲代碼,首先導(dǎo)入所需模塊,然后創(chuàng)建頭部信息,再通過(guò) Session
會(huì)話對(duì)象發(fā)送網(wǎng)絡(luò)請(qǐng)求獲取 authenticity_token
信息,最后通過(guò)所有的登陸請(qǐng)求參數(shù)實(shí)現(xiàn) GitHub
網(wǎng)頁(yè)的登陸請(qǐng)求并提取注冊(cè)號(hào)碼。具體代碼如下:
# -*- coding: utf-8 -*- # @Time : 2020/5/10 23:25 # @Author : 我就是任性-Amo # @FileName: 77.通過(guò)爬蟲實(shí)現(xiàn)GitHub網(wǎng)頁(yè)的模擬登錄.py # @Software: PyCharm # @Blog :https://blog.csdn.net/xw1680 import requests # 導(dǎo)入網(wǎng)絡(luò)請(qǐng)求模塊 from lxml import etree # 導(dǎo)入數(shù)據(jù)解析模塊 都是第三方模塊需要安裝 # pip install requests/lxml如果太慢 可以加上鏡像服務(wù)器 或者在Pycharm中使用圖形化界面進(jìn)行安裝 class GitHubLogin(object): def __init__(self, username, password): # 構(gòu)造頭部信息 self.headers = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) " "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36", "Host": "github.com", "Referer": "https://github.com/login" } self.login_url = "https://github.com/login" # 登錄頁(yè)面地址 self.post_url = "https://github.com/session" # 實(shí)現(xiàn)登錄的請(qǐng)求地址 self.session = requests.Session() # 創(chuàng)建Session會(huì)話對(duì)象 self.user_name = username # 用戶名 self.password = password # 密碼 # 獲取authenticity_token信息 def get_token(self): # 發(fā)送登錄頁(yè)面的網(wǎng)絡(luò)請(qǐng)求 response = self.session.get(self.login_url, headers=self.headers) if response.status_code == 200: # 判斷請(qǐng)求是否成功 html = etree.HTML(response.text) # 解析html # 提取authenticity_token信息 token = html.xpath("http://div[@id='login']/form/input[1]/@value")[0] # print(token) 測(cè)試是否能夠獲取到token return token # 返回信息 # 實(shí)現(xiàn)登錄 def login(self): # 請(qǐng)求參數(shù) post_data = { "commit": "Sign in", "authenticity_token": self.get_token(), "login": self.user_name, "password": self.password, "webauthn - support": "supported" } # 發(fā)送登錄請(qǐng)求 response = self.session.post(self.post_url, headers=self.headers, data=post_data) if response.status_code == 200: # 判斷請(qǐng)求是否成功 html = etree.HTML(response.text) # 解析html # 獲取注冊(cè)號(hào)碼 register_number = html.xpath("http://div[contains(@class,'Header-item')][last()]//strong")[0] print(f"注冊(cè)號(hào)碼為: {register_number.text}") else: print("登錄失敗") if __name__ == '__main__': user_name = input("請(qǐng)輸入您的用戶名:") # 獲取輸入的用戶名 password = input("請(qǐng)輸入您的密碼:") # 獲取輸入的密碼 login = GitHubLogin(user_name, password) # 創(chuàng)建登錄類對(duì)象并傳遞輸入的用戶名與密碼 login.login()
執(zhí)行以上代碼,輸入用戶名與密碼,即可顯示獲取的注冊(cè)號(hào)碼。如下圖所示:
到此這篇關(guān)于Python 通過(guò)爬蟲實(shí)現(xiàn)GitHub網(wǎng)頁(yè)的模擬登錄的示例代碼的文章就介紹到這了,更多相關(guān)Python GitHub模擬登錄內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- python爬取企查查企業(yè)信息之selenium自動(dòng)模擬登錄企查查
- Python模擬登錄requests.Session應(yīng)用詳解
- Python3以GitHub為例來(lái)實(shí)現(xiàn)模擬登錄和爬取的實(shí)例講解
- Python+Selenium+phantomjs實(shí)現(xiàn)網(wǎng)頁(yè)模擬登錄和截圖功能(windows環(huán)境)
- Python模擬登錄之滑塊驗(yàn)證碼的破解(實(shí)例代碼)
- python爬蟲 模擬登錄人人網(wǎng)過(guò)程解析
- python 利用瀏覽器 Cookie 模擬登錄的用戶訪問(wèn)知乎的方法
- Python 制作自動(dòng)化翻譯工具
- python實(shí)現(xiàn)百度文庫(kù)自動(dòng)化爬取
- Python模擬登錄網(wǎng)易云音樂并自動(dòng)簽到
相關(guān)文章
Python計(jì)算點(diǎn)到直線距離、直線間交點(diǎn)夾角
這篇文章主要介紹了Python計(jì)算點(diǎn)到直線距離、直線間交點(diǎn)夾角,需要的朋友可以參考下2021-12-12Python調(diào)用ChatGPT制作基于Tkinter的桌面時(shí)鐘
這篇文章主要為大家詳細(xì)介紹了Python如何調(diào)用ChatGPT制作基于Tkinter的桌面時(shí)鐘,文中的示例代碼講解詳細(xì),感興趣的可以了解一下2023-03-03python GUI庫(kù)圖形界面開發(fā)之PyQt5切換按鈕控件QPushButton詳細(xì)使用方法與實(shí)例
這篇文章主要介紹了python GUI庫(kù)圖形界面開發(fā)之PyQt5切換按鈕控件QPushButton詳細(xì)使用方法與實(shí)例,需要的朋友可以參考下2020-02-02Python OpenCV使用dlib進(jìn)行多目標(biāo)跟蹤詳解
這篇文章主要為大家介紹了如何使用 dlib 庫(kù)在實(shí)時(shí)視頻中有效地跟蹤多個(gè)對(duì)象,文中的示例代碼講解詳細(xì),對(duì)我們學(xué)習(xí)OpenCV有一定幫助,需要的可以參考一下2022-03-03python中str內(nèi)置函數(shù)用法總結(jié)
在本篇文章里小編給大家整理了一篇關(guān)于python中str內(nèi)置函數(shù)用法總結(jié)內(nèi)容,有需要的朋友們可以學(xué)習(xí)下。2020-12-12Python實(shí)現(xiàn)蟻群優(yōu)化算法的示例代碼
蟻群算法是一種源于大自然生物世界的新的仿生進(jìn)化算法,本文主要介紹了Python如何實(shí)現(xiàn)蟻群算法,文中通過(guò)示例代碼具有一定的參考價(jià)值,感興趣的小伙伴們可以了解一下2023-08-08詳解python的sorted函數(shù)對(duì)字典按key排序和按value排序
這篇文章主要介紹了詳解python的sorted函數(shù)對(duì)字典按key排序和按value排序,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2018-08-08