Python爬蟲使用腳本登錄Github并查看信息

更新時(shí)間：2018年07月16日 10:20:56 作者：張丶耀慶

這篇文章主要介紹了Python爬蟲之用腳本登錄Github并查看信息,本文給大家介紹的非常詳細(xì)，具有一定的參考借鑒價(jià)值，需要的朋友可以參考下

前言分析目標(biāo)網(wǎng)站的登錄方式

目標(biāo)地址： https://github.com/login

登錄方式做出分析：

第一，用form表單方式提交信息，

第二，有csrf_token,

第三，是以post請(qǐng)求發(fā)送用戶名和密碼時(shí)，需要第一次get請(qǐng)求的cookie

第四，登錄成功以后，請(qǐng)求其他頁(yè)面是只需要帶第一次登錄成功以后返回的cookie就可以。

以get發(fā)送的請(qǐng)求獲取我們想要的token和cookie

代碼：

import requests  
from bs4 import BeautifulSoup
r1 = requests.get('https://github.com/login')
soup = BeautifulSoup(r1.text,features='lxml') #生成soup 對(duì)象
s1 = soup.find(name='input',attrs={'name':'authenticity_token'}).get('value') 
#查到我們要的token
r1_cookies = r1.cookies.get_dict() # 下次提交用戶名時(shí)用的cookie
# print(r1_cookies)  
# print(s1)

#結(jié)果：：

{'logged_in': 'no', '_gh_sess': 'VDFWa2hJWjFMb1hpRUFLRDVhUmc3MXg1Tk02TDhsUnhDMERuNGpyT2Y4STlQZ2xCV1lCZEFhK21wdFR1bkpGYUV0WEJzcDEydWFzcm93
aVc4Nk91Q2JicmtRV0NIQ0lRSWM4aFhrSVFYbCtCczBwdnhVN0YySVJJNUFpQnhyTzNuRkJwNDJZUWxUcEk2M2JkM3VSMDdXVHNOY1htQkthckJQZDJyUVR2RzBNUkU3VnltRVF2U
m1admU3c3YzSGlyVnVZVm0ycnA1eUhET1JRVWNLN0pSbndKWjljMGttNG5URWJ1eU8rQjZXNEMxVEthcGVObDFBY2gvc2ZzWXcvWWZab29wQWJyU0l6cmZscWhBQUlzYTA3dTRtb
3l1S0hDYytHY2V1SUhEWlZvVlZoSWZpTzBjNmlidFF2dzI2bWgtLTJON1lqbm5jWUtSYmtiVEM1clJPakE9PQ%3D%3D--897dbc36c123940c8eae5d86f276dead8318fd6c'}
pRz0wapEbu5shksGCeSN0FijWoU9ALw8EPUsXlqgcw1Ezirl0VbSKvkTYqIe8VhxhPH2H/uzGaV6XX+yjTGoVA==

獲取這兩個(gè)值就可以，進(jìn)行下一步發(fā)送登錄請(qǐng)求：

第二步post方式提交用戶名密碼

代碼：：

這個(gè)代碼接著上面的get請(qǐng)求，只是post請(qǐng)求的部分，

r2 = requests.post(
  'https://github.com/session',
  data ={
    'commit':'Sign in',
    'utf8':'✓',
    'authenticity_token':s1,
    'login':'541756569@qq.com',
    'password':'用戶名密碼'         # 填上正確的用戶名即可
  },
  cookies = r1.cookies.get_dict(),    # 這里需要第一次的cookie
)
print(r2.cookies.get_dict())   # 這個(gè)是成功以后的cookie

成功以后就返回登錄頁(yè)面的信息。

基于post登錄成功后查看個(gè)人詳情頁(yè)。

這里只需要帶著登錄成功以后的cookie 就可以

#完整代碼

import requests
from bs4 import BeautifulSoup
r1 = requests.get('https://github.com/login')
soup = BeautifulSoup(r1.text,features='lxml')
s1 = soup.find(name='input',attrs={'name':'authenticity_token'}).get('value')
r1_cookies = r1.cookies.get_dict()
print(r1_cookies)
print(s1)
r2 = requests.post(
  'https://github.com/session',
  data ={
    'commit':'Sign in',
    'utf8':'✓',
    'authenticity_token':s1,
    'login':'541756569@qq.com',
    'password':'密碼'
  },
  cookies = r1.cookies.get_dict(),
)

查看個(gè)人詳情頁(yè)

print(r2.cookies.get_dict())
 r3 = requests.get(
    'https://github.com/13131052183/product',  #查看個(gè)人的詳情頁(yè)
    cookies = r2.cookies.get_dict()
 )
 print(r3.text)

總結(jié)

以上所述是小編給大家介紹的Python爬蟲使用腳本登錄Github并查看信息，希望對(duì)大家有所幫助，如果大家有任何疑問(wèn)請(qǐng)給我留言，小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)腳本之家網(wǎng)站的支持！

您可能感興趣的文章: