亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Python抓取今日頭條街拍圖片數(shù)據(jù)

 更新時(shí)間:2022年01月05日 09:23:25   作者:BoBo yeah  
大家好,本篇文章主要講的是Python抓取今日頭條街拍圖片數(shù)據(jù),感興趣的同學(xué)趕快來(lái)看一看吧,對(duì)你有幫助的話記得收藏一下

(1)抓取今日頭條街拍圖片

在這里插入圖片描述

(2)分析今日頭條街拍圖片結(jié)構(gòu)

在這里插入圖片描述

在這里插入圖片描述

keyword: 街拍
pd: atlas
dvpf: pc
aid: 4916
page_num: 1
search_json: {"from_search_id":"20220104115420010212192151532E8188","origin_keyword":"街拍","image_keyword":"街拍"}
rawJSON: 1
search_id: 202201041159040101501341671A4749C4
可以找到規(guī)律,page_num從1開(kāi)始累加,其他參數(shù)不變

(3)按功能不同編寫(xiě)不同方法組織代碼

獲取網(wǎng)頁(yè)json格式數(shù)據(jù)

def get_page(page_num):
    global headers
    headers = {
        'Host': 'so.toutiao.com',
        #'Referer': 'https://so.toutiao.com/search?keyword=%E8%A1%97%E6%8B%8D&pd=atlas&dvpf=pc&aid=4916&page_num=0&search_json={%22from_search_id%22:%22202112272022060101510440283EE83D67%22,%22origin_keyword%22:%22%E8%A1%97%E6%8B%8D%22,%22image_keyword%22:%22%E8%A1%97%E6%8B%8D%22}',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
        'X-Requested-With': 'XMLHttpRequest',
        'Cookie': 'msToken=S0DFBkZ9hmyLOGYd3_QjhhXgrm38qTyOITnkNb0t_oavfbVxuYV1JZ0tT5hLgswSfmZLFD6c2lONm_5TomUQXVXjen7CIxM2AGwbhHRYKjhg; _S_DPR=1.5; _S_IPAD=0; MONITOR_WEB_ID=7046351002275317255; ttwid=1%7C0YdWalNdIiSpIk3CvvHwV25U8drq3QAj08E8QOApXhs%7C1640607595%7C720e971d353416921df127996ed708931b4ae28a0a8691a5466347697e581ce8; _S_WIN_WH=262_623'
    }
    params = {
        'keyword': '街拍',
        'pd': 'atlas',
        'dvpf': 'pc',
        'aid': '4916',
        'page_num': page_num,
        'search_json': '%7B%22from_search_id%22%3A%22202112272022060101510440283EE83D67%22%2C%22origin_keyword%22%3A%22%E8%A1%97%E6%8B%8D%22%2C%22image_keyword%22%3A%22%E8%A1%97%E6%8B%8D%22%7D',
        'rawJSON': 1,
        'search_id': '2021122721183101015104402851E3883D'
    }
    url = 'https://so.toutiao.com/search?' + urlencode(params)
    print(url)
    try:
        response=requests.get(url,headers=headers,params=params)
        if response.status_code == 200:
        #if response.content:
            #print(response.json())
            return response.json()
    except requests.ConnectionError:
        return None

從json格式數(shù)據(jù)提取街拍圖片

def get_images(json):
    images = json.get('rawData').get('data')
    for image in images:
        link = image.get('img_url')
        yield link

將街拍圖片以其md5碼命名并保存圖片

實(shí)現(xiàn)一個(gè)保存圖片的方法 save_image(),其中 item 就是前面 get_images() 方法返回的一個(gè)字典。在該方法中,首先根據(jù) item 的 title 來(lái)創(chuàng)建文件夾,然后請(qǐng)求這個(gè)圖片鏈接,獲取圖片的二進(jìn)制數(shù)據(jù),以二進(jìn)制的形式寫(xiě)入文件。圖片的名稱可以使用其內(nèi)容的 MD5 值,這樣可以去除重復(fù)。相關(guān)代碼如下:

def save_image(link):
    data = requests.get(link).content
    with open(f'./image/{md5(data).hexdigest()}.jpg', 'wb')as f:#使用data的md5碼作為圖片名
        f.write(data)

main()調(diào)用其他函數(shù)

def main(page_num):
    json = get_page(page_num)
    for link in get_images(json):
        #print(link)
        save_image(link)

(4)抓取20page今日頭條街拍圖片數(shù)據(jù)

這里定義了分頁(yè)的起始頁(yè)數(shù)和終止頁(yè)數(shù),分別為 GROUP_START 和 GROUP_END,還利用了多線程的線程池,調(diào)用其 map() 方法實(shí)現(xiàn)多線程下載。

if __name__ == '__main__':
    GROUP_START = 1
    GROUP_END = 20
    pool = Pool()
    groups = ([x for x in range(GROUP_START, GROUP_END + 1)])
    #print(groups)
    pool.map(main, groups)
    pool.close()
    pool.join()
import requests
from urllib.parse import urlencode
from hashlib import md5
from multiprocessing.pool import Pool
def get_page(page_num):
    global headers
    headers = {
        'Host': 'so.toutiao.com',
        #'Referer': 'https://so.toutiao.com/search?keyword=%E8%A1%97%E6%8B%8D&pd=atlas&dvpf=pc&aid=4916&page_num=0&search_json={%22from_search_id%22:%22202112272022060101510440283EE83D67%22,%22origin_keyword%22:%22%E8%A1%97%E6%8B%8D%22,%22image_keyword%22:%22%E8%A1%97%E6%8B%8D%22}',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
        'X-Requested-With': 'XMLHttpRequest',
        'Cookie': 'msToken=S0DFBkZ9hmyLOGYd3_QjhhXgrm38qTyOITnkNb0t_oavfbVxuYV1JZ0tT5hLgswSfmZLFD6c2lONm_5TomUQXVXjen7CIxM2AGwbhHRYKjhg; _S_DPR=1.5; _S_IPAD=0; MONITOR_WEB_ID=7046351002275317255; ttwid=1%7C0YdWalNdIiSpIk3CvvHwV25U8drq3QAj08E8QOApXhs%7C1640607595%7C720e971d353416921df127996ed708931b4ae28a0a8691a5466347697e581ce8; _S_WIN_WH=262_623'
    }
    params = {
        'keyword': '街拍',
        'pd': 'atlas',
        'dvpf': 'pc',
        'aid': '4916',
        'page_num': page_num,
        'search_json': '%7B%22from_search_id%22%3A%22202112272022060101510440283EE83D67%22%2C%22origin_keyword%22%3A%22%E8%A1%97%E6%8B%8D%22%2C%22image_keyword%22%3A%22%E8%A1%97%E6%8B%8D%22%7D',
        'rawJSON': 1,
        'search_id': '2021122721183101015104402851E3883D'
    }
    url = 'https://so.toutiao.com/search?' + urlencode(params)
    print(url)
    try:
        response=requests.get(url,headers=headers,params=params)
        if response.status_code == 200:
        #if response.content:
            #print(response.json())
            return response.json()
    except requests.ConnectionError:
        return None

def get_images(json):
    images = json.get('rawData').get('data')
    for image in images:
        link = image.get('img_url')
        yield link


def save_image(link):
    data = requests.get(link).content
    with open(f'./image/{md5(data).hexdigest()}.jpg', 'wb')as f:#使用data的md5碼作為圖片名
        f.write(data)




def main(page_num):
    json = get_page(page_num)
    for link in get_images(json):
        #print(link)
        save_image(link)




if __name__ == '__main__':
    GROUP_START = 1
    GROUP_END = 20
    pool = Pool()
    groups = ([x for x in range(GROUP_START, GROUP_END + 1)])
    #print(groups)
    pool.map(main, groups)
    pool.close()
    pool.join()


在這里插入圖片描述

 到此這篇關(guān)于Python抓取今日頭條街拍圖片數(shù)據(jù)的文章就介紹到這了,更多相關(guān)Python抓取今日頭條圖片內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 阿里云ECS服務(wù)器部署django的方法

    阿里云ECS服務(wù)器部署django的方法

    今天小編就為大家分享一篇阿里云ECS服務(wù)器部署django的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2019-08-08
  • 解決python中os.system調(diào)用exe文件的問(wèn)題

    解決python中os.system調(diào)用exe文件的問(wèn)題

    這篇文章主要介紹了解決python中os.system調(diào)用exe文件的問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2021-05-05
  • Python多線程下載文件的方法

    Python多線程下載文件的方法

    這篇文章主要介紹了Python多線程下載文件的方法,涉及Python多線程及文件操作的相關(guān)技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下
    2015-07-07
  • python 實(shí)現(xiàn)屏幕錄制示例

    python 實(shí)現(xiàn)屏幕錄制示例

    今天小編就為大家分享一篇python 實(shí)現(xiàn)屏幕錄制示例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2019-12-12
  • python使用KNN算法手寫(xiě)體識(shí)別

    python使用KNN算法手寫(xiě)體識(shí)別

    這篇文章主要為大家詳細(xì)介紹了python使用KNN算法手寫(xiě)體識(shí)別,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2018-02-02
  • python實(shí)現(xiàn)漫天飄落的七彩花朵效果

    python實(shí)現(xiàn)漫天飄落的七彩花朵效果

    要實(shí)現(xiàn)漫天飄落的七彩花朵效果,你可以使用Python的圖形庫(kù),如Pygame或Pyglet,這些庫(kù)可以幫助你創(chuàng)建動(dòng)畫(huà)和圖形效果,本文給大家介紹了如何使用python實(shí)現(xiàn)漫天飄落的七彩花朵效果,感興趣的朋友可以參考下
    2024-01-01
  • Django contenttypes 框架詳解(小結(jié))

    Django contenttypes 框架詳解(小結(jié))

    這篇文章主要介紹了Django contenttypes 框架詳解(小結(jié)),小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧
    2018-08-08
  • Python實(shí)現(xiàn)圖形用戶界面計(jì)算器

    Python實(shí)現(xiàn)圖形用戶界面計(jì)算器

    這篇文章主要為大家詳細(xì)介紹了Python實(shí)現(xiàn)圖形用戶界面計(jì)算器,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2022-07-07
  • 使用Cython中prange函數(shù)實(shí)現(xiàn)for循環(huán)的并行

    使用Cython中prange函數(shù)實(shí)現(xiàn)for循環(huán)的并行

    Cython中提供了一個(gè)prange函數(shù),專門(mén)用于循環(huán)的并行執(zhí)行。這個(gè) prange的特殊功能是Cython獨(dú)一無(wú)二的,并且prange只能與for循環(huán)搭配使用,不能獨(dú)立存在。本文就將使用 prange 實(shí)現(xiàn) for 循環(huán)的并行,感興趣的可以了解一下
    2022-08-08
  • Linux安裝Python3如何和系統(tǒng)自帶的Python2并存

    Linux安裝Python3如何和系統(tǒng)自帶的Python2并存

    這篇文章主要介紹了Linux安裝Python3如何和系統(tǒng)自帶的Python2并存,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-07-07

最新評(píng)論