亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Python爬取愛奇藝電影信息代碼實例

 更新時間:2019年11月26日 09:36:09   作者:陳暢  
這篇文章主要介紹了Python爬取愛奇藝電影信息代碼實例,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

這篇文章主要介紹了Python爬取愛奇藝電影信息代碼實例,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

一,使用庫

  1.requests

  2.re

  3.json

二,抓取html文件

def get_page(url):
  response = requests.get(url)
  if response.status_code == 200:
    return response.text
  return None

三,解析html文件

我們需要的電影信息的部分如下圖(評分,片名,主演):

抓取到的html文件對應的代碼:

可以分析出,每部電影的信息都在一個<li>標簽內(nèi),用正則表達式解析:

def parse_page(html):
  pattern = re.compile('<li.*?qy-mod-li.*?text-score">(.*?)<.*?title.*?>(.*?)<.*?title.*?>(.*?)<', re.S)
  items = re.findall(pattern, html)
  for item in items:#轉(zhuǎn)換為字典形式保存
    yield {
      'score': item[0],
      'name': item[1],
      'actor': item[2].strip()[3:]#將‘主演:'去掉
    }

四,寫入文件

def write_to_file(content):
  with open('result.txt', 'a', encoding='utf-8')as f:
    f.write(json.dumps(content, ensure_ascii=False) + '\n')#將字典格式轉(zhuǎn)換為字符串加以保存,并設置中文格式
    f.close()

五,調(diào)用函數(shù)

def main():
  url = 'https://list.iqiyi.com/www/1/-------------8-1-1-iqiyi--.html'
  html = get_page(url)
  for item in parse_page(html):
    print(item)
    write_to_file(item)

六,運行結(jié)果

七,完整代碼

import json
import requests
import re


# 抓取html文件
# 解析html文件
# 存儲文件


def get_page(url):
  response = requests.get(url)
  if response.status_code == 200:
    return response.text
  return None


def parse_page(html):
  pattern = re.compile('<li.*?qy-mod-li.*?text-score">(.*?)<.*?title.*?>(.*?)<.*?title.*?>(.*?)<', re.S)
  items = re.findall(pattern, html)
  for item in items:
    yield {
      'score': item[0],
      'name': item[1],
      'actor': item[2].strip()[3:]
    }


def write_to_file(content):
  with open('result.txt', 'a', encoding='utf-8')as f:
    f.write(json.dumps(content, ensure_ascii=False) + '\n')
    f.close()

def main():
  url = 'https://list.iqiyi.com/www/1/-------------8-1-1-iqiyi--.html'
  html = get_page(url)
  for item in parse_page(html):
    print(item)
    write_to_file(item)
if __name__ == '__main__':
  main()

以上就是本文的全部內(nèi)容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。

相關文章

  • Python的垃圾回收機制深入分析

    Python的垃圾回收機制深入分析

    這篇文章主要介紹了Python的垃圾回收機制,有助于深入的理解Python的內(nèi)存分配與回收機制,需要的朋友可以參考下
    2014-07-07
  • Pytorch mask_select 函數(shù)的用法詳解

    Pytorch mask_select 函數(shù)的用法詳解

    今天小編就為大家分享一篇Pytorch mask_select 函數(shù)的用法詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-02-02
  • Python實現(xiàn)隨機游走的詳細解釋

    Python實現(xiàn)隨機游走的詳細解釋

    這篇文章主要介紹了Python實現(xiàn)隨機游走的詳細解釋,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2021-03-03
  • Python中的shape[0]、shape[1]和shape[-1]使用方法

    Python中的shape[0]、shape[1]和shape[-1]使用方法

    shape函數(shù)是Numpy中的函數(shù),它的功能是讀取矩陣的長度,比如shape[0]就是讀取矩陣第一維度的長度,這篇文章主要介紹了Python中的shape[0]、shape[1]和shape[-1]使用方法,需要的朋友可以參考下
    2023-07-07
  • Flask WTForms 表單插件的使用

    Flask WTForms 表單插件的使用

    本文主要介紹了Flask WTForms表單插件的使用,Python的WTForms庫通過提供表單的結(jié)構、驗證和渲染等功能,簡化了表單的處理流程,感興趣的可以了解一下
    2023-11-11
  • python防止棧溢出的實例講解

    python防止棧溢出的實例講解

    在本篇文章里小編給大家整理了一篇關于python防止棧溢出的實例講解內(nèi)容,有興趣的朋友們可以學習參考下。
    2021-05-05
  • pytorch 如何實現(xiàn)HWC轉(zhuǎn)CHW

    pytorch 如何實現(xiàn)HWC轉(zhuǎn)CHW

    這篇文章主要介紹了pytorch HWC轉(zhuǎn)CHW的實現(xiàn)方式,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2021-05-05
  • Python使用回溯法子集樹模板獲取最長公共子序列(LCS)的方法

    Python使用回溯法子集樹模板獲取最長公共子序列(LCS)的方法

    這篇文章主要介紹了Python使用回溯法子集樹模板獲取最長公共子序列(LCS)的方法,簡單描述了最長公共子序列問題并結(jié)合實例形式分析了Python基于回溯法子集樹模板獲取最長公共子序列的操作步驟與相關注意事項,需要的朋友可以參考下
    2017-09-09
  • 使用Python的turtle模塊繪制櫻花樹的代碼示例

    使用Python的turtle模塊繪制櫻花樹的代碼示例

    Python的turtle模塊是一個直觀的圖形化編程工具,讓用戶通過控制海龜在屏幕上的移動來繪制各種形狀和圖案,在接下來的文章中,我將通過一個生動的例子——繪制一幅櫻花樹圖畫——來深入探討turtle模塊的實用性,需要的朋友可以參考下
    2024-04-04
  • python適合人工智能的理由和優(yōu)勢

    python適合人工智能的理由和優(yōu)勢

    在本篇文章里小編給大家分享了關于python適合人工智能的理由和優(yōu)勢以及相關知識點,需要的朋友們學習下。
    2019-06-06

最新評論