亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Python爬蟲——爬取豆瓣電影Top250代碼實例

 更新時間:2019年04月17日 08:52:16   作者:Fighting_No1  
這篇文章主要介紹了Python爬取豆瓣電影Top250實例,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧

利用python爬取豆瓣電影Top250的相關信息,包括電影詳情鏈接,圖片鏈接,影片中文名,影片外國名,評分,評價數(shù),概況,導演,主演,年份,地區(qū),類別這12項內(nèi)容,然后將爬取的信息寫入Excel表中?;旧吓廊〗Y果還是挺好的。具體代碼如下:

#!/usr/bin/python
#-*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf8')
from bs4 import BeautifulSoup
import re
import urllib2
import xlwt

#得到頁面全部內(nèi)容
def askURL(url):
  request = urllib2.Request(url)#發(fā)送請求
  try:
    response = urllib2.urlopen(request)#取得響應
    html= response.read()#獲取網(wǎng)頁內(nèi)容
    #print html
  except urllib2.URLError, e:
    if hasattr(e,"code"):
      print e.code
    if hasattr(e,"reason"):
      print e.reason
  return html

#獲取相關內(nèi)容
def getData(baseurl):
  findLink=re.compile(r'<a href="(.*?)" rel="external nofollow" >')#找到影片詳情鏈接
  findImgSrc=re.compile(r'<img.*src="(.*jpg)"',re.S)#找到影片圖片
  findTitle=re.compile(r'<span class="title">(.*)</span>')#找到片名
  #找到評分
  findRating=re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
  #找到評價人數(shù)
  findJudge=re.compile(r'<span>(\d*)人評價</span>')
  #找到概況
  findInq=re.compile(r'<span class="inq">(.*)</span>')
  #找到影片相關內(nèi)容:導演,主演,年份,地區(qū),類別
  findBd=re.compile(r'<p class="">(.*?)</p>',re.S)
  #去掉無關內(nèi)容
  remove=re.compile(r'              |\n|</br>|\.*')
  datalist=[]
  for i in range(0,10):
    url=baseurl+str(i*25)
    html=askURL(url)
    soup = BeautifulSoup(html, "html.parser")
    for item in soup.find_all('div',class_='item'):#找到每一個影片項
      data=[]
      item=str(item)#轉(zhuǎn)換成字符串
      #print item
      link=re.findall(findLink,item)[0]
      data.append(link)#添加詳情鏈接
      imgSrc=re.findall(findImgSrc,item)[0]
      data.append(imgSrc)#添加圖片鏈接
      titles=re.findall(findTitle,item)
      #片名可能只有一個中文名,沒有外國名
      if(len(titles)==2):
        ctitle=titles[0]
        data.append(ctitle)#添加中文片名
        otitle=titles[1].replace(" / ","")#去掉無關符號
        data.append(otitle)#添加外國片名
      else:
        data.append(titles[0])#添加中文片名
        data.append(' ')#留空
      rating=re.findall(findRating,item)[0]
      data.append(rating)#添加評分
      judgeNum=re.findall(findJudge,item)[0]
      data.append(judgeNum)#添加評論人數(shù)
      inq=re.findall(findInq,item)
      #可能沒有概況
      if len(inq)!=0:
        inq=inq[0].replace("。","")#去掉句號
        data.append(inq)#添加概況
      else:
        data.append(' ')#留空
      bd=re.findall(findBd,item)[0]
      bd=re.sub(remove,"",bd)
      bd=re.sub('<br>'," ",bd)#去掉<br>
      bd=re.sub('/'," ",bd)#替換/
      #data.append(bd)
      words=bd.split(" ")
      for s in words:
        if len(s)!=0 and s!=' ':#去掉空白內(nèi)容
           data.append(s)
      #主演有可能因為導演內(nèi)容太長而沒有
      if(len(data)!=12):
        data.insert(8,' ')#留空
      datalist.append(data)
  return datalist

#將相關數(shù)據(jù)寫入excel中
def saveData(datalist,savepath):
  book=xlwt.Workbook(encoding='utf-8',style_compression=0)
  sheet=book.add_sheet('豆瓣電影Top250',cell_overwrite_ok=True)
  col=('電影詳情鏈接','圖片鏈接','影片中文名','影片外國名',
        '評分','評價數(shù)','概況','導演','主演','年份','地區(qū)','類別')
  for i in range(0,12):
    sheet.write(0,i,col[i])#列名
  for i in range(0,250):
    data=datalist[i]
    for j in range(0,12):
      sheet.write(i+1,j,data[j])#數(shù)據(jù)
  book.save(savepath)#保存

def main():
  baseurl='https://movie.douban.com/top250?start='
  datalist=getData(baseurl)
  savapath=u'豆瓣電影Top250.xlsx'
  saveData(datalist,savapath)

main()

Excel表部分內(nèi)容如下:

以上所述是小編給大家介紹的Python爬取豆瓣電影Top250實例詳解整合,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復大家的。在此也非常感謝大家對腳本之家網(wǎng)站的支持!

相關文章

  • Python查找不限層級Json數(shù)據(jù)中某個key或者value的路徑方式

    Python查找不限層級Json數(shù)據(jù)中某個key或者value的路徑方式

    今天小編就為大家分享一篇Python查找不限層級Json數(shù)據(jù)中某個key或者value的路徑方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-02-02
  • 讓代碼變得更易維護的7個Python庫

    讓代碼變得更易維護的7個Python庫

    今天小編就為大家分享一篇關于讓代碼變得更易維護的7個Python庫,小編覺得內(nèi)容挺不錯的,現(xiàn)在分享給大家,具有很好的參考價值,需要的朋友一起跟隨小編來看看吧
    2018-10-10
  • Python實現(xiàn)全排列的打印

    Python實現(xiàn)全排列的打印

    這篇文章主要為大家詳介紹了Python實現(xiàn)全排列的打印的相關代碼,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2018-08-08
  • 使用PyTorch實現(xiàn)MNIST手寫體識別代碼

    使用PyTorch實現(xiàn)MNIST手寫體識別代碼

    今天小編就為大家分享一篇使用PyTorch實現(xiàn)MNIST手寫體識別代碼,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-01-01
  • python生成二維碼的實例詳解

    python生成二維碼的實例詳解

    這篇文章主要介紹了python生成二維碼的實例詳解的相關資料,希望通過本文能幫助到大家,讓大家實現(xiàn)這樣的功能,需要的朋友可以參考下
    2017-10-10
  • Python批量處理圖片大小尺寸方法詳解

    Python批量處理圖片大小尺寸方法詳解

    這篇文章主要介紹了用Python批量處理圖片大小尺寸的方法,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習吧
    2022-11-11
  • Python運算符的使用保姆級教學

    Python運算符的使用保姆級教學

    這篇文章主要給大家介紹了關于Python運算符使用的相關資料,文中總結了Python中的算術運算符、賦值運算符、比較運算符、邏輯運算符、位運算符和成員運算符的用法和特性,需要的朋友可以參考下
    2024-11-11
  • Python學習之字符串函數(shù)使用詳解

    Python學習之字符串函數(shù)使用詳解

    Python的友好在于提供了非常好強大的功能函數(shù)模塊,對于字符串的使用,同樣提供許多簡單便捷的字符串函數(shù)。Python 字符串自帶了很多有用的函數(shù),快來跟隨小編學習一下這些函數(shù)的應用詳解吧
    2021-12-12
  • Python實現(xiàn)數(shù)值取整方法的完全指南

    Python實現(xiàn)數(shù)值取整方法的完全指南

    在金融計算、數(shù)據(jù)分析和工程領域,數(shù)值取整是至關重要的基礎操作,本文將深入解析Python數(shù)值取整的所有方法以及其特定的應用場景和陷阱,希望對大家有一定的幫助
    2025-08-08
  • python 如何通過KNN來填充缺失值

    python 如何通過KNN來填充缺失值

    這篇文章主要介紹了python 通過KNN來填充缺失值的操作,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2021-05-05

最新評論