亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Python 爬取淘寶商品信息欄目的實(shí)現(xiàn)

 更新時(shí)間:2021年02月06日 09:53:19   作者:qq_45893626  
這篇文章主要介紹了Python 爬取淘寶商品信息欄目的實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

一、相關(guān)知識(shí)點(diǎn)

1.1、Selenium

Selenium是一個(gè)強(qiáng)大的開(kāi)源Web功能測(cè)試工具系列,可進(jìn)行讀入測(cè)試套件、執(zhí)行測(cè)試和記錄測(cè)試結(jié)果,模擬真實(shí)用戶操作,包括瀏覽頁(yè)面、點(diǎn)擊鏈接、輸入文字、提交表單、觸發(fā)鼠標(biāo)事件等操作,并且能夠?qū)?yè)面結(jié)果進(jìn)行種種驗(yàn)證。也就是說(shuō),只要在測(cè)試用例中把預(yù)期的用戶行為與結(jié)果都描述出來(lái),我們就得到了一個(gè)可以自動(dòng)化運(yùn)行的功能測(cè)試套件。

1.2、ActionChains
Actionchains是selenium里面專門處理鼠標(biāo)相關(guān)的操作如:鼠標(biāo)移動(dòng),鼠標(biāo)按鈕操作,按鍵和上下文菜單(鼠標(biāo)右鍵)交互。這對(duì)于做更復(fù)雜的動(dòng)作非常有用,比如懸停和拖放。

1.3、time
返回當(dāng)前時(shí)間的時(shí)間戳

1.4、lxml
lxml是一個(gè)Python庫(kù),使用它可以輕松處理XML和HTML文件,還可以用于web爬取。市面上有很多現(xiàn)成的XML解析器,但是為了獲得更好的結(jié)果,開(kāi)發(fā)人員有時(shí)更愿意編寫自己的XML和HTML解析器。這時(shí)lxml庫(kù)就派上用場(chǎng)了。這個(gè)庫(kù)的主要優(yōu)點(diǎn)是易于使用,在解析大型文檔時(shí)速度非???,歸檔的也非常好,并且提供了簡(jiǎn)單的轉(zhuǎn)換方法來(lái)將數(shù)據(jù)轉(zhuǎn)換為Python數(shù)據(jù)類型,從而使文件操作更容易。

1.5、csv
csv文件格式是一種通用的電子表格和數(shù)據(jù)庫(kù)導(dǎo)入導(dǎo)出格式。最近我調(diào)用RPC處理服務(wù)器數(shù)據(jù)時(shí),經(jīng)常需要將數(shù)據(jù)做個(gè)存檔便使用了這一方便的格式。

1.6、requests
Requests 庫(kù)是一個(gè)優(yōu)雅而簡(jiǎn)單的 Python HTTP 庫(kù),主要用于發(fā)送和處理 HTTP 請(qǐng)求

二、部分代碼解析

加載Chrome驅(qū)動(dòng),動(dòng)態(tài)解析爬取的網(wǎng)址

 #提取公共的爬取信息的api
 def commonsdk(self,url):
 browser = webdriver.Chrome('D:/chromedriver.exe')
 try:
 browser.get(url)
 except Exception as e:
 browser.execute_script('window.stop()') # 超出時(shí)間則不加載
 print(e, 'dynamic web load timeout')
 return browser;

實(shí)現(xiàn)模擬登錄

通過(guò)定位淘寶登陸界面的url的表單框,然后輸入自己的用戶名及密碼,再模擬鼠標(biāo)點(diǎn)擊事件,繼而提交表單信息實(shí)現(xiàn)用戶登錄。

#模擬登錄
 def logon(self,url,a_href_list_next):
 username = "淘寶賬戶名"
 password = "密碼"
 browser1 = self.commonsdk(url)
 #登錄賬號(hào)
 browser1.find_element_by_id('fm-login-id').send_keys(username)
 browser1.find_element_by_id('fm-login-password').send_keys(password)
 #模擬用戶點(diǎn)擊登錄
 browser1.find_element_by_xpath('//*[@id="login-form"]/div[4]/button').click()
 #解析商品信息
 self.Buy_information(a_href_list_next,browser1)

爬取側(cè)邊欄目錄
1、首先定位到目錄分類欄,鼠標(biāo)光標(biāo)移動(dòng)到需要選中的那一欄,繼而會(huì)出現(xiàn)隱藏的div,(這里需要實(shí)現(xiàn)鼠標(biāo)懸停事件)action.move_to_element(li_list).perform()實(shí)現(xiàn)了這一功能。
2、然后定位自己所需要爬取的側(cè)邊欄的那一行或多行,通過(guò)實(shí)現(xiàn)鼠標(biāo)懸停事件后獲取其中內(nèi)容。
3、獲取其超鏈接進(jìn)入下一界面

#爬取目錄
 def List(self,url):
 browser = self.commonsdk(url)
 #ActionChains類實(shí)現(xiàn)鼠標(biāo)的單擊、雙擊、拖拽等功能
 action = ActionChains(browser)
 li_list = browser.find_elements_by_css_selector('.service-bd li')[1]
 #實(shí)現(xiàn)執(zhí)行鼠標(biāo)懸停,便于爬取懸停內(nèi)容
 action.move_to_element(li_list).perform()
 time.sleep(5)

 #爬取整個(gè)目錄的div
 div_list = browser.find_element_by_css_selector('.service-fi-links')
 #爬取其中的總的名稱
 h5_list = div_list.find_elements_by_css_selector('h5')
 #爬取小標(biāo)題的名稱
 p_list = div_list.find_elements_by_css_selector('p')
 #獲取a標(biāo)簽
 a_href_list = div_list.find_elements_by_css_selector('a')
 #獲取a標(biāo)簽的超鏈接
 a_href_list_next = div_list.find_elements_by_css_selector('a')[1].get_attribute('href')

 print(li_list.text)
 for j in range(len(p_list)):
 if j<len(p_list):
 print(h5_list[j].text)
 print(p_list[j].text)
 for i in range(len(a_href_list)):
 print(a_href_list[i].get_attribute('href'))

 #獲取登錄框
 logon = browser.find_element_by_id('J_SiteNavBd')
 #獲取登錄框的超鏈接
 logon_url = logon.find_element_by_css_selector('a').get_attribute('href')
 #先關(guān)閉第一個(gè)網(wǎng)頁(yè)
 browser.close()
 self.logon(logon_url,a_href_list_next)

獲取商品信息

1、這里使用的定位方式是Xpath方式,使用了絕對(duì)定位來(lái)獲取標(biāo)簽的位置。

#爬取商品信息
 def Buy_information(self,url,browser):
 browser.get(url)
 div_list = browser.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]')
 img = div_list.find_element_by_css_selector('img')
 img_url = "https:"+img.get_attribute('data-src')
 price = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[1]/div[1]').text
 number = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[1]/div[2]').text
 shoping_information = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[2]').text
 shop = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[3]/div[1]/a').text
 adress = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[3]/div[2]').text
 path = self.img_baocun(img_url)
 data={
 '圖片路徑':path,
 '價(jià)格':price,
 '購(gòu)買人數(shù)':number,
 '商品信息':shoping_information,
 '商家':shop,
 '籍貫':adress
 }
 self.write_dictionary_to_csv(data,'information')

下載圖片

通過(guò)獲取到的圖片的url,然后將圖片下載到指定的文件夾內(nèi)

#下載照片
 def img_baocun(self,url):
 root = "文件夾下載的路徑"http://電腦上的絕對(duì)路徑
 path = root + url.split('?')[0].split('/')[-1].strip('')#獲取jpg的名稱
 #判斷是否存在該路徑,不存在則創(chuàng)建
 if not os.path.exists(root):
 os.mkdir(root)
 #判斷是否存在該圖片,存在則不下載
 if not os.path.exists(path):
 r = requests.get(url)
 r.raise_for_status()
 with open(path,'wb') as f:
 f.write(r.content)
 return path

將需要爬取的信息寫入到csv文件中,便于查看
1、商品信息以字典的形式寫入csv文件中方便查看。

#將解析得到的內(nèi)容(字典格式)逐行寫入csv文件
 def write_dictionary_to_csv(self,dict,filename):
 #格式化文件名
 file_name='{}.csv'.format(filename)
 with open(file_name, 'a',encoding='utf-8') as f: 
 file_exists = os.path.isfile(filename)
 #delimiter(定界符) 
 w =csv.DictWriter(f, dict.keys(),delimiter=',', quotechar='"', lineterminator='\n',quoting=csv.QUOTE_ALL, skipinitialspace=True)
 if not file_exists :
 w.writeheader()
 w.writerow(dict)
 print('當(dāng)前行寫入csv成功!')

三、程序思路

1、首先定位到側(cè)邊欄的位置,然后使用action.move_to_element(li_list).perform()的方法實(shí)現(xiàn)鼠標(biāo)的動(dòng)態(tài)懸停,讓隱藏的div顯示出來(lái),再獲取其中的信息。
2、然后再實(shí)現(xiàn)模擬登錄的功能,登錄賬號(hào),獲取其中的商品信息(由于淘寶的反扒機(jī)制,多次登錄會(huì)讓用戶掃碼登錄,此功能暫未實(shí)現(xiàn))
3、商品信息的獲取使用Xpath的絕對(duì)定位方式來(lái)獲取。

Xpath的使用方式:
 右鍵需要定位的標(biāo)簽->選中Copy選項(xiàng)->Copy Xpath

四、發(fā)展空間

1、解決淘寶反扒機(jī)制的問(wèn)題。傳送門,解決問(wèn)題
2、文件的寫入換用其他方式。

到此這篇關(guān)于Python 爬取淘寶商品信息欄目的實(shí)現(xiàn)的文章就介紹到這了,更多相關(guān)Python 爬取淘寶商品信息內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • python實(shí)現(xiàn)差分隱私Laplace機(jī)制詳解

    python實(shí)現(xiàn)差分隱私Laplace機(jī)制詳解

    今天小編就為大家分享一篇python實(shí)現(xiàn)差分隱私Laplace機(jī)制詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2019-11-11
  • Python2與Python3的區(qū)別詳解

    Python2與Python3的區(qū)別詳解

    這篇文章主要介紹了Python2與Python3的區(qū)別詳解,需要的朋友可以參考下
    2020-02-02
  • Python基于SMTP協(xié)議實(shí)現(xiàn)發(fā)送郵件功能詳解

    Python基于SMTP協(xié)議實(shí)現(xiàn)發(fā)送郵件功能詳解

    這篇文章主要介紹了Python基于SMTP協(xié)議實(shí)現(xiàn)發(fā)送郵件功能,結(jié)合實(shí)例形式分析了Python使用SMTP協(xié)議實(shí)現(xiàn)郵件發(fā)送的相關(guān)操作技巧,并總結(jié)分析了Python發(fā)送純文本郵件、郵件附件、圖片郵件等相關(guān)操作技巧,需要的朋友可以參考下
    2018-08-08
  • python實(shí)現(xiàn)感知機(jī)線性分類模型示例代碼

    python實(shí)現(xiàn)感知機(jī)線性分類模型示例代碼

    這篇文章主要給大家介紹了關(guān)于python實(shí)現(xiàn)感知機(jī)線性分類模型的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家學(xué)習(xí)或者使用python具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2019-06-06
  • pyhthon繪制超炫酷的心形線星形線擺線

    pyhthon繪制超炫酷的心形線星形線擺線

    這篇文章主要為大家介紹了如何用pyhthon繪制各種超炫酷的擺線,本文主要實(shí)現(xiàn)了心形線和星形線也就是外擺線和內(nèi)擺線兩種,有需要的朋友可以借鑒參考下
    2021-10-10
  • 如何快速理解python的垃圾回收機(jī)制

    如何快速理解python的垃圾回收機(jī)制

    在本篇內(nèi)容里小編給各位分享的是一篇關(guān)于如何快速理解python的垃圾回收機(jī)制的相關(guān)知識(shí)點(diǎn)內(nèi)容,需要的朋友們可以學(xué)習(xí)下。
    2020-09-09
  • python優(yōu)化數(shù)據(jù)預(yù)處理方法Pandas pipe詳解

    python優(yōu)化數(shù)據(jù)預(yù)處理方法Pandas pipe詳解

    在本文中,我們將重點(diǎn)討論一個(gè)將多個(gè)預(yù)處理操作組織成單個(gè)操作的特定函數(shù):pipe。我將通過(guò)示例方式來(lái)展示如何使用它,讓我們從數(shù)據(jù)創(chuàng)建數(shù)據(jù)幀開(kāi)始吧
    2021-11-11
  • Python可迭代對(duì)象操作示例

    Python可迭代對(duì)象操作示例

    這篇文章主要介紹了Python可迭代對(duì)象操作,涉及Python列表生成式、迭代器、數(shù)據(jù)遍歷等相關(guān)操作技巧,需要的朋友可以參考下
    2019-05-05
  • 簡(jiǎn)單講解Python中的閉包

    簡(jiǎn)單講解Python中的閉包

    這篇文章主要介紹了Python中的閉包,是Python入門學(xué)習(xí)中的基礎(chǔ)知識(shí),需要的朋友可以參考下
    2015-08-08
  • Python實(shí)現(xiàn)斐波那契數(shù)列的示例代碼

    Python實(shí)現(xiàn)斐波那契數(shù)列的示例代碼

    斐波那契數(shù)列是一種經(jīng)典的數(shù)學(xué)問(wèn)題,在計(jì)算機(jī)科學(xué)和編程中經(jīng)常被用來(lái)演示算法和遞歸的概念,本文將詳細(xì)介紹斐波那契數(shù)列的定義、計(jì)算方法以及如何在Python中實(shí)現(xiàn)它,需要的可以參考下
    2024-01-01

最新評(píng)論