主要注意問題：selenium 模擬登錄、iframe標簽定位、頁面元素提取。
在利用selenium定位元素并取值的過程中遇到問題。比如xpath正確但無法定位，在進行翻頁提取評論的過程中，利用selenium似乎不能提取不同頁的數(shù)據(jù)，比如，明明定位的第三頁的評論數(shù)據(jù)，而只能返回第一頁的評論數(shù)據(jù)。

一、模擬登錄

selenium 定位元素模擬人的操作進行登錄，直接上代碼：

//模擬登錄
import pandas as pd
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.options import Options
from selenium.webdriver import ActionChains
from lxml import etree
import time
from datetime import datetime,timedelta
wyy_url = 'https://music.163.com/'
driver = webdriver.Chrome()
driver.get(wyy_url)
driver.maximize_window() #全屏
time.sleep(2)
driver.find_element_by_xpath("http://a[@class = 'link s-fc3']").click()
time.sleep(2)
driver.find_element_by_xpath("http://a[@class='u-btn2 other']").click() #選擇其他方式登錄
#賬號、密碼登錄
driver.find_element_by_xpath("http://input[@type='checkbox']").click() #同意條款
time.sleep(0.5)
driver.find_element_by_xpath("http://a[@class='u-btn2 u-btn2-2']").click()
#選擇手機號密碼登錄
driver.find_element_by_xpath("http://a[@class='f-fr s-fc3 pwdlogin']").click()
time.sleep(1)
driver.find_element_by_id("p").send_keys('xxx') #這里輸入你的id
driver.find_element_by_id("pw").send_keys('xxx') #這里輸入密碼
time.sleep(1)
#點擊登錄
driver.find_element_by_xpath("http://a[@class='j-primary u-btn2 u-btn2-2']").click()
time.sleep(1)

二、排行榜數(shù)據(jù)爬取

當時嘗試直接用selenium定位標簽取值，并沒有返回有效結果。在后面爬取評論時，也遇到此問題。于是先獲取頁面內(nèi)容在進行分析。

// 排行榜
base_url = "https://music.163.com/#/discover/toplist?id="
bang_typical = {'飆升榜':19723756,'新歌榜':3779629,'原創(chuàng)榜':2884035,'熱歌榜':3778678}
#選擇榜單
bang = input('請輸入榜單：')
#構造榜單對應的鏈接
url = base_url + str(bang_typical[bang]) 
print('開始分析：-%s' %(bang))
#進入榜單
driver.get(url) 
time.sleep(3) 
#iframe標簽定位，必要的，否則無法定位其他標簽
_iframe = driver.find_element_by_xpath("http://iframe[@id='g_iframe']") # 找到iframe標簽
driver.switch_to.frame(_iframe)
time.sleep(1)
page_text = driver.execute_script("return document.documentElement.outerHTML")
#獲取頁面
html = etree.HTML(page_text) 
trs = html.xpath('//tbody/tr')
rank_list = []
title_list = []
span_list = []
singer_list = []
for tr in trs:
    rank = tr.xpath(".//span[@class='num']/text()")[0]    #注意xpath獲取到的是列表，需提取其元素
    title = tr.xpath(".//b/@title")[0]
    span = tr.xpath(".//td[@class=' s-fc3']/span[@class='u-dur ']/text()")[0]
    singer = tr.xpath(".//div[@class='text']/span/@title")[0]
    rank_list.append(rank)
    title_list.append(title)
    span_list.append(span)
    singer_list.append(singer)
#輸出榜單結果
df_bang = pd.DataFrame({'排名':rank_list,'歌名':title_list,'時長':span_list,'歌手':singer_list})

三、排行榜評論獲取

主要是評論日期的格式轉(zhuǎn)換，評論內(nèi)容的清洗

// 評論
# 日期清洗函數(shù)
def change_time(time):
    now = datetime.now()
    day_y = datetime.strftime(now - timedelta(1),'%Y-%m-%d') #計算昨天
    day = now.strftime('%Y-%m-%d')
    year = now.strftime('%Y')
    if '年' in time:                                         #非今年
        new_time = time.replace('年','-').replace('月','-').replace('日','')
    elif '昨天' in time:
        new_time = time.replace('昨天',day_y+' ')  
    elif '前' in time:                                      #前天
        minut = int(time[:time.index('分')])
        new_time = (now + timedelta(minutes=-minut)).strftime('%Y-%m-%d %H:%M')
    elif len(time) == 5:                                   #今天
        new_time = day + ' ' + time
    else:                                                  #最近 **月**日 **：**
        y = '2021-'
        time = time.replace('月','-').replace('日','')
        new_time = y + time  
    return new_time      

#評論清洗
def change_review(r):
    if '：' in r:
        r_ = r.split('：')[1]
    else:
        r_ = r
    return r_

#評論點贊
def change_likes(l):
    if l != []:
        l_ = int(l.split('(')[1].split(')')[0])
    else:
        l_ = 0
    return l_

#拉動滾動條至翻頁按鈕處
driver.execute_script("window.scrollTo(0,document.body.scrollHeight)") 

#獲取頁面信息
num = input('請輸入需要爬取的頁面總數(shù)：')  #想要爬取評論的頁數(shù)，
#這里的思路是先通過翻頁將獲取到的所有頁面的所有內(nèi)容存至列表，再對列表遍歷。
#因為當時直接用selenium 定位返回結果不對，當然你們也可以用selenium直接試試。
html_list=[] 
for i in range(int(num)):
    page_text = driver.execute_script("return document.documentElement.outerHTML")
    html = etree.HTML(page_text)#獲取頁面
    html_list.append(html)
    #翻頁
    driver.find_elements_by_xpath("http://div[contains(@class,'u-page')]/a")[-1].click()
    time.sleep(4)
    WebDriverWait(driver, 300, 0.1).until(EC.presence_of_element_located((By.XPATH, "http://div[@class='cmmts j-flag']")))
    print(f'第{i+1}頁爬取成功')

rev_list=[] #所有評論的列表
dat_list=[] #對應日期的列表
for review_page in html_list:
    raw_reviews = review_page.xpath("http://div[@class='cmmts j-flag']//div[@class='cnt f-brk']/text()")#提取頁面所有評論
    raw_reviews_ = [i for i in raw_reviews if "：" in i] #保證長度一致
    rv_date = review_page.xpath("http://div[@class='cmmts j-flag']//div[@class='cntwrap']/div[@class='rp']/div[@class='time s-fc4']/text()")
    review_list = [change_review(r) for r in raw_reviews_]
    date_list = [change_time(d) for d in rv_date]
    rev_list.extend(review_list)   
    dat_list.extend(date_list) 
print('分析完成')
driver.quit()

運行結果:

1、排行榜：

在這里插入圖片描述