亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

關于Python?Selenium自動化導出新版WOS(web?of?science)檢索結果的問題

 更新時間:2022年01月07日 14:44:59   作者:Parzival_  
這篇文章主要介紹了Python?Selenium自動化導出新版WOS(web?of?science)檢索結果,本代碼屬于半自動化導出,考慮到開發(fā)效率等因素,有兩處在首次導出時需要手動操作,具體實現(xiàn)過程跟隨小編一起看看吧

selenium 介紹

selenium 是一個 web 的自動化測試工具,不少學習功能自動化的同學開始首選 selenium ,因為它相比 QTP 有諸多有點:

  • 免費,也不用再為破解 QTP 而大傷腦筋
  • 小巧,對于不同的語言它只是一個包而已,而 QTP 需要下載安裝1個多 G 的程序。
  • 這也是最重要的一點,不管你以前更熟悉 C、 java、ruby、python、或都是 C# ,你都可以通過 selenium 完成自動化測試,而 QTP 只支持 VBS
  • 支持多平臺:windows、linux、MAC ,支持多瀏覽器:ie、ff、safari、opera、chrome
  • 支持分布式測試用例的執(zhí)行,可以把測試用例分布到不同的測試機器的執(zhí)行,相當于分發(fā)機的功能。

官方文檔:

https://selenium-python.readthedocs.io/index.html
https://seleniumhq.github.io/selenium/docs/api/py/api.html

寫在前面

有的時候需要某個領域的所有論文數(shù)據(jù),此時web of science數(shù)據(jù)庫檢索的論文結果可能動輒上萬甚至幾十萬,然而網(wǎng)站限制單次導出條數(shù)為1000(如果需要引文字段則僅500,僅導出為txt可包含引用詳細信息),需要導出幾十上百次,手動做太費神,因此寫一個爬蟲腳本自動導出。

2022.1.6舊版web of science正式下線了,這里是對新版網(wǎng)站重新開發(fā)的自動化導出代碼。

使用本代碼需要:

  • 國內大學學生賬號(登錄wos使用)
  • 火狐瀏覽器
  • geckodriver 0.24.0 (放在爬蟲代碼同一個文件夾下)

嚴格來說本代碼屬于半自動化導出,考慮到開發(fā)效率等因素,有兩處在首次導出時需要手動操作,后文細說。

遇到“selenium.common.exceptions.NoSuchElementException: Message: Unable to locate element: …”的報錯首先排查網(wǎng)絡問題,可以把對應代碼行之前的瀏覽器等待時間加長。

正文

代碼情況:

  • 輸入:wos檢索結果網(wǎng)址、需要導出的條數(shù)、導出結果存儲路徑
  • 輸出:導出文件(格式自選,一般txt/excel)

1、需要導入的包,以及測試入口。

其中url是在完成wos檢索之后的檢索頁面網(wǎng)址。

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time
import os
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By

if __name__=='__main__':

    '''WOS“檢索結果”頁面的網(wǎng)址'''
    url = 'https://www.webofscience.com/wos/woscc/summary/64c4e5ff-832d-476d-8112-51e908a600b1-1d5405d5/relevance/1'
    
    startdownload(url,80195,'/Users/username/folder',False) # 主要函數(shù)
    print('Done')

2、主要函數(shù)

兩次手動操作:

  • 首次打開wos必須登錄, 在學校統(tǒng)一身份認證處需要手動輸入信息并點擊登錄;
  • 第一次導出時需要手動修改文件處理方式為"保存文件", 并勾選"以后都采用相同動作處理此類文件"

輸入?yún)?shù)見函數(shù)說明。

  • 選擇導出格式處給出了excel和txt兩種,默認excel,可自選。
def startdownload(url,record_num,SAVE_TO_DIRECTORY,record_format='excel',reverse=False):
    '''url -> 檢索結果網(wǎng)址; \n 
       record_num -> 需要導出的記錄條數(shù)(檢索結果數(shù)); \n
       SAVE_TO_DIRECTORY -> 記錄導出存儲路徑(文件夾);\n
       record_format -> 導出記錄格式, default='excel';\n
       reverse -> 是否設置檢索結果降序排列, default=False \n
       ----------------------------------------------------
       tip1:首次打開wos必須登錄,在學校統(tǒng)一身份認證處需要手動輸入驗證碼并點擊登錄; 
       tip2:第一次導出時需要手動修改文件處理方式為"保存文件",并勾選"以后都采用相同動作處理此類文件"
    '''
    # SAVE_TO_DIRECTORY = '/Users/chenzijing/Desktop/研/畢業(yè)論文/畢設研/代碼/論文數(shù)據(jù)'#/firefox'
    fp = webdriver.FirefoxProfile()
    fp.set_preference('browser.download.dir', SAVE_TO_DIRECTORY)
    fp.set_preference("browser.download.folderList", 2)
    fp.set_preference("browser.download.manager.showWhenStarting", False)
    fp.set_preference("browser.helperApps.neverAsk.saveToDisk", "text/plain")
    browser = webdriver.Firefox(executable_path=r'geckodriver',firefox_profile=fp)
    browser.get(url)
    time.sleep(3)
    login(browser)
    browser.get(url)
    time.sleep(5)
    '''獲取需要導出的文獻數(shù)量'''
    # record_num = int(browser.find_element_by_css_selector('.brand-blue').text)
    # 按時間降序排列
    if reverse: 
        browser.find_element_by_css_selector('.top-toolbar wos-select:nth-child(1) button:nth-child(1) span:nth-child(2)').click()
        browser.find_element_by_css_selector("div.wrap-mode:nth-child(2) span:nth-child(1)").click() 
        time.sleep(3)
    # 叉掉彈窗
    browser.find_element_by_css_selector('#onetrust-accept-btn-handler').click()
    time.sleep(1)
    browser.find_element_by_css_selector('#pendo-close-guide-7176fce7').click()
    # 開始導出
    start = 1 # 起始記錄
    i = 0 # 導出記錄的數(shù)字框id隨導出次數(shù)遞增
    while start<record_num:
        browser.find_element_by_css_selector('button.cdx-but-md:nth-child(2) span:nth-child(1)').click() # 導出
        # 選擇導出格式
        if record_format=='excel':
            browser.find_element_by_css_selector('#exportToExcelButton').click() # 選擇導出格式為excel
        else:
            browser.find_element_by_css_selector('#exportToFieldTaggedButton').click() # 選擇導出格式為txt
        browser.find_element_by_css_selector('#radio3 label:nth-child(1) span:nth-child(1) span:nth-child(1)').click() # 選擇自定義記錄條數(shù)
        send_key(browser,'#mat-input-%d'%i,start)#mat-input-2
        send_key(browser,'#mat-input-%d'%(i+1),start+999)
        browser.find_element_by_css_selector('.margin-top-5 button:nth-child(1)').click() # 更改導出字段
        browser.find_element_by_css_selector('div.wrap-mode:nth-child(3) span:nth-child(1)').click() # 選擇所需字段(3完整)(4自定義)
        browser.find_element_by_css_selector('div.flex-align:nth-child(3) button:nth-child(1)').click() # 點擊導出
        time.sleep(10) # 等待下載完畢
        # 導出文件按照包含的記錄編號重命名
        rename_file(SAVE_TO_DIRECTORY,'record-'+str(start)+'-'+str(start+999))
        start = start + 1000
        i = i + 2
    time.sleep(10)
    browser.quit()

3、主要函數(shù)中調用的其他函數(shù)

login函數(shù)中“學校的統(tǒng)一身份驗證”部分可以選擇手動,或者根據(jù)學校網(wǎng)站自行修改。
其他無需修改。

def login(browser):
    '''登錄wos'''
    # 通過CHINA CERNET Federation登錄
    browser.find_element_by_css_selector('.mat-select-arrow').click()
    browser.find_element_by_css_selector('#mat-option-9 span:nth-child(1)').click()
    browser.find_element_by_css_selector('button.wui-btn--login:nth-child(4) span:nth-child(1) span:nth-child(1)').click()
    time.sleep(3)
    login = browser.find_element_by_css_selector('#show')
    login.send_keys('xxxx大學') # 改成你的學校名
    time.sleep(0.5)
    browser.find_element_by_css_selector('.dropdown-item strong:nth-child(1)').click()
    browser.find_element_by_css_selector('#idpSkipButton').click()
    time.sleep(1)
    #! 跳轉到學校的統(tǒng)一身份驗證(想自動輸入賬號密碼就把下面兩行注釋解除,按照自己學校的網(wǎng)址修改一下css選擇器路徑)
    # browser.find_element_by_css_selector('input#un').send_keys('你的學號') # 改成你的學號/賬號
    # browser.find_element_by_css_selector('input#pd').send_keys('你的密碼') # 改成你的密碼
    time.sleep(20) #! 手動輸入賬號、密碼、驗證碼,點登錄
def send_key(browser,path,value):
    '''browser -> browser;\n
       path -> css選擇器;\n
       value -> 填入值
    '''
    markto=browser.find_element_by_css_selector(path)
    markto.clear()
    markto.send_keys(value)
def rename_file(SAVE_TO_DIRECTORY,name,record_format='excel'):
    '''導出文件重命名 \n
       SAVE_TO_DIRECTORY -> 導出記錄存儲位置(文件夾);\n 
       name -> 重命名為
    '''
    # files = list(filter(lambda x:'savedrecs' in x and len(x.split('.'))==2,os.listdir(SAVE_TO_DIRECTORY)))
    while True:
        files = list(filter(lambda x:'savedrecs' in x and len(x.split('.'))==2,os.listdir(SAVE_TO_DIRECTORY)))
        if len(files)>0:
            break
    files = [os.path.join(SAVE_TO_DIRECTORY, f) for f in files]  # add path to each file
    files.sort(key=lambda x: os.path.getctime(x))
    newest_file = files[-1]
    # newest_file=os.path.join(SAVE_TO_DIRECTORY,'savedrecs.txt')
    if record_format=='excel':
        os.rename(newest_file, os.path.join(SAVE_TO_DIRECTORY, name+".xls"))
    else:
        os.rename(newest_file, os.path.join(SAVE_TO_DIRECTORY, name+".txt"))

4、導出結果

部分結果,展示導出形式。

到此這篇關于Python Selenium自動化導出新版WOS(web of science)檢索結果的文章就介紹到這了,更多相關Python Selenium自動化內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

相關文章

  • 使用Python對微信好友進行數(shù)據(jù)分析

    使用Python對微信好友進行數(shù)據(jù)分析

    這篇文章主要介紹了使用Python對微信好友進行數(shù)據(jù)分析的實現(xiàn)代碼,非常不錯,具有一定的參考借鑒價值,需要的朋友可以參考下
    2018-06-06
  • Python數(shù)據(jù)結構列表

    Python數(shù)據(jù)結構列表

    這篇文章主要介紹了Python數(shù)據(jù)結構列表,本文重點內容主要是對列表數(shù)據(jù)結構的使用,在Python中,序列是一組按順序排列的值。Python?有?3?種內置的序列類型:字符串、?元組和列表,下面一起進入文章了解更詳細內容吧,需要的小伙伴可以參考一下</P><P>
    2021-12-12
  • Python+Selenium鍵盤鼠標模擬事件操作詳解

    Python+Selenium鍵盤鼠標模擬事件操作詳解

    這篇文章主要帶大家一起學習一下Selenium的元素的基本操作與鼠標鍵盤模擬事件的操作,文中的示例代碼講解詳細,感興趣的小伙伴可以了解一下
    2022-06-06
  • Python格式化輸出詳情

    Python格式化輸出詳情

    這篇文章介紹了Python格式化輸出,主要講解Python格式化輸出的三種方式:%格式化、format格式化、f-String格式化,需要的朋友可以參考下面文章的具體內容
    2021-09-09
  • python 爬取京東指定商品評論并進行情感分析

    python 爬取京東指定商品評論并進行情感分析

    本文主要講述了利用Python網(wǎng)絡爬蟲對指定京東商城中指定商品下的用戶評論進行爬取,對數(shù)據(jù)預處理操作后進行文本情感分析,感興趣的朋友可以了解下
    2021-05-05
  • Python基于DB-API操作MySQL數(shù)據(jù)庫過程解析

    Python基于DB-API操作MySQL數(shù)據(jù)庫過程解析

    這篇文章主要介紹了Python基于DB-API操作MySQL數(shù)據(jù)庫過程解析,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2020-04-04
  • jupyter 使用Pillow包顯示圖像時inline顯示方式

    jupyter 使用Pillow包顯示圖像時inline顯示方式

    這篇文章主要介紹了jupyter 使用Pillow包顯示圖像時inline顯示方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-04-04
  • Python+Selenium實現(xiàn)短視頻熱點爬取

    Python+Selenium實現(xiàn)短視頻熱點爬取

    隨著短視頻的大火,不僅可以給人們帶來娛樂,還有熱點新聞時事以及各種知識,刷短視頻也逐漸成為了日常生活的一部分。本文將通過Pyhton依托Selenium來爬取短視頻熱點,需要的可以參考一下
    2022-04-04
  • Python字符串特性及常用字符串方法的簡單筆記

    Python字符串特性及常用字符串方法的簡單筆記

    這篇文章主要介紹了Python字符串特性及常見字符串方法的簡單筆記,為一些Pyhton入門學習中的基礎知識,需要的朋友可以參考下
    2016-01-01
  • Python引用(import)文件夾下的py文件的方法

    Python引用(import)文件夾下的py文件的方法

    這篇文章主要介紹了Python引用(import)文件夾下的py文件的方法,Python中比較特別,導入文件夾下的py文件,則這個目錄下必須要有一個__init__.py文件才可,需要的朋友可以參考下
    2014-08-08

最新評論