c# Selenium爬取數(shù)據(jù)時(shí)防止webdriver封爬蟲的方法
背景
大家在使用Selenium + Chromedriver爬取網(wǎng)站信息的時(shí)候,以為這樣就能做到不被網(wǎng)站的反爬蟲機(jī)制發(fā)現(xiàn)。但是實(shí)際上很多參數(shù)和實(shí)際瀏覽器還是不一樣的,只要網(wǎng)站進(jìn)行判斷處理,就能輕輕松松識(shí)別你是否使用了Selenium + Chromedriver模擬瀏覽器。其中
window.navigator.webdriver
就是很重要的一個(gè)。
問題窺探
正常瀏覽器打開是這樣的
模擬器打開是這樣的
ChromeOptions options = null; IWebDriver driver = null; try { options = new ChromeOptions(); options.AddArguments("--ignore-certificate-errors"); options.AddArguments("--ignore-ssl-errors"); // options.AddExcludedArgument("enable-automation"); // options.AddAdditionalCapability("useAutomationExtension", false); var listCookie = CookieHelp.GetCookie(); if (listCookie != null) { // options.AddArgument("headless"); } // string ss = @"{ ""source"": ""Object.defineProperty(navigator, 'webdriver', { get: () => undefined})""}"; // options.AddUserProfilePreference("Page.addScriptToEvaluateOnNewDocument", new ssss() { source = " Object.defineProperty(navigator, 'webdriver', { get: () => undefined }) " }); ChromeDriverService service = ChromeDriverService.CreateDefaultService(System.Environment.CurrentDirectory); service.HideCommandPromptWindow = true; driver = new ChromeDriver(service, options, TimeSpan.FromSeconds(120)); ////session.Page.AddScriptToEvaluateOnNewDocument(new OpenQA.Selenium.DevTools.Page.AddScriptToEvaluateOnNewDocumentCommandSettings() ////{ //// Source = @"Object.defineProperty(navigator, 'webdriver', { get: () => undefined })" ////} //// );
所以,如果網(wǎng)站通過js代碼獲取這個(gè)參數(shù),返回值為undefined說明是正常的瀏覽器,返回true說明用的是Selenium模擬瀏覽器。
解決辦法
那么對(duì)于這種情況,在爬蟲開發(fā)的過程中如何防止這個(gè)參數(shù)告訴網(wǎng)站你在模擬瀏覽器呢?執(zhí)行對(duì)應(yīng)的js,改掉它的值。
IJavaScriptExecutor js = (IJavaScriptExecutor)driver; string returnjs = (string)js.ExecuteScript("Object.defineProperties(navigator, {webdriver:{get:()=>undefined}});");
運(yùn)行效果
完美,達(dá)到預(yù)期效果。
以上就是c# Selenium爬取數(shù)據(jù)時(shí)防止webdriver封爬蟲的方法的詳細(xì)內(nèi)容,更多關(guān)于c# 防止webdriver封爬蟲的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
Unity3D實(shí)戰(zhàn)之答題系統(tǒng)的實(shí)現(xiàn)
本文將用Unity3D制作一個(gè)答題系統(tǒng),可以從文本文檔中提取題目和分?jǐn)?shù),然后綁定到UI上,在答題的過程中,自動(dòng)判斷分?jǐn)?shù),自動(dòng)判斷正確率。感興趣的可以學(xué)習(xí)一下2022-03-03C#定義并實(shí)現(xiàn)單鏈表實(shí)例解析
這篇文章主要介紹了C#定義并實(shí)現(xiàn)單鏈表實(shí)例解析,有助于讀者加深對(duì)C#實(shí)現(xiàn)數(shù)據(jù)結(jié)構(gòu)的理解,需要的朋友可以參考下2014-07-07WinForm判斷關(guān)閉事件來源于用戶點(diǎn)擊右上角“關(guān)閉”按鈕的方法
這篇文章主要介紹了WinForm判斷關(guān)閉事件來源于用戶點(diǎn)擊右上角“關(guān)閉”按鈕的方法,涉及C#針對(duì)WinForm事件的判定技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下2015-09-09講解C#設(shè)計(jì)模式編程中享元模式的運(yùn)用
這篇文章主要介紹了C#設(shè)計(jì)模式編程中享元模式的運(yùn)用,享元模式主張限制對(duì)象的數(shù)量來優(yōu)化內(nèi)存使用,需要的朋友可以參考下2016-02-02c#用Treeview實(shí)現(xiàn)FolderBrowerDialog 和動(dòng)態(tài)獲取系統(tǒng)圖標(biāo)(運(yùn)用了Win32 
其實(shí),FolderBrowerDialog 很好用呢,有木有啊親,反正我特別的喜歡,微軟大哥把這個(gè)瀏覽文件夾的東東封裝的多好呀2013-03-03C#實(shí)現(xiàn)自動(dòng)填充文字內(nèi)容到指定圖片
這篇文章主要為大家詳細(xì)介紹了如何使用C#實(shí)現(xiàn)自動(dòng)填充文字內(nèi)容到指定圖片,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下2024-04-04學(xué)習(xí)C#靜態(tài)函數(shù)及變量的一個(gè)精典例子與代碼
學(xué)習(xí)C#靜態(tài)函數(shù)及變量的一個(gè)精典例子與代碼...2007-03-03