Python爬蟲與反爬蟲大戰(zhàn)
爬蟲與發(fā)爬蟲的廝殺,一方為了拿到數(shù)據(jù),一方為了防止爬蟲拿到數(shù)據(jù),誰是最后的贏家?
重新理解爬蟲中的一些概念
- 爬蟲:自動獲取網(wǎng)站數(shù)據(jù)的程序
- 反爬蟲:使用技術(shù)手段防止爬蟲程序爬取數(shù)據(jù)
- 誤傷:反爬蟲技術(shù)將普通用戶識別為爬蟲,這種情況多出現(xiàn)在封ip中,例如學(xué)校網(wǎng)絡(luò)、小區(qū)網(wǎng)絡(luò)再或者網(wǎng)絡(luò)網(wǎng)絡(luò)都是共享一個公共ip,這個時候如果是封ip就會導(dǎo)致很多正常訪問的用戶也無法獲取到數(shù)據(jù)。所以相對來說封ip的策略不是特別好,通常都是禁止某ip一段時間訪問。
- 成本:反爬蟲也是需要人力和機器成本
- 攔截:成功攔截爬蟲,一般攔截率越高,誤傷率也就越高
反爬蟲的目的
- 初學(xué)者寫的爬蟲:簡單粗暴,不管對端服務(wù)器的壓力,甚至會把網(wǎng)站爬掛掉了
- 數(shù)據(jù)保護:很多的數(shù)據(jù)對某些公司網(wǎng)站來說是比較重要的不希望被別人爬取
- 商業(yè)競爭問題:這里舉個例子是關(guān)于京東和天貓,假如京東內(nèi)部通過程序爬取天貓所有的商品信息,從而做對應(yīng)策略這樣對天貓來說就造成了非常大的競爭
爬蟲與反爬蟲大戰(zhàn)
上有政策下有對策,下面整理了常見的爬蟲大戰(zhàn)策略
以上就是Python爬蟲與反爬蟲大戰(zhàn)的詳細內(nèi)容,更多關(guān)于Python爬蟲與反爬蟲的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
python數(shù)據(jù)分析實戰(zhàn)指南之異常值處理
數(shù)據(jù)預(yù)處理是明確分析目標與思路之后進行數(shù)據(jù)分析的第一步,也是整個項目中最基礎(chǔ)、花費時間較長的工作,下面這篇文章主要給大家介紹了關(guān)于python數(shù)據(jù)分析實戰(zhàn)指南之異常值處理的相關(guān)資料,需要的朋友可以參考下2022-01-01Python 用NumPy創(chuàng)建二維數(shù)組的案例
這篇文章主要介紹了Python 用NumPy創(chuàng)建二維數(shù)組的案例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2021-03-03python3 小數(shù)位的四舍五入(用兩種方法解決round 遇5不進)
這篇文章主要介紹了python3 小數(shù)位的四舍五入(用兩種方法解決round 遇5不進),文中通過示例代碼介紹的非常詳細,對大家的學(xué)習或者工作具有一定的參考學(xué)習價值,需要的朋友們下面隨著小編來一起學(xué)習學(xué)習吧2019-04-04python中報錯"json.decoder.JSONDecodeError: Expecting value:"的解決
這篇文章主要介紹了python中報錯"json.decoder.JSONDecodeError: Expecting value:"的解決方法 ,需要的朋友可以參考下2019-04-04學(xué)會迭代器設(shè)計模式,幫你大幅提升python性能
這篇文章主要介紹了python 迭代器設(shè)計模式的相關(guān)資料,幫助大家更好的理解和使用python,感興趣的朋友可以了解下2021-01-01在Python中pandas.DataFrame重置索引名稱的實例
今天小編就為大家分享一篇在Python中pandas.DataFrame重置索引名稱的實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-11-11python中str內(nèi)置函數(shù)用法總結(jié)
在本篇文章里小編給大家整理了一篇關(guān)于python中str內(nèi)置函數(shù)用法總結(jié)內(nèi)容,有需要的朋友們可以學(xué)習下。2020-12-12Python數(shù)據(jù)分析之缺失值檢測與處理詳解
在實際的數(shù)據(jù)處理中,缺失值是普遍存在的,如何使用 Python 檢測和處理缺失值,就是本文要講的主要內(nèi)容。感興趣的同學(xué)可以關(guān)注一下2021-12-12