腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

Python爬蟲工程師面試問題總結(jié)

更新時(shí)間：2018年03月22日 08:39:27 投稿：laozhang

本篇文章給大家總結(jié)了關(guān)于Python爬蟲工程師面試問題總結(jié)，希望我們整理的內(nèi)容能夠幫助到大家。

注：答案一般在網(wǎng)上都能夠找到。

1.對(duì)if __name__ == 'main'的理解陳述

2.python是如何進(jìn)行內(nèi)存管理的？

3.請(qǐng)寫出一段Python代碼實(shí)現(xiàn)刪除一個(gè)list里面的重復(fù)元素

4.Python里面如何拷貝一個(gè)對(duì)象？（賦值，淺拷貝，深拷貝的區(qū)別）

5.介紹一下except的用法和作用？

6.Python中__new__與__init__方法的區(qū)別

7.常用的網(wǎng)絡(luò)數(shù)據(jù)爬取方法

8.遇到過得反爬蟲策略以及解決方法

9.urllib 和 urllib2 的區(qū)別

10.設(shè)計(jì)一個(gè)基于session登錄驗(yàn)證的爬蟲方案

11.列舉網(wǎng)絡(luò)爬蟲所用到的網(wǎng)絡(luò)數(shù)據(jù)包，解析包

12.熟悉的爬蟲框架

13.Python在服務(wù)器的部署流程，以及環(huán)境隔離

14.Django 和 Flask 的相同點(diǎn)與不同點(diǎn)，如何進(jìn)行選擇？

15.寫一個(gè)Python中的單例模式

16.Linux部署服務(wù)腳本命令(包括啟動(dòng)和停止的shell腳本)

17.你用過多線程和異步嘛？除此之外你還用過什么方法來提高爬蟲效率？

18.POST 與 GET的區(qū)別

1）對(duì)if __name__ == 'main'的理解陳述

__name__是當(dāng)前模塊名，當(dāng)模塊被直接運(yùn)行時(shí)模塊名為__main__，也就是當(dāng)前的模塊，當(dāng)模塊被導(dǎo)入時(shí)，模塊名就不是__main__，即代碼將不會(huì)執(zhí)行。

2）python是如何進(jìn)行內(nèi)存管理的？

a、對(duì)象的引用計(jì)數(shù)機(jī)制
python內(nèi)部使用引用計(jì)數(shù)，來保持追蹤內(nèi)存中的對(duì)象，Python內(nèi)部記錄了對(duì)象有多少個(gè)引用，即引用計(jì)數(shù)，當(dāng)對(duì)象被創(chuàng)建時(shí)就創(chuàng)建了一個(gè)引用計(jì)數(shù)，當(dāng)對(duì)象不再需要時(shí)，這個(gè)對(duì)象的引用計(jì)數(shù)為0時(shí)，它被垃圾回收。

b、垃圾回收

1>當(dāng)一個(gè)對(duì)象的引用計(jì)數(shù)歸零時(shí)，它將被垃圾收集機(jī)制處理掉。

2>當(dāng)兩個(gè)對(duì)象a和b相互引用時(shí)，del語句可以減少a和b的引用計(jì)數(shù)，并銷毀用于引用底層對(duì)象的名稱。然而由于每個(gè)對(duì)象都包含一個(gè)對(duì)其他對(duì)象的應(yīng)用，因此引用計(jì)數(shù)不會(huì)歸零，對(duì)象也不會(huì)銷毀。（從而導(dǎo)致內(nèi)存泄露）。為解決這一問題，解釋器會(huì)定期執(zhí)行一個(gè)循環(huán)檢測(cè)器，搜索不可訪問對(duì)象的循環(huán)并刪除它們。

c、內(nèi)存池機(jī)制

Python提供了對(duì)內(nèi)存的垃圾收集機(jī)制，但是它將不用的內(nèi)存放到內(nèi)存池而不是返回給操作系統(tǒng)。

1>Pymalloc機(jī)制。為了加速Python的執(zhí)行效率，Python引入了一個(gè)內(nèi)存池機(jī)制，用于管理對(duì)小塊內(nèi)存的申請(qǐng)和釋放。

2>Python中所有小于256個(gè)字節(jié)的對(duì)象都使用pymalloc實(shí)現(xiàn)的分配器，而大的對(duì)象則使用系統(tǒng)的malloc。

3>對(duì)于Python對(duì)象，如整數(shù)，浮點(diǎn)數(shù)和List，都有其獨(dú)立的私有內(nèi)存池，對(duì)象間不共享他們的內(nèi)存池。也就是說如果你分配又釋放了大量的整數(shù)，用于緩存這些整數(shù)的內(nèi)存就不能再分配給浮點(diǎn)數(shù)。

3）請(qǐng)寫出一段Python代碼實(shí)現(xiàn)刪除一個(gè)list里面的重復(fù)元素

# 1.使用set函數(shù)
list = [1, 3, 4, 5, 51, 2, 3]
set(list)
# 2.使用字典函數(shù)，
>>> a = [1, 2, 4, 2, 4, 5, 6, 5, 7, 8, 9, 0]
>>> b = {}
>>> b = b.fromkeys(a)
>>> c = list(b.keys())
>>> c

4）Python里面如何拷貝一個(gè)對(duì)象？（賦值，淺拷貝，深拷貝的區(qū)別）

賦值（=），就是創(chuàng)建了對(duì)象的一個(gè)新的引用，修改其中任意一個(gè)變量都會(huì)影響到另一個(gè)。

淺拷貝：創(chuàng)建一個(gè)新的對(duì)象，但它包含的是對(duì)原始對(duì)象中包含項(xiàng)的引用（如果用引用的方式修改其中一個(gè)對(duì)象，另外一個(gè)也會(huì)修改改變）{1,完全切片方法;2，工廠函數(shù)，如list();3，copy模塊的copy()函數(shù)}

深拷貝：創(chuàng)建一個(gè)新的對(duì)象，并且遞歸的復(fù)制它所包含的對(duì)象（修改其中一個(gè)，另外一個(gè)不會(huì)改變）{copy模塊的deep.deepcopy()函數(shù)}

5）介紹一下except的用法和作用？

try…except…except…else…

執(zhí)行try下的語句，如果引發(fā)異常，則執(zhí)行過程會(huì)跳到except語句。對(duì)每個(gè)except分支順序嘗試執(zhí)行，如果引發(fā)的異常與except中的異常組匹配，執(zhí)行相應(yīng)的語句。如果所有的except都不匹配，則異常會(huì)傳遞到下一個(gè)調(diào)用本代碼的最高層try代碼中。

try下的語句正常執(zhí)行，則執(zhí)行else塊代碼。如果發(fā)生異常，就不會(huì)執(zhí)行如果存在finally語句，最后總是會(huì)執(zhí)行。

6）Python中__new__與__init__方法的區(qū)別

__new__:它是創(chuàng)建對(duì)象時(shí)調(diào)用，會(huì)返回當(dāng)前對(duì)象的一個(gè)實(shí)例，可以用__new__來實(shí)現(xiàn)單例

__init__:它是創(chuàng)建對(duì)象后調(diào)用，對(duì)當(dāng)前對(duì)象的一些實(shí)例初始化，無返回值

7）常用的網(wǎng)絡(luò)數(shù)據(jù)爬取方法

正則表達(dá)式
Beautiful Soup
Lxml

8）遇到過得反爬蟲策略以及解決方法

1.通過headers反爬蟲

2.基于用戶行為的發(fā)爬蟲：(同一IP短時(shí)間內(nèi)訪問的頻率)

3.動(dòng)態(tài)網(wǎng)頁反爬蟲(通過ajax請(qǐng)求數(shù)據(jù)，或者通過JavaScript生成)

4.對(duì)部分?jǐn)?shù)據(jù)進(jìn)行加密處理的(數(shù)據(jù)是亂碼)

解決方法：

對(duì)于基本網(wǎng)頁的抓取可以自定義headers,添加headers的數(shù)據(jù)

使用多個(gè)代理ip進(jìn)行抓取或者設(shè)置抓取的頻率降低一些，動(dòng)態(tài)網(wǎng)頁的可以使用selenium + phantomjs 進(jìn)行抓取

對(duì)部分?jǐn)?shù)據(jù)進(jìn)行加密的，可以使用selenium進(jìn)行截圖，使用python自帶的pytesseract庫進(jìn)行識(shí)別，但是比較慢最直接的方法是找到加密的方法進(jìn)行逆向推理。

9）urllib 和 urllib2 的區(qū)別

urllib 和urllib2都是接受URL請(qǐng)求的相關(guān)模塊，但是urllib2可以接受一個(gè)Request類的實(shí)例來設(shè)置URL請(qǐng)求的headers，urllib僅可以接受URL。urllib不可以偽裝你的User-Agent字符串。

urllib提供urlencode()方法用來GET查詢字符串的產(chǎn)生，而urllib2沒有。這是為何urllib常和urllib2一起使用的原因。

10）設(shè)計(jì)一個(gè)基于session登錄驗(yàn)證的爬蟲方案

11）列舉網(wǎng)絡(luò)爬蟲所用到的網(wǎng)絡(luò)數(shù)據(jù)包，解析包

網(wǎng)絡(luò)數(shù)據(jù)包 urllib、urllib2、requests

解析包 re、xpath、beautiful soup、lxml

12）熟悉的爬蟲框架

Scrapy框架根據(jù)自己的實(shí)際情況回答

13）Python在服務(wù)器的部署流程，以及環(huán)境隔離

14）Django 和 Flask 的相同點(diǎn)與不同點(diǎn)，如何進(jìn)行選擇？

15）寫一個(gè)Python中的單例模式

class Singleton(object):
_instance = None
def __new__(cls, *args, **kw):
if not cls._instance:
cls._instance = super(Singleton, cls).__new__(cls, *args, **kw) 
return cls._instance
class MyClass(Singleton): 
a = 1
one = MyClass()
two = MyClass()
id(one) = id(two)
>>> True

16）Linux部署服務(wù)腳本命令(包括啟動(dòng)和停止的shell腳本)

17）你用過多線程和異步嘛？除此之外你還用過什么方法來提高爬蟲效率？

scrapy-redis 分布式爬取
對(duì)于定向爬取可以用正則取代xpath

18）POST與 GET的區(qū)別

GET數(shù)據(jù)傳輸安全性低，POST傳輸數(shù)據(jù)安全性高，因?yàn)閰?shù)不會(huì)被保存在瀏覽器歷史或web服務(wù)器日志中；
在做數(shù)據(jù)查詢時(shí)，建議用GET方式；而在做數(shù)據(jù)添加、修改或刪除時(shí)，建議用POST方式；
GET在url中傳遞數(shù)據(jù)，數(shù)據(jù)信息放在請(qǐng)求頭中；而POST請(qǐng)求信息放在請(qǐng)求體中進(jìn)行傳遞數(shù)據(jù)；
GET傳輸數(shù)據(jù)的數(shù)據(jù)量較小，只能在請(qǐng)求頭中發(fā)送數(shù)據(jù)，而POST傳輸數(shù)據(jù)信息比較大，一般不受限制；
在執(zhí)行效率來說，GET比POST好

19）什么是lambda函數(shù)？它有什么好處?

lambda 表達(dá)式，通常是在需要一個(gè)函數(shù)，但是又不想費(fèi)神去命名一個(gè)函數(shù)的場(chǎng)合下使用，也就是指匿名函數(shù)

lambda函數(shù)：首要用途是指點(diǎn)短小的回調(diào)函數(shù)

lambda [arguments]:expression
>>> a=lambdax,y:x+y
>>> a(3,11)

您可能感興趣的文章:

亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Python爬蟲工程師面試問題總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具