python爬蟲面試必看的常見(jiàn)問(wèn)題與參考答案解析

發(fā)布時(shí)間：2019-10-28 14:34:40 作者：丈哥SEO

這篇文章主要介紹了python爬蟲面試必看的常見(jiàn)問(wèn)題與參考答案,結(jié)合實(shí)例形式總結(jié)分析了Python爬蟲面試相關(guān)的Python基礎(chǔ)知識(shí)、概念、原理、算法及相關(guān)操作注意事項(xiàng),需要的朋友可以參考下

先來(lái)一份完整的Python爬蟲工程師關(guān)于Python面試的考點(diǎn)：

搞定這套 Python 爬蟲面試題，Python面試 so easy

一、 Python 基本功

1、簡(jiǎn)述Python 的特點(diǎn)和優(yōu)點(diǎn)

Python 是一門開源的解釋性語(yǔ)言，相比 Java C++ 等語(yǔ)言，Python 具有動(dòng)態(tài)特性，非常靈活。

2、Python 有哪些數(shù)據(jù)類型？

Python 有 6 種內(nèi)置的數(shù)據(jù)類型，其中不可變數(shù)據(jù)類型是Number(數(shù)字), String(字符串), Tuple(元組)，可變數(shù)據(jù)類型是 List(列表)，Dict(字典)，Set(集合)。

3、列表和元組的區(qū)別

列表和元組都是可迭代對(duì)象，能夠?qū)ζ溥M(jìn)行循環(huán)、切片等，但元組 tuple 是不可變的。元組不可變的特性，使得它可以成為字典 Dict 中的鍵。

4、Python 是如何運(yùn)行的

CPython:

Python 程序運(yùn)行時(shí)，會(huì)先進(jìn)行編譯，將 .py 文件中的代碼編譯成字節(jié)碼(byte code)，編譯結(jié)果儲(chǔ)存在內(nèi)存的 PyCodeObject 中，然后由 Python 虛擬機(jī)解釋運(yùn)行。當(dāng)程序運(yùn)行結(jié)束后，Python 解釋器會(huì)將 PyCodeObject 保存到 pyc 文件中。每一次運(yùn)行時(shí) Python 都會(huì)先尋找與文件同名的 pyc 文件，如果 pyc 存在則比對(duì)修改記錄，根據(jù)修改記錄決定直接運(yùn)行或再次編譯后運(yùn)行，最后生成 pyc 文件。

5、Python 運(yùn)行速度慢的原因

a). Python 不是強(qiáng)類型的語(yǔ)言，所以解釋器運(yùn)行時(shí)遇到變量以及數(shù)據(jù)類型轉(zhuǎn)換、比較操作、引用變量時(shí)都需要檢查其數(shù)據(jù)類型。

b). Python 的編譯器啟動(dòng)速度比 JAVA 快，但幾乎每次都要啟動(dòng)編譯。

c). Python 的對(duì)象模型會(huì)導(dǎo)致訪問(wèn)內(nèi)存效率變低。Numpy 的指針指向緩存區(qū)數(shù)據(jù)的值，而 Python 的指針指向緩存對(duì)象，再通過(guò)緩存對(duì)象指向數(shù)據(jù)：

搞定這套 Python 爬蟲面試題，Python面試 so easy

6、面對(duì) Python 慢的問(wèn)題，有什么解決辦法

a). 可以使用其他的解釋器，比如 PyPy 和 Jython 等。

b). 如果對(duì)性能要求較高且靜態(tài)類型變量較多的應(yīng)用程序，可以使用 CPython。

c). 對(duì)于 IO 操作多的應(yīng)用程序，Python 提供 asyncio 模塊提高異步能力。

7、描述一下全局解釋器鎖 GIL

每個(gè)線程在執(zhí)行時(shí)候都需要先獲取 GIL，保證同一時(shí)刻只有一個(gè)線程可以執(zhí)行代碼，即同一時(shí)刻只有一個(gè)線程使用 CPU，也就是說(shuō)多線程并不是真正意義上的同時(shí)執(zhí)行。但是在 IO 操作時(shí)，是可以釋放鎖的（這也是 Python 能夠異步的原因）。而且如果想要利用多核 CPU，那么可以使用多進(jìn)程。

8、深拷貝淺拷貝

深拷貝是將對(duì)象本身復(fù)制給另一個(gè)對(duì)象，淺拷貝則是將對(duì)象的引用復(fù)制給另一個(gè)對(duì)象。所以當(dāng)復(fù)制后的對(duì)象改變時(shí)，深拷貝的原對(duì)象值不會(huì)改變，而淺拷貝原對(duì)象的值會(huì)被改變。

9、is 和 == 的區(qū)別

is 表示的是對(duì)象標(biāo)示符（object identity），而 == 表示的是相等（equality）。

is 的作用是用來(lái)檢查對(duì)象的標(biāo)示符是否一致，也就是比較兩個(gè)對(duì)象在內(nèi)存中的地址是否一樣，而 == 是用來(lái)檢查兩個(gè)對(duì)象是否相等。但是為了提高系統(tǒng)性能，對(duì)于較小的字符串 Python 會(huì)保留其值的一個(gè)副本，當(dāng)創(chuàng)建新的字符串的時(shí)候直接指向該副本即可。如：

a = 8
b = 8
a is b

10、文件讀寫

簡(jiǎn)述文件讀取時(shí) read 、readline、readlines 的區(qū)別和作用

他們的區(qū)別除了讀取內(nèi)容范圍不同外，返回的內(nèi)容類型也不同。

read()會(huì)讀取整個(gè)文件，將讀取到底的文件內(nèi)容放到一個(gè)字符串變量，返回 str 類型。

readline()讀取一行內(nèi)容，放到一個(gè)字符串變量，返回 str 類型。

readlines() 讀取文件所有內(nèi)容，按行為單位放到一個(gè)列表中，返回 list 類型。

11、請(qǐng)用一行代碼實(shí)現(xiàn)

請(qǐng)分別使用匿名函數(shù)和推導(dǎo)式這兩種方式將 [0, 1, 2, 3, 4, 5] 中的元素求乘積，并打印輸出元組。

print(tuple(map(lambda x: x * x, [0, 1, 2, 3, 4, 5])))
print(tuple(i*i for i in [0, 1, 2, 3, 4, 5]))

12、請(qǐng)用一行代碼實(shí)現(xiàn)

用 reduce 計(jì)算 n 的階乘（n!=1×2×3×…×n）

print(reduce(lambda x, y: x*y, range(1, n)))

13、請(qǐng)用一行代碼實(shí)現(xiàn)

篩選并打印輸出 100 以內(nèi)能被 3 整除的數(shù)的集合

print(set(filter(lambda n: n % 3 == 0, range(1, 100))))

14、請(qǐng)用一行代碼實(shí)現(xiàn)

text = 'Obj{"Name": "pic", "data": [{"name": "async", "number": 9, "price": "$3500"}, {"name": "Wade", "number": 3, "price": "$5500"}], "Team": "Hot"'

打印文本中的球員身價(jià)元組，如 ($3500, $5500)

print(tuple(i.get("price") for i in json.loads(re.search(r'[(.*)]', text).group(0))))

15、請(qǐng)寫出遞歸的基本骨架

def recursions(n):
    if n == 1:

退出條件

return 1

繼續(xù)遞歸

return n * recursions(n - 1)

16、切片

請(qǐng)寫出下方輸出結(jié)果

tpl = [0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95]
print(tpl[3:])
print(tpl[:3])
print(tpl[::5])
print(tpl[-3])
print(tpl[3])
print(tpl[::-5])
print(tpl[:])
del tpl[3:]
print(tpl)
print(tpl.pop())
tpl.insert(3, 3)
print(tpl)

[15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95]
[0, 5, 10]
[0, 25, 50, 75]
85
15
[95, 70, 45, 20]
[0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95]
[0, 5, 10]
10
[0, 5, 3]

17、文件路徑

打印輸出當(dāng)前文件所在目錄路徑

import os
print(os.path.dirname(os.path.abspath(file)))

打印輸出當(dāng)前文件路徑

import os
print(os.path.abspath(file))

打印輸出當(dāng)前文件上兩層文件目錄路徑

import os
print(os.path.dirname(os.path.dirname(os.path.abspath(file))))

18、請(qǐng)寫出運(yùn)行結(jié)果，并回答問(wèn)題

tpl = (1, 2, 3, 4, 5)
apl = (6, 7, 8, 9)
print(tpl.add(apl))

問(wèn)題：tpl 的值發(fā)生變化了嗎？

運(yùn)行結(jié)果如下：

(1, 2, 3, 4, 5, 6, 7, 8, 9)

答：元組是不可變的，它是生成新的對(duì)象

19、請(qǐng)寫出運(yùn)行結(jié)果，并回答問(wèn)題

name = ('James', 'Wade', 'Kobe')
team = ['A', 'B', 'C']
tpl = {name: team}
print(tpl)
apl = {team: name}
print(apl)

問(wèn)題：這段代碼能運(yùn)行完畢嗎？為什么？它的運(yùn)行結(jié)果是？

答：這段代碼不能完整運(yùn)行，它會(huì)在 apl 處拋出異常，因?yàn)樽值涞逆I只能是不可變對(duì)象，而 list 是可變的，所以不能作為字典的鍵。運(yùn)行結(jié)果是：

{('James', 'Wade', 'Kobe'): ['A', 'B', 'C']}
TypeError

20、裝飾器

請(qǐng)寫出裝飾器代碼骨架

def log(func):
def wrapper(*args, **kw):
print('call %s():' % func.name)
return func(*args, **kw)
return wrapper

簡(jiǎn)述裝飾器在 Python 中的作用：

在不改動(dòng)原函數(shù)代碼的情況下，為其增加新的功能。

21、多進(jìn)程多線程

多進(jìn)程更穩(wěn)定還是多線程更穩(wěn)定？為什么？

多進(jìn)程更穩(wěn)定，它們是獨(dú)立運(yùn)行的，不會(huì)因?yàn)橐粋€(gè)崩潰而影響其他進(jìn)程。

多線程的致命缺點(diǎn)是什么？

因?yàn)樗芯€程共享進(jìn)程的內(nèi)存，所以任何一個(gè)線程掛掉都可能直接造成整個(gè)進(jìn)程崩潰。

進(jìn)程間通信有哪些方式？

共享變量、隊(duì)列、管道。

二、Python 細(xì)節(jié)問(wèn)題

1、連接字符串用join還是+

當(dāng)用操作符+連接字符串的時(shí)候，每執(zhí)行一次+都會(huì)申請(qǐng)一塊新的內(nèi)存，然后復(fù)制上一個(gè)+操作的結(jié)果和本次操作的右操作符到這塊內(nèi)存空間，因此用+連接字符串的時(shí)候會(huì)涉及好幾次內(nèi)存申請(qǐng)和復(fù)制。而join在連接字符串的時(shí)候，會(huì)先計(jì)算需要多大的內(nèi)存存放結(jié)果，然后一次性申請(qǐng)所需內(nèi)存并將字符串復(fù)制過(guò)去，這是為什么join的性能優(yōu)于+的原因。所以在連接字符串?dāng)?shù)組的時(shí)候，應(yīng)考慮優(yōu)先使用join。

2、Python 垃圾回收機(jī)制

參考http://chabaoo.cn/article/52229.htm

Python中的垃圾回收是以引用計(jì)數(shù)為主，分代收集為輔。引用計(jì)數(shù)的缺陷是循環(huán)引用的問(wèn)題。

在Python中，如果一個(gè)對(duì)象的引用數(shù)為0，Python虛擬機(jī)就會(huì)回收這個(gè)對(duì)象的內(nèi)存。

引用計(jì)數(shù)法的原理是每個(gè)對(duì)象維護(hù)一個(gè)ob_refcnt，用來(lái)記錄當(dāng)前對(duì)象被引用的次數(shù)，也就是來(lái)追蹤到底有多少引用指向了這個(gè)對(duì)象，當(dāng)對(duì)象被創(chuàng)建、對(duì)象被引用、對(duì)象被傳入函數(shù)、被存儲(chǔ)在容器中等四種情況時(shí)，該對(duì)象的引用計(jì)數(shù)器 +1

對(duì)象被創(chuàng)建 a=14

對(duì)象被引用 b=a

對(duì)象被作為參數(shù),傳到函數(shù)中 func(a)

對(duì)象作為一個(gè)元素，存儲(chǔ)在容器中 List={a,"a","b",2}

與上述情況相對(duì)應(yīng)，當(dāng)發(fā)生對(duì)象別名被 del 銷毀時(shí)、對(duì)象的引用被賦予新對(duì)象時(shí)、漢書執(zhí)行完畢后、從容器中刪除時(shí)等四種情況，該對(duì)象的引用計(jì)數(shù)器-1

當(dāng)該對(duì)象的別名被顯式銷毀時(shí) del a

當(dāng)該對(duì)象的引別名被賦予新的對(duì)象， a=26

一個(gè)對(duì)象離開它的作用域，例如 func函數(shù)執(zhí)行完畢時(shí)，函數(shù)里面的局部變量的引用計(jì)數(shù)器就會(huì) -1（但是全局變量不會(huì)）。

將該元素從容器中刪除時(shí)，或者容器被銷毀時(shí)。

當(dāng)指向該對(duì)象的內(nèi)存的引用計(jì)數(shù)器為0的時(shí)候，該內(nèi)存將會(huì)被Python虛擬機(jī)釋放.

sys.getrefcount(a)可以查看 a 對(duì)象的引用計(jì)數(shù)，但是比正常計(jì)數(shù)大1，因?yàn)檎{(diào)用函數(shù)的時(shí)候傳入a，這會(huì)讓 a 的引用計(jì)數(shù)+1

引用計(jì)數(shù)的優(yōu)點(diǎn):

1、高效

2、運(yùn)行期沒(méi)有停頓：一旦沒(méi)有引用，內(nèi)存就直接釋放了。不用像其他機(jī)制等到特定時(shí)機(jī)。實(shí)時(shí)性還帶來(lái)一個(gè)好處：處理回收內(nèi)存的時(shí)間分?jǐn)偟搅似綍r(shí)。

3、對(duì)象有確定的生命周期

4、易于實(shí)現(xiàn)

引用計(jì)數(shù)的缺點(diǎn):

1、維護(hù)引用計(jì)數(shù)消耗資源，維護(hù)引用計(jì)數(shù)的次數(shù)和引用賦值成正比，而不像mark and sweep等基本與回收的內(nèi)存數(shù)量有關(guān)。

2、無(wú)法解決循環(huán)引用的問(wèn)題。A和B相互引用而再?zèng)]有外部引用A與B中的任何一個(gè)，它們的引用計(jì)數(shù)都為1，但顯然應(yīng)該被回收。

循環(huán)引用示例

list1 = []
list2 = []
list1.append(list2)
list2.append(list1)

為了解決這兩個(gè)缺點(diǎn) Python 還引入了另外的機(jī)制:標(biāo)記清除和分代回收.

標(biāo)記清除

『標(biāo)記清除（Mark—Sweep）』算法是一種基于追蹤回收（tracing GC）技術(shù)實(shí)現(xiàn)的垃圾回收算法。它分為兩個(gè)階段：第一階段是標(biāo)記階段，GC會(huì)把所有的『活動(dòng)對(duì)象』打上標(biāo)記，第二階段是把那些沒(méi)有標(biāo)記的對(duì)象『非活動(dòng)對(duì)象』進(jìn)行回收。那么GC又是如何判斷哪些是活動(dòng)對(duì)象哪些是非活動(dòng)對(duì)象的呢？

對(duì)象之間通過(guò)引用（指針）連在一起，構(gòu)成一個(gè)有向圖，對(duì)象構(gòu)成這個(gè)有向圖的節(jié)點(diǎn)，而引用關(guān)系構(gòu)成這個(gè)有向圖的邊。從根對(duì)象（root object）出發(fā)，沿著有向邊遍歷對(duì)象，可達(dá)的（reachable）對(duì)象標(biāo)記為活動(dòng)對(duì)象，不可達(dá)的對(duì)象就是要被清除的非活動(dòng)對(duì)象。根對(duì)象就是全局變量、調(diào)用棧、寄存器。

搞定這套 Python 爬蟲面試題，Python面試 so easy

在上圖中，我們把小黑圈視為全局變量，也就是把它作為root object，從小黑圈出發(fā)，對(duì)象1可直達(dá)，那么它將被標(biāo)記，對(duì)象2、3可間接到達(dá)也會(huì)被標(biāo)記，而4和5不可達(dá)，那么1、2、3就是活動(dòng)對(duì)象，4和5是非活動(dòng)對(duì)象會(huì)被GC回收。

標(biāo)記清除算法作為Python的輔助垃圾收集技術(shù)主要處理的是一些容器對(duì)象，比如list、dict、tuple，instance等，因?yàn)閷?duì)于字符串、數(shù)值對(duì)象是不可能造成循環(huán)引用問(wèn)題。

Python使用一個(gè)雙向鏈表將這些容器對(duì)象組織起來(lái)。不過(guò)，這種簡(jiǎn)單粗暴的標(biāo)記清除算法也有明顯的缺點(diǎn)：清除非活動(dòng)的對(duì)象前它必須順序掃描整個(gè)堆內(nèi)存，哪怕只剩下小部分活動(dòng)對(duì)象也要掃描所有對(duì)象。

分代回收

分代回收同樣作為Python的輔助垃圾收集技術(shù)處理那些容器對(duì)象。

GC 的邏輯

分配內(nèi)存
-> 發(fā)現(xiàn)超過(guò)閾值了
-> 觸發(fā)垃圾回收
-> 將所有可收集對(duì)象鏈表放到一起
-> 遍歷, 計(jì)算有效引用計(jì)數(shù)
-> 分成有效引用計(jì)數(shù)=0 和有效引用計(jì)數(shù) > 0 兩個(gè)集合
-> 大于0的, 放入到更老一代
-> =0的, 執(zhí)行回收
-> 回收遍歷容器內(nèi)的各個(gè)元素, 減掉對(duì)應(yīng)元素引用計(jì)數(shù)(破掉循環(huán)引用)
-> 執(zhí)行-1的邏輯, 若發(fā)現(xiàn)對(duì)象引用計(jì)數(shù)=0, 觸發(fā)內(nèi)存回收
-> python底層內(nèi)存管理機(jī)制回收內(nèi)存
Python 中, 一個(gè)代就是一個(gè)鏈表, 所有屬于同一"代"的內(nèi)存塊都鏈接在同一個(gè)鏈表中用來(lái)表示"代"的結(jié)構(gòu)體是 gc_generation，包括了當(dāng)前代鏈表表頭、對(duì)象數(shù)量上限、當(dāng)前對(duì)象數(shù)量。

Python默認(rèn)定義了三代對(duì)象集合，索引數(shù)越大，對(duì)象存活時(shí)間越長(zhǎng)，新生成的對(duì)象會(huì)被加入第0代，前面_PyObject_GC_Malloc中省略的部分就是Python GC觸發(fā)的時(shí)機(jī)。每新生成一個(gè)對(duì)象都會(huì)檢查第0代有沒(méi)有滿，如果滿了就開始著手進(jìn)行垃圾回收。

分代回收是一種以空間換時(shí)間的操作方式，Python將內(nèi)存根據(jù)對(duì)象的存活時(shí)間劃分為不同的集合，每個(gè)集合稱為一個(gè)代，Python將內(nèi)存分為了3"代"，分別為年輕代（第0代）、中年代（第1代）、老年代（第2代），他們對(duì)應(yīng)的是3個(gè)鏈表，它們的垃圾收集頻率與對(duì)象的存活時(shí)間的增大而減小。新創(chuàng)建的對(duì)象都會(huì)分配在年輕代，年輕代鏈表的總數(shù)達(dá)到上限時(shí)，Python垃圾收集機(jī)制就會(huì)被觸發(fā)，把那些可以被回收的對(duì)象回收掉，而那些不會(huì)回收的對(duì)象就會(huì)被移到中年代去，依此類推，老年代中的對(duì)象是存活時(shí)間最久的對(duì)象，甚至是存活于整個(gè)系統(tǒng)的生命周期內(nèi)。同時(shí)，分代回收是建立在標(biāo)記清除技術(shù)基礎(chǔ)之上。

3、遞歸

Python 遞歸深度默認(rèn)是多少？遞歸深度限制的原因是什么？

Python 遞歸深度可以用內(nèi)置函數(shù)庫(kù)中的 sys.getrecursionlimit() 查看。

因?yàn)闊o(wú)限遞歸會(huì)導(dǎo)致的 C 堆棧溢出和 Python 崩潰。

丈哥SEO祝愿各位Python面試的小伙伴都能找到心儀的工作。

Tag：Python 爬蟲面試

亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

python爬蟲面試必看的常見(jiàn)問(wèn)題與參考答案解析

一、 Python 基本功

二、Python 細(xì)節(jié)問(wèn)題

相關(guān)文章

最新評(píng)論

文章分類

大家感興趣的內(nèi)容

最近更新的內(nèi)容

亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

python爬蟲面試必看的常見(jiàn)問(wèn)題與參考答案解析

一、 Python 基本功

二、Python 細(xì)節(jié)問(wèn)題

相關(guān)文章

最新評(píng)論

文章分類

大家感興趣的內(nèi)容

最近更新的內(nèi)容

一、 Python 基本功

二、Python 細(xì)節(jié)問(wèn)題