亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Python爬蟲工程師面試問題總結

 更新時間:2018年03月22日 08:39:27   投稿:laozhang  
本篇文章給大家總結了關于Python爬蟲工程師面試問題總結,希望我們整理的內容能夠幫助到大家。

注:答案一般在網上都能夠找到。

1.對if __name__ == 'main'的理解陳述

2.python是如何進行內存管理的?

3.請寫出一段Python代碼實現刪除一個list里面的重復元素

4.Python里面如何拷貝一個對象?(賦值,淺拷貝,深拷貝的區(qū)別)

5.介紹一下except的用法和作用?

6.Python中__new__與__init__方法的區(qū)別

7.常用的網絡數據爬取方法

8.遇到過得反爬蟲策略以及解決方法

9.urllib 和 urllib2 的區(qū)別

10.設計一個基于session登錄驗證的爬蟲方案

11.列舉網絡爬蟲所用到的網絡數據包,解析包

12.熟悉的爬蟲框架

13.Python在服務器的部署流程,以及環(huán)境隔離

14.Django 和 Flask 的相同點與不同點,如何進行選擇?

15.寫一個Python中的單例模式

16.Linux部署服務腳本命令(包括啟動和停止的shell腳本)

17.你用過多線程和異步嘛?除此之外你還用過什么方法來提高爬蟲效率?

18.POST 與 GET的區(qū)別

1)對if __name__ == 'main'的理解陳述

__name__是當前模塊名,當模塊被直接運行時模塊名為__main__,也就是當前的模塊,當模塊被導入時,模塊名就不是__main__,即代碼將不會執(zhí)行。

2)python是如何進行內存管理的?

a、對象的引用計數機制
python內部使用引用計數,來保持追蹤內存中的對象,Python內部記錄了對象有多少個引用,即引用計數,當對象被創(chuàng)建時就創(chuàng)建了一個引用計數,當對象不再需要時,這個對象的引用計數為0時,它被垃圾回收。

b、垃圾回收

1>當一個對象的引用計數歸零時,它將被垃圾收集機制處理掉。

2>當兩個對象a和b相互引用時,del語句可以減少a和b的引用計數,并銷毀用于引用底層對象 的名稱。然而由于每個對象都包含一個對其他對象的應用,因此引用計數不會歸零,對象也不會銷毀。(從而導致內存泄露)。為解決這一問題,解釋器會定期執(zhí)行一個循環(huán)檢測器,搜索不可訪問對象的循環(huán)并刪除它們。

c、內存池機制

Python提供了對內存的垃圾收集機制,但是它將不用的內存放到內存池而不是返回給操作系統(tǒng)。

1>Pymalloc機制。為了加速Python的執(zhí)行效率,Python引入了一個內存池機制,用于管理 對小塊內存的申請和釋放。

2>Python中所有小于256個字節(jié)的對象都使用pymalloc實現的分配器,而大的對象則使用 系統(tǒng)的malloc。

3>對于Python對象,如整數,浮點數和List,都有其獨立的私有內存池,對象間不共享他們的內存池。也就是說如果你分配又釋放了大量的整數,用于緩存這些整數的內存就不能再分配給浮點數。

3)請寫出一段Python代碼實現刪除一個list里面的重復元素

# 1.使用set函數
list = [1, 3, 4, 5, 51, 2, 3]
set(list)
# 2.使用字典函數,
>>> a = [1, 2, 4, 2, 4, 5, 6, 5, 7, 8, 9, 0]
>>> b = {}
>>> b = b.fromkeys(a)
>>> c = list(b.keys())
>>> c

4)Python里面如何拷貝一個對象?(賦值,淺拷貝,深拷貝的區(qū)別)

賦值(=),就是創(chuàng)建了對象的一個新的引用,修改其中任意一個變量都會影響到另一個。

淺拷貝:創(chuàng)建一個新的對象,但它包含的是對原始對象中包含項的引用(如果用引用的方式修改其中一個對象,另外一個也會修改改變){1,完全切片方法;2,工廠函數,如list();3,copy模塊的copy()函數}

深拷貝:創(chuàng)建一個新的對象,并且遞歸的復制它所包含的對象(修改其中一個,另外一個不會改變){copy模塊的deep.deepcopy()函數}

5)介紹一下except的用法和作用?

try…except…except…else…

執(zhí)行try下的語句,如果引發(fā)異常,則執(zhí)行過程會跳到except語句。對每個except分支順序嘗試執(zhí)行,如果引發(fā)的異常與except中的異常組匹配,執(zhí)行相應的語句。如果所有的except都不匹配,則異常會傳遞到下一個調用本代碼的最高層try代碼中。

try下的語句正常執(zhí)行,則執(zhí)行else塊代碼。如果發(fā)生異常,就不會執(zhí)行如果存在finally語句,最后總是會執(zhí)行。

6)Python中__new__與__init__方法的區(qū)別

__new__:它是創(chuàng)建對象時調用,會返回當前對象的一個實例,可以用__new__來實現單例

__init__:它是創(chuàng)建對象后調用,對當前對象的一些實例初始化,無返回值

7)常用的網絡數據爬取方法

  • 正則表達式
  • Beautiful Soup
  • Lxml

8)遇到過得反爬蟲策略以及解決方法

1.通過headers反爬蟲

2.基于用戶行為的發(fā)爬蟲:(同一IP短時間內訪問的頻率)

3.動態(tài)網頁反爬蟲(通過ajax請求數據,或者通過JavaScript生成)

4.對部分數據進行加密處理的(數據是亂碼)

解決方法:

對于基本網頁的抓取可以自定義headers,添加headers的數據

使用多個代理ip進行抓取或者設置抓取的頻率降低一些,動態(tài)網頁的可以使用selenium + phantomjs 進行抓取

對部分數據進行加密的,可以使用selenium進行截圖,使用python自帶的pytesseract庫進行識別,但是比較慢最直接的方法是找到加密的方法進行逆向推理。

9)urllib 和 urllib2 的區(qū)別

urllib 和urllib2都是接受URL請求的相關模塊,但是urllib2可以接受一個Request類的實例來設置URL請求的headers,urllib僅可以接受URL。urllib不可以偽裝你的User-Agent字符串。

urllib提供urlencode()方法用來GET查詢字符串的產生,而urllib2沒有。這是為何urllib常和urllib2一起使用的原因。

10)設計一個基于session登錄驗證的爬蟲方案

11)列舉網絡爬蟲所用到的網絡數據包,解析包

網絡數據包 urllib、urllib2、requests

解析包 re、xpath、beautiful soup、lxml

12)熟悉的爬蟲框架

Scrapy框架 根據自己的實際情況回答

13)Python在服務器的部署流程,以及環(huán)境隔離

14)Django 和 Flask 的相同點與不同點,如何進行選擇?

15)寫一個Python中的單例模式

class Singleton(object):
_instance = None
def __new__(cls, *args, **kw):
if not cls._instance:
cls._instance = super(Singleton, cls).__new__(cls, *args, **kw) 
return cls._instance
class MyClass(Singleton): 
a = 1
one = MyClass()
two = MyClass()
id(one) = id(two)
>>> True

16)Linux部署服務腳本命令(包括啟動和停止的shell腳本)

17)你用過多線程和異步嘛?除此之外你還用過什么方法來提高爬蟲效率?

  • scrapy-redis 分布式爬取
  • 對于定向爬取可以用正則取代xpath

18)POST與 GET的區(qū)別

  • GET數據傳輸安全性低,POST傳輸數據安全性高,因為參數不會被保存在瀏覽器歷史或web服務器日志中;
  • 在做數據查詢時,建議用GET方式;而在做數據添加、修改或刪除時,建議用POST方式;
  • GET在url中傳遞數據,數據信息放在請求頭中;而POST請求信息放在請求體中進行傳遞數據;
  • GET傳輸數據的數據量較小,只能在請求頭中發(fā)送數據,而POST傳輸數據信息比較大,一般不受限制;
  • 在執(zhí)行效率來說,GET比POST好

19)什么是lambda函數?它有什么好處?

lambda 表達式,通常是在需要一個函數,但是又不想費神去命名一個函數的場合下使用,也就是指匿名函數

lambda函數:首要用途是指點短小的回調函數

lambda [arguments]:expression
>>> a=lambdax,y:x+y
>>> a(3,11)

相關文章

  • PyQt5+QtChart實現繪制曲線圖

    PyQt5+QtChart實現繪制曲線圖

    QChart是一個QGraphicScene中可以顯示的QGraphicsWidget。本文將利用QtChart實現曲線圖的繪制,文中的示例代碼講解詳細,感興趣的小伙伴可以了解一下
    2022-12-12
  • Python字典中的值為列表或字典的構造實例

    Python字典中的值為列表或字典的構造實例

    今天小編就為大家分享一篇Python字典中的值為列表或字典的構造實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-12-12
  • PyCharm 2020 激活到 2100 年的教程

    PyCharm 2020 激活到 2100 年的教程

    這篇文章主要介紹了PyCharm 2020 激活到 2100 年,本文圖文并茂給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2020-03-03
  • Python學習筆記(一)(基礎入門之環(huán)境搭建)

    Python學習筆記(一)(基礎入門之環(huán)境搭建)

    本系列為Python學習相關筆記整理所得,IT人,多學無害,多多探索,激發(fā)學習興趣,開拓思維,不求高大上,只求懂點皮毛,作為知識儲備,不至于落后太遠。本文主要介紹Python的相關背景,環(huán)境搭建。
    2014-06-06
  • CentOS中安裝python3.8.2的詳細教程

    CentOS中安裝python3.8.2的詳細教程

    這篇文章主要介紹了CentOS中安裝python3.8.2的詳細教程,本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2021-03-03
  • Anaconda環(huán)境改名的實現步驟

    Anaconda環(huán)境改名的實現步驟

    本文主要介紹了Anaconda環(huán)境改名的實現步驟,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2023-07-07
  • python bluetooth藍牙信息獲取藍牙設備類型的方法

    python bluetooth藍牙信息獲取藍牙設備類型的方法

    這篇文章主要介紹了python bluetooth藍牙信息獲取藍牙設備類型的方法,具體轉化方法文中給大家介紹的非常詳細,非常不錯,具有一定的參考借鑒價值,需要的朋友可以參考下
    2019-11-11
  • Python小白不正確的使用類變量實例

    Python小白不正確的使用類變量實例

    在本篇內容里,小編給各位整理了關于Python小白不正確的使用類變量實例內容,有興趣的朋友們可以學習下。
    2020-05-05
  • python3實現UDP協(xié)議的服務器和客戶端

    python3實現UDP協(xié)議的服務器和客戶端

    這篇文章主要為大家詳細介紹了python3實現UDP協(xié)議的服務器和客戶端,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2017-06-06
  • 關于python的mmh3庫安裝以及使用詳解

    關于python的mmh3庫安裝以及使用詳解

    這篇文章主要介紹了關于python的mmh3庫安裝以及使用詳解,哈希方法主要有MD、SHA、Murmur、CityHash、MAC等幾種方法,mmh3全程murmurhash3,是一種非加密的哈希算法,常用于hadoop等分布式存儲情境中,需要的朋友可以參考下
    2023-07-07

最新評論