亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Python搭建代理IP池實(shí)現(xiàn)存儲(chǔ)IP的方法

 更新時(shí)間:2019年10月27日 14:53:30   作者:Steven·簡(jiǎn)談  
這篇文章主要介紹了Python搭建代理IP池實(shí)現(xiàn)存儲(chǔ)IP的方法,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

上一文寫(xiě)了如何從代理服務(wù)網(wǎng)站提取 IP,本文就講解如何存儲(chǔ) IP,畢竟代理池還是要有一定量的 IP 數(shù)量才行。存儲(chǔ)的方式有很多,直接一點(diǎn)的可以放在一個(gè)文本文件中,但操作起來(lái)不太靈活,而我選擇的是 MySQL 數(shù)據(jù)庫(kù),因?yàn)閿?shù)據(jù)庫(kù)便于管理而且功能強(qiáng)大,當(dāng)然你還可以選擇其他數(shù)據(jù)庫(kù),比如 MongoDB、Redis 等。

代碼地址:https://github.com/Stevengz/Proxy_pool

另外三篇:

Python搭建代理IP池(一)- 獲取 IP
Python搭建代理IP池(三)- 檢測(cè) IP
Python搭建代理IP池(四)- 接口設(shè)置與整體調(diào)度

使用的庫(kù):pymysql

定義規(guī)則

數(shù)據(jù)庫(kù)存儲(chǔ)的主要對(duì)象是各個(gè) IP,首先需要保證不重復(fù),另外還需要標(biāo) IP 的可用情況,而且需要?jiǎng)討B(tài)實(shí)時(shí)處理每個(gè) IP,因此還需要定義一個(gè)分?jǐn)?shù)字段,分?jǐn)?shù)是可以重復(fù)的,最好是整數(shù)類(lèi)型,每個(gè) IP 都有一個(gè)分?jǐn)?shù),表現(xiàn)其可用性

對(duì)于代理池來(lái)說(shuō),分?jǐn)?shù)可以作為我們判斷一個(gè)代理可用不可用的標(biāo)志,我們將設(shè)置一個(gè)最高分(滿分,值由自己設(shè)置),代表可用,0 設(shè)為最低分,代表不可用。從代理池中獲取代理的時(shí)候會(huì)先從滿分 IP 中隨機(jī)獲取一個(gè),注意這里是隨機(jī),這樣可以保證每個(gè)可用 IP 都會(huì)被調(diào)用到,如果沒(méi)有滿分的就從所有 IP 從隨機(jī)選一個(gè)

分?jǐn)?shù)規(guī)則如下:

  • 滿分為可用,檢測(cè)器會(huì)定時(shí)循環(huán)檢測(cè)每個(gè) IP 的可用情況,一旦檢測(cè)到有可用的 IP 就立即置為滿分,檢測(cè)到不可用就將分?jǐn)?shù)減 1,減至 0 后移除。
  • 新獲取的代理添加時(shí)將分?jǐn)?shù)置為 10,當(dāng)測(cè)試可行立即置 100,不可行分?jǐn)?shù)減 1,減至 0 后移除

添加設(shè)置

先在一個(gè)文件中定義一些配置信息,如數(shù)據(jù)庫(kù)的設(shè)置、一些不變量如滿分的數(shù)值等

setting.py

# 數(shù)據(jù)庫(kù)地址
HOST = '127.0.0.1'
# MySql端口
MYSQL_PORT = 3306
# MySQl用戶名、密碼
MYSQL_USERNAME = '***'
MYSQL_PASSWORD = '***'
# 數(shù)據(jù)庫(kù)名
SQL_NAME = 'test'

# 代理等級(jí)
MAX_SCORE = 30
MIN_SCORE = 0
INITIAL_SCORE = 10

# 代理池?cái)?shù)量界限
POOL_UPPER_THRESHOLD = 1000

MAX_SCORE、MIN_SCORE、INITIAL_SCORE 分別代表最大分?jǐn)?shù)、最小分?jǐn)?shù)、初始分?jǐn)?shù)

定義方法

定義一個(gè)類(lèi)來(lái)操作數(shù)據(jù)庫(kù)的有序集合,內(nèi)含一些方法來(lái)實(shí)現(xiàn)分?jǐn)?shù)的設(shè)置、代理的獲取等

db.py

import pymysql
from error import PoolEmptyError
from setting import *
from random import choice
import re


class MySqlClient(object):
 # 初始化
 def __init__(self, host=HOST, port=MYSQL_PORT, username=MYSQL_USERNAME, password=MYSQL_PASSWORD, sqlname=SQL_NAME):
  self.db = pymysql.connect(host=host, user=username, password=password, port=port, db=sqlname)
  self.cursor = self.db.cursor()

 # 添加代理IP
 def add(self, ip, score=INITIAL_SCORE):
  sql_add = "INSERT INTO PROXY (IP,SCORE) VALUES ('%s', %s)" % (ip, score)
  if not re.match('\d+\.\d+\.\d+\.\d+\:\d+', ip):
   print('代理不符合規(guī)范', ip, '丟棄')
   return
  if not self.exists(ip):
   self.cursor.execute(sql_add)
   self.db.commit()

 # 減少代理分?jǐn)?shù)
 def decrease(self, ip):
  sql_get = "SELECT * FROM PROXY WHERE IP='%s'" % (ip)
  self.cursor.execute(sql_get)
  score = self.cursor.fetchone()[1]
  print(score)
  if score and score > MIN_SCORE:
   print('代理', ip, '當(dāng)前分?jǐn)?shù)', score, '減1')
   sql_change = "UPDATE PROXY SET SCORE = %s WHERE IP = '%s'" % (score-1, ip)
  else:
   print('代理', ip, '當(dāng)前分?jǐn)?shù)', score, '移除')
   sql_change = "DELETE FROM PROXY WHERE IP = %s" % (ip)
  self.cursor.execute(sql_change)
  self.db.commit()

 # 分?jǐn)?shù)最大化
 def max(self, ip):
  print('代理', ip, '可用,設(shè)置為', MAX_SCORE)
  sql_max = "UPDATE PROXY SET SCORE = %s WHERE IP = '%s'" % (MAX_SCORE, ip)
  self.cursor.execute(sql_max)
  self.db.commit()
  
 # 隨機(jī)獲取有效代理
 def random(self):
  # 先從滿分中隨機(jī)選一個(gè)
  sql_max = "SELECT * FROM PROXY WHERE SCORE=%s" % (MAX_SCORE)
  if self.cursor.execute(sql_max):
   results = self.cursor.fetchall()
   return choice(results)[0]
  # 沒(méi)有滿分則隨機(jī)選一個(gè)
  else:
   sql_all = "SELECT * FROM PROXY WHERE SCORE BETWEEN %s AND %s" % (MIN_SCORE, MAX_SCORE)
   if self.cursor.execute(sql_all):
    results = self.cursor.fetchall()
    return choice(results)[0]
   else:
    raise PoolEmptyError

 # 判斷是否存在
 def exists(self, ip):
  sql_exists = "SELECT 1 FROM PROXY WHERE IP='%s' limit 1" % ip
  return self.cursor.execute(sql_exists)
  
 # 獲取數(shù)量
 def count(self):
  sql_count = "SELECT * FROM PROXY"
  return self.cursor.execute(sql_count)

 # 獲取全部
 def all(self):
  self.count()
  return self.cursor.fetchall()

 # 批量獲取
 def batch(self, start, stop):
  sql_batch = "SELECT * FROM PROXY LIMIT %s, %s" % (start, stop - start)
  self.cursor.execute(sql_batch)
  return self.cursor.fetchall()

方法作用:

  • init():初始化的方法,參數(shù)是 MySQL 的連接信息,默認(rèn)的連接信息已經(jīng)定義為常量,在 init() 方法中初始化建立 MySQL 連接。這樣當(dāng) MySqlClient 類(lèi)初始化的時(shí)候就建立了 MySQL 的連接
  • add():向數(shù)據(jù)庫(kù)添加代理并設(shè)置分?jǐn)?shù),默認(rèn)的分?jǐn)?shù)是 INITIAL_SCORE 也就是 10,返回結(jié)果是添加的結(jié)果
  • decrease():在 檢測(cè)無(wú)效的時(shí)候設(shè)置分?jǐn)?shù)減 1 的方法,傳入代理,然后將此代理的分?jǐn)?shù)減 1,如果達(dá)到最低值就刪除
  • max():將代理的分?jǐn)?shù)設(shè)置為 MAX_SCORE,也就是當(dāng) IP 有效時(shí)的設(shè)置
  • random():隨機(jī)獲取 IP 的方法,首先獲取滿分的 IP,然后隨機(jī)選擇一個(gè)返回,如果不存在滿分的 IP,則隨機(jī)選擇一個(gè)返回,否則拋出異常
  • exists():判斷 IP 是否存在于數(shù)據(jù)庫(kù)中
  • count():返回當(dāng)前 IP個(gè)數(shù)
  • all():返回所有的 IP,供檢測(cè)使用
  • batch():返回?cái)?shù)據(jù)庫(kù)中從第 start 行開(kāi)始(從0開(kāi)始數(shù))的共 stop-start 行數(shù)據(jù)

抓取保存

當(dāng)數(shù)據(jù)庫(kù)設(shè)置好了之后,就可以直接把抓取的 IP 直接放在數(shù)據(jù)庫(kù)中了

直接把前面用到的抓取代碼更改一下就行了

getter.py

from crawler import Crawler
from db import MySqlClient
from setting import *
import sys


class Getter():
 def __init__(self):
  self.mysql = MySqlClient()
  self.crawler = Crawler()

 # 判斷數(shù)量是否足夠
 def is_over_threshold(self):
  if self.mysql.count() >= POOL_UPPER_THRESHOLD:
   return True
  else:
   return False
 
 def run(self):
  print('獲取器開(kāi)始執(zhí)行')
  if not self.is_over_threshold():
   for callback_label in range(self.crawler.__CrawlFuncCount__):
    callback = self.crawler.__CrawlFunc__[callback_label]
    # 獲取代理
    all_ip = self.crawler.get_proxies(callback)
    sys.stdout.flush()
    for ip in all_ip:
     self.mysql.add(ip)


if __name__ == '__main__':
 get = Getter()
 get.run()

結(jié)果:

以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。

相關(guān)文章

  • python 基于UDP協(xié)議套接字通信的實(shí)現(xiàn)

    python 基于UDP協(xié)議套接字通信的實(shí)現(xiàn)

    這篇文章主要介紹了python 基于UDP協(xié)議套接字通信的實(shí)現(xiàn),幫助大家更好的理解和使用python,感興趣的朋友可以了解下
    2021-01-01
  • python 動(dòng)態(tài)獲取當(dāng)前運(yùn)行的類(lèi)名和函數(shù)名的方法

    python 動(dòng)態(tài)獲取當(dāng)前運(yùn)行的類(lèi)名和函數(shù)名的方法

    這篇文章主要介紹了python 動(dòng)態(tài)獲取當(dāng)前運(yùn)行的類(lèi)名和函數(shù)名的方法,分別介紹使用內(nèi)置方法、sys模塊、修飾器、inspect模塊等方法,需要的朋友可以參考下
    2014-04-04
  • Python二進(jìn)制轉(zhuǎn)化為十進(jìn)制數(shù)學(xué)算法詳解

    Python二進(jìn)制轉(zhuǎn)化為十進(jìn)制數(shù)學(xué)算法詳解

    這篇文章主要介紹了Python二進(jìn)制轉(zhuǎn)化為十進(jìn)制數(shù)學(xué)算法,同時(shí)在這里也給大家分享一個(gè)好用的內(nèi)置函數(shù)map(),需要的朋友可以參考下
    2023-01-01
  • Django框架下在URLconf中指定視圖緩存的方法

    Django框架下在URLconf中指定視圖緩存的方法

    這篇文章主要介紹了Django框架下在URLconf中指定視圖緩存的方法,在Python豐富多彩的web框架中,Django是最具人氣的一個(gè),需要的朋友可以參考下
    2015-07-07
  • python生成器與迭代器詳解

    python生成器與迭代器詳解

    本文主要給大家記錄一下列表生成式,生成器和迭代器的知識(shí)點(diǎn),希望對(duì)大家學(xué)習(xí)python能夠有所幫助
    2019-01-01
  • Python中作用域的深入講解

    Python中作用域的深入講解

    這篇文章主要給大家介紹了關(guān)于Python中作用域的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2018-12-12
  • TensorFlow實(shí)現(xiàn)MLP多層感知機(jī)模型

    TensorFlow實(shí)現(xiàn)MLP多層感知機(jī)模型

    這篇文章主要為大家詳細(xì)介紹了TensorFlow實(shí)現(xiàn)MLP多層感知機(jī)模型,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2018-03-03
  • Python數(shù)字圖像處理基礎(chǔ)直方圖詳解

    Python數(shù)字圖像處理基礎(chǔ)直方圖詳解

    這篇文章主要介紹了Python數(shù)字圖像處理基礎(chǔ)直方圖詳解,本文對(duì)Python直方圖的定義、性質(zhì)、應(yīng)用以及Python直方圖的計(jì)算作了詳細(xì)的講解,有需要朋友可以借鑒參考下
    2021-09-09
  • python使用PIL和matplotlib獲取圖片像素點(diǎn)并合并解析

    python使用PIL和matplotlib獲取圖片像素點(diǎn)并合并解析

    這篇文章主要介紹了python使用PIL和matplotlib獲取圖片像素點(diǎn)并合并解析,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-09-09
  • python request post 列表的方法詳解

    python request post 列表的方法詳解

    這篇文章主要介紹了python request post 列表的方法詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2022-02-02

最新評(píng)論