快捷導(dǎo)航

Pandas直接讀取sql腳本的方法

更新時(shí)間：2021年01月21日 11:01:28 作者：小小明（代碼實(shí)體）

這篇文章主要介紹了Pandas直接讀取sql腳本的方法,本文給大家介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值，需要的朋友可以參考下

之前有群友反應(yīng)同事給了他一個(gè)幾百M(fèi)B的sql腳本，導(dǎo)入數(shù)據(jù)庫(kù)再?gòu)臄?shù)據(jù)庫(kù)讀取數(shù)據(jù)有點(diǎn)慢，想了解下有沒(méi)有可以直接讀取sql腳本到pandas的方法。

解析sql腳本文本文件替換成csv格式并加載

我考慮了一下sql腳本也就只是一個(gè)文本文件而已，而且只有幾百M(fèi)B，現(xiàn)代的機(jī)器足以把它一次性全部加載到內(nèi)存中，使用python來(lái)處理也不會(huì)太慢。

我簡(jiǎn)單研究了一下sql腳本的導(dǎo)出格式，并根據(jù)格式寫(xiě)出了以下sql腳本的讀取方法。

注意：該讀取方法只針對(duì)SQLyog導(dǎo)出的mysql腳本測(cè)試，其他數(shù)據(jù)庫(kù)可能代碼需要根據(jù)實(shí)際情況微調(diào)。

讀取方法：

from io import StringIO
import pandas as pd
import re

def read_sql_script_all(sql_file_path, quotechar="'") -> (str, dict):
  insert_check = re.compile(r"insert +into +`?(\w+?)`?\(", re.I | re.A)
  with open(sql_file_path, encoding="utf-8") as f:
    sql_txt = f.read()
  end_pos = -1
  df_dict = {}
  while True:
    match_obj = insert_check.search(sql_txt, end_pos+1)
    if not match_obj:
      break
    table_name = match_obj.group(1)
    start_pos = match_obj.span()[1]+1
    end_pos = sql_txt.find(";", start_pos)
    tmp = re.sub(r"\)( values |,)\(", "\n", sql_txt[start_pos:end_pos])
    tmp = re.sub(r"[`()]", "", tmp)
    df = pd.read_csv(StringIO(tmp), quotechar=quotechar)
    dfs = df_dict.setdefault(table_name, [])
    dfs.append(df)
  for table_name, dfs in df_dict.items():
    df_dict[table_name] = pd.concat(dfs)
  return df_dict

參數(shù)：

sql_file_path：sql腳本的位置
quotechar：腳本中字符串是單引號(hào)還是雙引號(hào)，默認(rèn)使用單引號(hào)解析

返回：

一個(gè)字典，鍵是表名，值是該表對(duì)應(yīng)的數(shù)據(jù)所組成的datafream對(duì)象

下面我測(cè)試讀取下面這個(gè)sql腳本：

其中的表名是index_test：

df_dict = read_sql_script_all("D:/tmp/test.sql")
df = df_dict['index_test']
df.head(10)

結(jié)果：

可以看到能順利的直接從sql腳本中讀取數(shù)據(jù)生成datafream。

當(dāng)然上面寫(xiě)的方法是一次性讀取整個(gè)sql腳本的所有表，結(jié)果為一個(gè)字典（鍵為表名，值為datafream）。但大部分時(shí)候我們只需要讀取sql腳本的某一張表，我們可以改造一下上面的方法：

def read_sql_script_by_tablename(sql_file_path, table_name, quotechar="'") -> (str, dict):
  insert_check = re.compile(r"insert +into +`?(\w+?)`?\(", re.I | re.A)
  with open(sql_file_path, encoding="utf-8") as f:
    sql_txt = f.read()
  end_pos = -1
  dfs = []
  while True:
    match_obj = insert_check.search(sql_txt, end_pos+1)
    if not match_obj:
      break
    start_pos = match_obj.span()[1]+1
    end_pos = sql_txt.find(";", start_pos)
    if table_name != match_obj.group(1):
      continue
    tmp = re.sub(r"\)( values |,)\(", "\n", sql_txt[start_pos:end_pos])
    tmp = re.sub(r"[`()]", "", tmp)
    df = pd.read_csv(StringIO(tmp), quotechar=quotechar)
    dfs.append(df)
  return pd.concat(dfs)

參數(shù)：

sql_file_path：sql腳本的位置
table_name：被讀取的表名
quotechar：腳本中字符串是單引號(hào)還是雙引號(hào)，默認(rèn)使用單引號(hào)解析

返回：

該表所對(duì)應(yīng)的datafream對(duì)象

讀取代碼：

df = read_sql_script_by_tablename("D:/tmp/test.sql", "index_test")
df.head()

結(jié)果：

將sql腳本轉(zhuǎn)換為sqlite格式并通過(guò)本地sql連接讀取

在寫(xiě)完上面的方法后，我又想到另一種解決思路，就是將sql腳本轉(zhuǎn)換成sqlite語(yǔ)法的sql語(yǔ)句，然后直接加載。各種類型的數(shù)據(jù)庫(kù)的sql語(yǔ)句變化較大，下面的方法僅針對(duì)SQLyog導(dǎo)出的mysql腳本測(cè)試通過(guò)，如果是其他的數(shù)據(jù)庫(kù)，可能下面的方法仍然需要微調(diào)。最好是先自行將sql腳本轉(zhuǎn)換為sqlite語(yǔ)法的sql語(yǔ)句后，再使用我寫(xiě)的方法加載。

加載sql腳本的方法：

from sqlalchemy import create_engine
import pandas as pd
import re


def load_sql2sqlite_conn(sqltxt_path):
  create_rule = re.compile("create +table [^;]+;", re.I)
  insert_rule = re.compile("insert +into [^;]+;", re.I)
  with open(sqltxt_path, encoding="utf-8") as f:
    sqltxt = f.read()
  engine = create_engine('sqlite:///:memory:')
  pos = -1
  while True:
    match_obj = create_rule.search(sqltxt, pos+1)
    if match_obj:
      pos = match_obj.span()[1]
      sql = match_obj.group(0).replace("AUTO_INCREMENT", "")
      sql = re.sub("\).+;", ");", sql)
      engine.execute(sql)
    match_obj = insert_rule.search(sqltxt, pos+1)
    if match_obj:
      pos = match_obj.span()[1]
      sql = match_obj.group(0)
      engine.execute(sql)
    else:
      break
  tablenames = [t[0] for t in engine.execute(
    "SELECT tbl_name FROM sqlite_master WHERE type='table';").fetchall()]
  return tablenames, engine.connect()

參數(shù)：

sql_file_path：sql腳本的位置

返回：

兩個(gè)元素的元組，第一個(gè)元素是表名列表，第二個(gè)元素是sqlite內(nèi)存虛擬連接

測(cè)試讀取：

tablenames, conn = load_sql2sqlite_conn("D:/tmp/test.sql")
tablename = tablenames[0]
print(tablename)
df = pd.read_sql(f"select * from {tablename};", conn)
df

結(jié)果：

到此這篇關(guān)于Pandas直接讀取sql腳本的文章就介紹到這了,更多相關(guān)Pandas讀取sql腳本內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

相關(guān)文章

PyQt中使用QProcess運(yùn)行一個(gè)進(jìn)程的示例代碼
這篇文章主要介紹了在PyQt中使用QProcess運(yùn)行一個(gè)進(jìn)程,本例中通過(guò)按下按鈕，啟動(dòng)了windows系統(tǒng)自帶的記事本程序，即notepad.exe, 因?yàn)樗趙indows的系統(tǒng)目錄下，該目錄已經(jīng)加在了系統(tǒng)的PATH環(huán)境變量中，所以不需要特別指定路徑，需要的朋友可以參考下
2022-12-12
Python3實(shí)現(xiàn)的旋轉(zhuǎn)矩陣圖像算法示例
這篇文章主要介紹了Python3實(shí)現(xiàn)的旋轉(zhuǎn)矩陣圖像算法,涉及Python3列表遍歷、切片轉(zhuǎn)換、矩陣運(yùn)算等相關(guān)操作技巧,需要的朋友可以參考下
2019-04-04
這篇文章主要介紹了python 實(shí)現(xiàn)圖片修復(fù)（可用于去水印），幫助大家更好的理解和使用opencv庫(kù)，感興趣的朋友可以了解下
2020-11-11

從局部變量和全局變量開(kāi)始全面解析Python中變量的作用域

無(wú)論是以類為基礎(chǔ)的面相對(duì)象編程,還是單純函數(shù)內(nèi)部變量的定義,變量的作用域始終是Python學(xué)習(xí)中一個(gè)必須理解掌握的環(huán)節(jié),下面我們從局部變量和全局變量開(kāi)始全面解析Python中變量的作用域,需要的朋友可以參考下

2016-06-06

十道Python面試最常問(wèn)到的問(wèn)題

這篇文章主要介紹了十道Python面試最常問(wèn)到的問(wèn)題,都是基礎(chǔ)的面試題,包括函數(shù),修飾器,數(shù)據(jù)結(jié)構(gòu)等,需要的朋友可以參考下

2023-04-04

Django使用Profile擴(kuò)展User模塊方式

這篇文章主要介紹了Django使用Profile擴(kuò)展User模塊方式，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧

2020-05-05

Python django實(shí)現(xiàn)簡(jiǎn)單的郵件系統(tǒng)發(fā)送郵件功能

這篇文章主要介紹了Python django實(shí)現(xiàn)簡(jiǎn)單的郵件系統(tǒng)發(fā)送郵件功能,結(jié)合實(shí)例形式分析了django發(fā)送郵件的實(shí)現(xiàn)技巧與相關(guān)注意事項(xiàng),需要的朋友可以參考下

2017-07-07

pyhanlp安裝介紹和簡(jiǎn)單應(yīng)用

這篇文章主要介紹了pyhanlp安裝介紹和簡(jiǎn)單應(yīng)用，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

2019-02-02

老生常談python之鴨子類和多態(tài)

下面小編就為大家?guī)?lái)一篇老生常談python之鴨子類和多態(tài)。小編覺(jué)得挺不錯(cuò)的，現(xiàn)在就分享給大家，也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧

2017-06-06

使用pyqt5 tablewidget 單元格設(shè)置正則表達(dá)式

今天小編就為大家分享一篇使用pyqt5 tablewidget 單元格設(shè)置正則表達(dá)式，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧

2019-12-12

亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Pandas直接讀取sql腳本的方法

解析sql腳本文本文件替換成csv格式并加載

該表所對(duì)應(yīng)的datafream對(duì)象

將sql腳本轉(zhuǎn)換為sqlite格式并通過(guò)本地sql連接讀取

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具