Python讀寫Excel大數(shù)據(jù)文件的3種有效方式對比
有人問Python怎么處理大數(shù)據(jù)的Excel文件?
Python處理Excel大數(shù)據(jù)有很多方式,不過Excel撐死才104萬行,能有多大的數(shù)據(jù),一般用pandas讀取就可以,pandas有專門的分塊讀取模式,比如說每次只讀取1萬行用于處理,這樣就不會太占用內(nèi)存。
pandas read_excel方法有專門的參數(shù)chunksize用于設(shè)置分塊讀取,代碼示例如下:
import pandas as pd
# 讀取'test_data.xlsx'大文件
# 分塊讀取以減少內(nèi)存占用
chunk_size = 10000
chunks = pd.read_excel('test_data.xlsx', chunksize=chunk_size)
# 對每個數(shù)據(jù)塊進行處理
processed_data = []
for i, chunk in enumerate(chunks):
這里代碼是對每個數(shù)據(jù)塊進行處理......
讀取Excel能用pandas盡量用pandas,但如果Excel文件非常大,已經(jīng)遠大于內(nèi)存容量了,或者你相對Excel有更多其他處理,比如修改格式等,則可以用OpenPyXL。
它有專門的流式讀取方式(只讀模式read-only mode)來處理Excel,底層原理是OpenPyXL不會加載整個Excel文件到內(nèi)存,而是保存為一個邏輯對象,在用的時候才流式去讀取它。
from openpyxl import load_workbook
# 使用只讀模式讀取大型Excel文件
read_wb = load_workbook('large_data.xlsx', read_only=True)
read_ws = read_wb.active
# 以流式方式逐行讀取、處理和寫入
row_count = 0
for row in read_ws.iter_rows(min_row=2):
這里代碼是對每一行進行處理......
OpenPyXL也可以流式寫入Excel,原理同讀取一樣,采用write_only模式。
另外一個可以大規(guī)模寫入數(shù)據(jù),不占用內(nèi)存的是庫是XlsxWriter,它有個“常量內(nèi)存”模式,支持每寫入一行,就在內(nèi)存中清除上一行占用的空間,意味著內(nèi)存只存有一行數(shù)據(jù),永遠是夠用的。
import xlsxwriter
# 創(chuàng)建一個文件名,用于寫入數(shù)據(jù)
file_name = 'large_data_constant_memory.xlsx'
# 創(chuàng)建一個工作簿對象,并啟用常量內(nèi)存模式
workbook = xlsxwriter.Workbook(file_name, {'constant_memory': True})
worksheet = workbook.add_worksheet()
這里可以寫入大量數(shù)據(jù),不會占用內(nèi)存......
除了以上幾個庫,還有像Dask、Polars、Modin、Rapids等庫可以處理Excel大數(shù)據(jù)集,都是類似pandas的操作模式,但速度會快很多,可以試試。
方法補充
Python 處理大文件的 10 種方法
用 Python 處理大型文本文件可能會讓人感到不知所措。當文件大小達到 GB 級時,嘗試一次性將它們?nèi)考虞d到內(nèi)存中可能會導致程序崩潰。不過不用擔心——Python 提供了多種策略來高效處理此類文件,而不會耗盡內(nèi)存或性能。
1. 使用迭代器逐行讀取
逐行讀取文件可以確保每次只有一小部分內(nèi)容加載到內(nèi)存中。具體操作如下:
with open('large_file.txt', 'r') as file:
for line in file:
process(line) # Replace with your processing function2. 分塊閱讀
有時,你需要比逐行讀取更大的靈活性。以固定大小的塊讀取文件可以讓你控制一次處理的數(shù)據(jù)量。
def read_file_in_chunks(file_path, chunk_size=1024): with open(file_path, 'r') as file: while True: chunk = file.read(chunk_size) if not chunk: break process(chunk) # Replace with your processing function
3.緩沖文件讀取
緩沖讀取通過以更大的內(nèi)部塊處理文件來提供更高級別的優(yōu)化:
with open('large_file.txt', 'rb', buffering=10 * 1024 * 1024) as file: # 10 MB buffer
for line in file:
process(line)為什么要使用它? 減少頻繁磁盤 I/O 操作的開銷。
4. 內(nèi)存映射文件(mmap)
內(nèi)存映射允許 Python 直接在內(nèi)存中將文件視為字節(jié)數(shù)組。這徹底改變了隨機訪問的格局。
from mmap import mmap
with open('large_file.txt', 'r') as file:
with mmap(file.fileno(), length=0, access=mmap.ACCESS_READ) as mm:
for line in mm:
process(line.decode('utf-8'))5. 使用生成器
生成器允許您延遲處理數(shù)據(jù),僅加載必要的數(shù)據(jù)。
def generate_lines(file_path):
with open(file_path, 'r') as file:
for line in file:
yield line
for line in generate_lines('large_file.txt'):
process(line)為什么它很棒: 通過一次處理一行來減少內(nèi)存使用量。
6. 批量處理線路
對于結(jié)構(gòu)化文件,您可以一次處理多組行(或記錄)。
def read_batches(file_path, batch_size=5):
with open(file_path, 'r') as file:
batch = []
for line in file:
batch.append(line.strip())
if len(batch) == batch_size:
yield batch
batch = []
if batch:
yield batch
# Example usage:
for batch in read_batches('cars.txt'):
process_batch(batch) # Replace with your processing logic適用于: CSV 或日志等結(jié)構(gòu)化數(shù)據(jù)。
7.流處理
如果數(shù)據(jù)連續(xù)到達(例如日志或 API),請使用流處理。
import requests def stream_data(url): with requests.get(url, stream=True) as response: for line in response.iter_lines(): process(line)
用例: 實時日志監(jiān)控或 API 數(shù)據(jù)流。
8. Dask 并行處理
對于海量數(shù)據(jù)集,可以考慮使用 Dask ,這是一個專為大數(shù)據(jù)并行計算而設(shè)計的庫。
import dask.dataframe as dd
df = dd.read_csv('large_dataset.csv')
result = df[df['column'] > 100].compute()為什么選擇 Dask? 通過將內(nèi)存不足的數(shù)據(jù)分塊處理,可以更好地處理這些數(shù)據(jù)。
9. PySpark 用于分布式處理
如果您的數(shù)據(jù)大小超出了單臺機器的容量,請使用 PySpark 進行分布式處理。
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("LargeFileProcessing").getOrCreate()
df = spark.read.csv('large_dataset.csv')
df.filter(df['column'] > 100).show()最適合: 需要集群級資源的大數(shù)據(jù)任務(wù)。
10. 特定格式的高效庫
對于特定文件類型,使用優(yōu)化庫:
關(guān)于大文件處理的有趣事實
應(yīng)避免的常見錯誤
加載整個文件: 除非文件很小,否則避免使用 file.readlines() 。
忘記緩沖: 使用緩沖 I/O 實現(xiàn)更流暢的性能。
忽略邊緣情況: 始終處理諸如空行或無效格式之類的錯誤。
到此這篇關(guān)于Python讀寫Excel大數(shù)據(jù)文件的3種有效方式對比的文章就介紹到這了,更多相關(guān)Python讀寫Excel內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Xadmin+rules實現(xiàn)多選行權(quán)限方式(級聯(lián)效果)
這篇文章主要介紹了Xadmin+rules實現(xiàn)多選行權(quán)限方式(級聯(lián)效果),具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-04-04
Pytorch evaluation每次運行結(jié)果不同的解決
今天小編就為大家分享一篇Pytorch evaluation每次運行結(jié)果不同的解決,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-01-01
python實現(xiàn)點擊按鈕修改數(shù)據(jù)的方法
今天小編就為大家分享一篇python實現(xiàn)點擊按鈕修改數(shù)據(jù)的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-07-07

