快捷導航

Python讀寫Excel大數(shù)據(jù)文件的3種有效方式對比

更新時間：2025年09月10日 15:53:53 作者：@Python大數(shù)據(jù)分析

Python處理Excel大數(shù)據(jù)有很多方式,不過Excel撐死才104萬行,能有多大的數(shù)據(jù),本文主要介紹了三種常見方式,感興趣的小伙伴可以跟隨小編一起學習一下

有人問Python怎么處理大數(shù)據(jù)的Excel文件？

Python處理Excel大數(shù)據(jù)有很多方式，不過Excel撐死才104萬行，能有多大的數(shù)據(jù)，一般用pandas讀取就可以，pandas有專門的分塊讀取模式，比如說每次只讀取1萬行用于處理，這樣就不會太占用內(nèi)存。

pandas read_excel方法有專門的參數(shù)chunksize用于設(shè)置分塊讀取，代碼示例如下：

import pandas as pd

# 讀取'test_data.xlsx'大文件

# 分塊讀取以減少內(nèi)存占用
chunk_size = 10000
chunks = pd.read_excel('test_data.xlsx', chunksize=chunk_size)

# 對每個數(shù)據(jù)塊進行處理
processed_data = []
for i, chunk in enumerate(chunks):
    這里代碼是對每個數(shù)據(jù)塊進行處理......

讀取Excel能用pandas盡量用pandas，但如果Excel文件非常大，已經(jīng)遠大于內(nèi)存容量了，或者你相對Excel有更多其他處理，比如修改格式等，則可以用OpenPyXL。

它有專門的流式讀取方式（只讀模式read-only mode）來處理Excel，底層原理是OpenPyXL不會加載整個Excel文件到內(nèi)存，而是保存為一個邏輯對象，在用的時候才流式去讀取它。

from openpyxl import load_workbook

# 使用只讀模式讀取大型Excel文件
read_wb = load_workbook('large_data.xlsx', read_only=True)
read_ws = read_wb.active

# 以流式方式逐行讀取、處理和寫入
row_count = 0
for row in read_ws.iter_rows(min_row=2): 
    這里代碼是對每一行進行處理......

OpenPyXL也可以流式寫入Excel，原理同讀取一樣，采用write_only模式。

另外一個可以大規(guī)模寫入數(shù)據(jù)，不占用內(nèi)存的是庫是XlsxWriter，它有個“常量內(nèi)存”模式，支持每寫入一行，就在內(nèi)存中清除上一行占用的空間，意味著內(nèi)存只存有一行數(shù)據(jù)，永遠是夠用的。

import xlsxwriter

# 創(chuàng)建一個文件名，用于寫入數(shù)據(jù)
file_name = 'large_data_constant_memory.xlsx'

# 創(chuàng)建一個工作簿對象，并啟用常量內(nèi)存模式
workbook = xlsxwriter.Workbook(file_name, {'constant_memory': True})
worksheet = workbook.add_worksheet()
這里可以寫入大量數(shù)據(jù)，不會占用內(nèi)存......

除了以上幾個庫，還有像Dask、Polars、Modin、Rapids等庫可以處理Excel大數(shù)據(jù)集，都是類似pandas的操作模式，但速度會快很多，可以試試。

方法補充

Python 處理大文件的 10 種方法

用 Python 處理大型文本文件可能會讓人感到不知所措。當文件大小達到 GB 級時，嘗試一次性將它們?nèi)考虞d到內(nèi)存中可能會導致程序崩潰。不過不用擔心——Python 提供了多種策略來高效處理此類文件，而不會耗盡內(nèi)存或性能。

1. 使用迭代器逐行讀取

逐行讀取文件可以確保每次只有一小部分內(nèi)容加載到內(nèi)存中。具體操作如下：

with open('large_file.txt', 'r') as file:
for line in file:
process(line) # Replace with your processing function

2. 分塊閱讀

有時，你需要比逐行讀取更大的靈活性。以固定大小的塊讀取文件可以讓你控制一次處理的數(shù)據(jù)量。

def read_file_in_chunks(file_path, chunk_size=1024):
with open(file_path, 'r') as file:
while True:
chunk = file.read(chunk_size)
if not chunk:
break
process(chunk) # Replace with your processing function

3.緩沖文件讀取

緩沖讀取通過以更大的內(nèi)部塊處理文件來提供更高級別的優(yōu)化：

with open('large_file.txt', 'rb', buffering=10 * 1024 * 1024) as file: # 10 MB buffer
for line in file:
process(line)

為什么要使用它？ 減少頻繁磁盤 I/O 操作的開銷。

4. 內(nèi)存映射文件（mmap）

內(nèi)存映射允許 Python 直接在內(nèi)存中將文件視為字節(jié)數(shù)組。這徹底改變了隨機訪問的格局。

from mmap import mmap

with open('large_file.txt', 'r') as file:
with mmap(file.fileno(), length=0, access=mmap.ACCESS_READ) as mm:
for line in mm:
process(line.decode('utf-8'))

5. 使用生成器

生成器允許您延遲處理數(shù)據(jù)，僅加載必要的數(shù)據(jù)。

def generate_lines(file_path):
with open(file_path, 'r') as file:
for line in file:
yield line

for line in generate_lines('large_file.txt'):
process(line)

為什么它很棒： 通過一次處理一行來減少內(nèi)存使用量。

6. 批量處理線路

對于結(jié)構(gòu)化文件，您可以一次處理多組行（或記錄）。

def read_batches(file_path, batch_size=5):
with open(file_path, 'r') as file:
batch = []
for line in file:
batch.append(line.strip())
if len(batch) == batch_size:
yield batch
batch = []
if batch:
yield batch

# Example usage:
for batch in read_batches('cars.txt'):
process_batch(batch) # Replace with your processing logic

適用于： CSV 或日志等結(jié)構(gòu)化數(shù)據(jù)。

7.流處理

如果數(shù)據(jù)連續(xù)到達（例如日志或 API），請使用流處理。

import requests

def stream_data(url):
with requests.get(url, stream=True) as response:
for line in response.iter_lines():
process(line)

用例： 實時日志監(jiān)控或 API 數(shù)據(jù)流。

8. Dask 并行處理

對于海量數(shù)據(jù)集，可以考慮使用 Dask ，這是一個專為大數(shù)據(jù)并行計算而設(shè)計的庫。

import dask.dataframe as dd

df = dd.read_csv('large_dataset.csv')
result = df[df['column'] > 100].compute()

為什么選擇 Dask？ 通過將內(nèi)存不足的數(shù)據(jù)分塊處理，可以更好地處理這些數(shù)據(jù)。

9. PySpark 用于分布式處理

如果您的數(shù)據(jù)大小超出了單臺機器的容量，請使用 PySpark 進行分布式處理。

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("LargeFileProcessing").getOrCreate()
df = spark.read.csv('large_dataset.csv')
df.filter(df['column'] > 100).show()

最適合： 需要集群級資源的大數(shù)據(jù)任務(wù)。

10. 特定格式的高效庫

對于特定文件類型，使用優(yōu)化庫：

關(guān)于大文件處理的有趣事實

應(yīng)避免的常見錯誤

加載整個文件： 除非文件很小，否則避免使用 file.readlines() 。

忘記緩沖： 使用緩沖 I/O 實現(xiàn)更流暢的性能。

忽略邊緣情況： 始終處理諸如空行或無效格式之類的錯誤。

到此這篇關(guān)于Python讀寫Excel大數(shù)據(jù)文件的3種有效方式對比的文章就介紹到這了,更多相關(guān)Python讀寫Excel內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: