快捷導(dǎo)航

Python高效處理CSV、Excel和JSON數(shù)據(jù)的實(shí)戰(zhàn)指南

更新時(shí)間：2025年07月17日 09:03:47 作者：喵手

在現(xiàn)代數(shù)據(jù)分析中,Python 無(wú)疑是一個(gè)強(qiáng)大的工具,特別是在處理各種格式的數(shù)據(jù)時(shí),如 CSV、Excel 和 JSON 等,今天,我們將深入探討如何使用 Python 高效地處理這三種最常見(jiàn)的數(shù)據(jù)格式,需要的朋友可以參考下

前言

在現(xiàn)代數(shù)據(jù)分析中，Python 無(wú)疑是一個(gè)強(qiáng)大的工具，特別是在處理各種格式的數(shù)據(jù)時(shí)，如 CSV、Excel 和 JSON 等。數(shù)據(jù)的存儲(chǔ)格式不同，我們需要靈活的工具來(lái)進(jìn)行讀取、清洗、轉(zhuǎn)換和分析。今天，我們將深入探討如何使用 Python 高效地處理這三種最常見(jiàn)的數(shù)據(jù)格式。

1. 處理 CSV 數(shù)據(jù)

CSV（逗號(hào)分隔值）文件是最常見(jiàn)的數(shù)據(jù)存儲(chǔ)格式之一。Python 中的 pandas 庫(kù)提供了非常方便的工具來(lái)讀取、寫(xiě)入和處理 CSV 文件。下面，我們就從如何讀取 CSV 數(shù)據(jù)開(kāi)始，逐步講解常見(jiàn)操作。

1.1 讀取 CSV 文件

使用 pandas 中的 read_csv() 方法，我們可以非常簡(jiǎn)單地加載 CSV 數(shù)據(jù)：

import pandas as pd

# 讀取 CSV 文件
df = pd.read_csv('data.csv')

# 查看數(shù)據(jù)的前五行
print(df.head())

1.2 寫(xiě)入 CSV 文件

如果你想將處理后的數(shù)據(jù)保存回 CSV 文件，可以使用 to_csv() 方法：

# 將 DataFrame 保存為 CSV 文件
df.to_csv('output.csv', index=False)

index=False 表示不保存行索引，如果不加此參數(shù)，行索引將被包含在 CSV 文件中。

1.3 處理 CSV 中的缺失值

CSV 文件中可能會(huì)有缺失值，pandas 提供了處理缺失值的多種方法，比如填充缺失值或刪除包含缺失值的行。

# 刪除含有缺失值的行
df.dropna(inplace=True)

# 用特定值填充缺失值
df.fillna(value={'column_name': 0}, inplace=True)

1.4 篩選與排序數(shù)據(jù)

# 篩選某列大于某個(gè)值的行
filtered_df = df[df['age'] > 30]

# 根據(jù)某一列排序數(shù)據(jù)
sorted_df = df.sort_values(by='age', ascending=False)

2. 處理 Excel 數(shù)據(jù)

Excel 文件通常包含多個(gè)工作表，pandas 通過(guò) read_excel() 提供了讀取 Excel 文件的功能。與 CSV 文件不同，Excel 文件可以包含多個(gè)工作表，pandas 允許我們選擇讀取某個(gè)特定的工作表，甚至同時(shí)讀取多個(gè)工作表。

2.1 讀取 Excel 文件

# 讀取 Excel 文件
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')

# 如果不指定 sheet_name，則默認(rèn)讀取第一個(gè)工作表
df = pd.read_excel('data.xlsx')

# 查看數(shù)據(jù)的前五行
print(df.head())

2.2 讀取多個(gè)工作表

# 讀取多個(gè)工作表
df_dict = pd.read_excel('data.xlsx', sheet_name=None)

# 獲取所有工作表的名稱(chēng)
print(df_dict.keys())

# 訪問(wèn)某一個(gè)工作表
sheet1_df = df_dict['Sheet1']

2.3 寫(xiě)入 Excel 文件

# 將 DataFrame 寫(xiě)入 Excel 文件
df.to_excel('output.xlsx', index=False)

2.4 處理 Excel 中的缺失值

# 刪除含有缺失值的行
df.dropna(inplace=True)

# 用均值填充缺失值
df.fillna(df.mean(), inplace=True)

3. 處理 JSON 數(shù)據(jù)

JSON 格式是最常用于 Web 應(yīng)用程序中的數(shù)據(jù)交換格式。在 Python 中，處理 JSON 格式的數(shù)據(jù)通常依賴(lài) json 模塊和 pandas 庫(kù)，后者提供了更強(qiáng)大的功能來(lái)處理復(fù)雜的 JSON 數(shù)據(jù)結(jié)構(gòu)。

3.1 讀取 JSON 文件

使用 pandas 中的 read_json() 方法，我們可以讀取 JSON 數(shù)據(jù)：

# 讀取 JSON 文件
df = pd.read_json('data.json')

# 查看數(shù)據(jù)的前五行
print(df.head())

3.2 寫(xiě)入 JSON 文件

將數(shù)據(jù)保存為 JSON 格式：

# 將 DataFrame 寫(xiě)入 JSON 文件
df.to_json('output.json', orient='records', lines=True)

orient='records' 參數(shù)表示將每行數(shù)據(jù)保存為一個(gè) JSON 對(duì)象。lines=True 參數(shù)會(huì)將每條記錄寫(xiě)入 JSON 格式的一行。

3.3 處理 JSON 格式的嵌套數(shù)據(jù)

有時(shí)候 JSON 數(shù)據(jù)可能包含嵌套的字典或列表結(jié)構(gòu)。我們可以使用 json_normalize() 來(lái)將嵌套的數(shù)據(jù)平展為一個(gè) DataFrame：

import json
from pandas import json_normalize

# 假設(shè)有以下嵌套的 JSON 數(shù)據(jù)
data = {
    "id": 1,
    "name": "Alice",
    "address": {
        "city": "New York",
        "zipcode": "10001"
    }
}

# 使用 json_normalize 將嵌套的 JSON 轉(zhuǎn)換為 DataFrame
df = json_normalize(data)

print(df)

3.4 JSON 中的缺失值處理

如果 JSON 數(shù)據(jù)中有缺失值，可以使用和 CSV、Excel 數(shù)據(jù)相同的方法來(lái)處理它們。

# 刪除含有缺失值的行
df.dropna(inplace=True)

# 用默認(rèn)值填充缺失值
df.fillna({'column_name': 'default_value'}, inplace=True)

4. 總結(jié)

今天，我們介紹了如何使用 Python 中的 pandas 和 json 庫(kù)來(lái)處理三種常見(jiàn)的數(shù)據(jù)格式：CSV、Excel 和 JSON。掌握這些技巧，不僅能幫助你更高效地進(jìn)行數(shù)據(jù)清理和預(yù)處理，還能在實(shí)際的工作中減少重復(fù)性勞動(dòng)，提高工作效率。

重點(diǎn)回顧：

CSV：通過(guò) read_csv() 讀取，to_csv() 寫(xiě)入，處理缺失值和篩選數(shù)據(jù)。
Excel：通過(guò) read_excel() 讀取，to_excel() 寫(xiě)入，支持讀取多個(gè)工作表。
JSON：通過(guò) read_json() 讀取，to_json() 寫(xiě)入，處理嵌套數(shù)據(jù)和缺失值。

希望通過(guò)這篇文章，大家能熟練掌握這三種數(shù)據(jù)格式的處理方法，快速應(yīng)對(duì)日常的數(shù)據(jù)分析工作。

到此這篇關(guān)于Python高效處理CSV、Excel和JSON數(shù)據(jù)的實(shí)戰(zhàn)指南的文章就介紹到這了,更多相關(guān)Python處理CSV、Excel和JSON數(shù)據(jù)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: