20個Python中pandas數(shù)據(jù)處理的高級技巧

更新時間：2025年06月18日 09:15:19 作者：天天進(jìn)步2015

在數(shù)據(jù)科學(xué)和數(shù)據(jù)分析領(lǐng)域,Python的pandas庫已經(jīng)成為處理結(jié)構(gòu)化數(shù)據(jù)的標(biāo)準(zhǔn)工具,本文將介紹20個pandas高級技巧,幫助大家提升數(shù)據(jù)處理和分析的能力

引言

在數(shù)據(jù)科學(xué)和數(shù)據(jù)分析領(lǐng)域，Python的pandas庫已經(jīng)成為處理結(jié)構(gòu)化數(shù)據(jù)的標(biāo)準(zhǔn)工具。雖然許多數(shù)據(jù)科學(xué)家和分析師都熟悉pandas的基本操作，但該庫中隱藏著許多強(qiáng)大的高級功能，可以顯著提高數(shù)據(jù)處理的效率和靈活性。本文將介紹20個pandas高級技巧，幫助你提升數(shù)據(jù)處理和分析的能力，讓你的代碼更加簡潔、高效且專業(yè)。

1. 高效數(shù)據(jù)讀取與導(dǎo)出

技巧1：使用適當(dāng)?shù)臄?shù)據(jù)類型

在讀取大型數(shù)據(jù)集時，指定正確的數(shù)據(jù)類型可以顯著減少內(nèi)存使用并提高性能：

import pandas as pd
import numpy as np

# 定義數(shù)據(jù)類型字典
dtypes = {
    'id': np.int32,
    'numeric_col': np.float32,
    'category_col': 'category'
}

# 讀取時指定數(shù)據(jù)類型
df = pd.read_csv('large_file.csv', dtype=dtypes)

技巧2：分塊讀取大文件

處理超大文件時，可以使用分塊讀取避免內(nèi)存溢出：

chunks = []
for chunk in pd.read_csv('huge_file.csv', chunksize=100000):
    # 對每個塊進(jìn)行處理
    processed_chunk = some_processing_function(chunk)
    chunks.append(processed_chunk)

# 合并所有處理過的塊
result = pd.concat(chunks)

技巧3：高效導(dǎo)出數(shù)據(jù)

導(dǎo)出大型DataFrame時，可以使用更高效的方法：

# 使用Apache Parquet格式保存數(shù)據(jù)（需要安裝pyarrow）
df.to_parquet('data.parquet', engine='pyarrow', compression='snappy')

# 使用HDF5格式（需要安裝tables）
df.to_hdf('data.h5', key='df', mode='w')

技巧4：使用SQL查詢讀取數(shù)據(jù)

直接從數(shù)據(jù)庫使用SQL查詢讀取數(shù)據(jù)：

import sqlite3

conn = sqlite3.connect('database.db')
df = pd.read_sql_query("SELECT * FROM table WHERE column > 5", conn)
conn.close()

2. 數(shù)據(jù)轉(zhuǎn)換與重塑

技巧5：使用melt和pivot進(jìn)行數(shù)據(jù)重塑

將寬格式數(shù)據(jù)轉(zhuǎn)換為長格式，反之亦然：

# 寬格式轉(zhuǎn)長格式
long_df = pd.melt(
    wide_df, 
    id_vars=['id', 'name'], 
    value_vars=['score1', 'score2', 'score3'],
    var_name='test',
    value_name='score'
)

# 長格式轉(zhuǎn)寬格式
wide_df = long_df.pivot(
    index='id',
    columns='test',
    values='score'
).reset_index()

技巧6：使用explode展開列表值

將包含列表的單元格展開為多行：

df = pd.DataFrame({
    'A': [[1, 2, 3], [4, 5], [6]],
    'B': ['a', 'b', 'c']
})

# 展開A列
exploded_df = df.explode('A')

技巧7：使用stack和unstack進(jìn)行多級索引轉(zhuǎn)換

處理多級索引數(shù)據(jù)：

# 將列索引轉(zhuǎn)為行索引的一部分
stacked = df.stack()

# 將行索引的一部分轉(zhuǎn)為列索引
unstacked = stacked.unstack()

技巧8：使用map、apply和applymap進(jìn)行數(shù)據(jù)轉(zhuǎn)換

不同粒度的數(shù)據(jù)轉(zhuǎn)換：

# 對Series中的每個元素應(yīng)用函數(shù)
df['category'] = df['category'].map({'A': 'Group1', 'B': 'Group2'})

# 對DataFrame的每一行或每一列應(yīng)用函數(shù)
df['total'] = df[['col1', 'col2']].apply(sum, axis=1)

# 對DataFrame中的每個元素應(yīng)用函數(shù)
df = df.applymap(lambda x: x.lower() if isinstance(x, str) else x)

3. 高級索引與選擇

技巧9：使用.loc和.iloc進(jìn)行精確索引

高效地選擇數(shù)據(jù)：

# 基于標(biāo)簽的索引
subset = df.loc[df['age'] > 30, ['name', 'salary']]

# 基于位置的索引
first_five_rows_three_cols = df.iloc[0:5, 0:3]

# 混合索引
mixed_selection = df.loc[df['status'] == 'active', df.columns[2:5]]

技巧10：使用query方法進(jìn)行高效過濾

使用字符串表達(dá)式過濾數(shù)據(jù)：

# 傳統(tǒng)方法
filtered_df = df[(df['age'] > 30) & (df['salary'] > 50000)]

# 使用query方法（更易讀且通常更快）
filtered_df = df.query('age > 30 and salary > 50000')

# 使用變量
min_age = 30
filtered_df = df.query('age > @min_age')

技巧11：使用where進(jìn)行條件替換

基于條件替換值：

# 將不滿足條件的值替換為NaN
df_modified = df.where(df > 0)

# 將不滿足條件的值替換為指定值
df_modified = df.where(df > 0, -1)

技巧12：使用mask進(jìn)行條件替換

與where相反的操作：

# 將滿足條件的值替換為NaN
df_modified = df.mask(df < 0)

# 將滿足條件的值替換為指定值
df_modified = df.mask(df < 0, 0)

4. 分組操作與聚合

技巧13：使用groupby的高級功能

超越基本分組聚合：

# 多列分組
result = df.groupby(['department', 'title']).agg({'salary': ['mean', 'median', 'std'], 'age': 'mean'})

# 使用自定義聚合函數(shù)
def iqr(x):
    return x.quantile(0.75) - x.quantile(0.25)

result = df.groupby('department').agg({'salary': [iqr, lambda x: x.max() - x.min()]})

# 使用命名聚合
result = df.groupby('department').agg(
    avg_salary=('salary', 'mean'),
    max_age=('age', 'max'),
    min_age=('age', 'min')
)

技巧14：使用transform進(jìn)行組內(nèi)轉(zhuǎn)換

在不改變DataFrame形狀的情況下應(yīng)用組級別的計算：

# 添加組平均值列
df['salary_group_mean'] = df.groupby('department')['salary'].transform('mean')

# 使用自定義轉(zhuǎn)換函數(shù)
df['salary_normalized'] = df.groupby('department')['salary'].transform(lambda x: (x - x.mean()) / x.std())

# 計算組內(nèi)排名
df['salary_rank'] = df.groupby('department')['salary'].transform('rank', method='dense')

技巧15：使用filter篩選組

基于組級別條件篩選數(shù)據(jù)：

# 僅保留平均工資超過50000的部門
high_paying_depts = df.groupby('department').filter(lambda x: x['salary'].mean() > 50000)

# 僅保留至少有10名員工的部門
large_depts = df.groupby('department').filter(lambda x: len(x) >= 10)

技巧16：使用pipe構(gòu)建數(shù)據(jù)處理管道

創(chuàng)建可重用的數(shù)據(jù)處理流程：

def add_features(df):
    df['salary_to_age_ratio'] = df['salary'] / df['age']
    return df

def filter_outliers(df, column, lower=0.01, upper=0.99):
    lower_bound = df[column].quantile(lower)
    upper_bound = df[column].quantile(upper)
    return df[(df[column] >= lower_bound) & (df[column] <= upper_bound)]

# 構(gòu)建處理管道
processed_df = (df
                .pipe(add_features)
                .pipe(filter_outliers, 'salary')
                .pipe(filter_outliers, 'age'))

5. 時間序列數(shù)據(jù)處理

技巧17：使用日期范圍和頻率

創(chuàng)建和操作日期序列：

# 創(chuàng)建日期范圍
date_range = pd.date_range(start='2025-01-01', end='2025-12-31', freq='B')  # B表示工作日

???????# 創(chuàng)建月末日期序列
month_ends = pd.date_range(start='2025-01-01', periods=12, freq='M')

# 創(chuàng)建季度日期
quarters = pd.date_range(start='2025-01-01', periods=4, freq='Q')

技巧18：時間序列重采樣

改變時間序列的頻率：

# 將日數(shù)據(jù)聚合為月數(shù)據(jù)
monthly_data = daily_data.resample('M').mean()

# 將小時數(shù)據(jù)聚合為日數(shù)據(jù)，并使用不同的聚合方法
daily_stats = hourly_data.resample('D').agg({
    'temperature': 'mean',
    'humidity': 'mean',
    'rainfall': 'sum',
    'wind_speed': ['min', 'max', 'mean']
})

# 將低頻數(shù)據(jù)轉(zhuǎn)換為高頻數(shù)據(jù)（向前填充）
hourly_data = daily_data.resample('H').ffill()

技巧19：時間序列滾動窗口計算

計算移動平均、累積和等：

# 7天移動平均
df['7d_moving_avg'] = df['value'].rolling(window=7).mean()

# 30天指數(shù)加權(quán)移動平均
df['30d_ewm'] = df['value'].ewm(span=30).mean()

# 累積計算
df['cumulative_sum'] = df['value'].cumsum()
df['cumulative_product'] = df['value'].cumprod()

# 使用自定義窗口函數(shù)
df['rolling_median'] = df['value'].rolling(window=7).apply(lambda x: np.median(x))

技巧20：時區(qū)處理

處理不同時區(qū)的數(shù)據(jù)：

# 將時間戳轉(zhuǎn)換為時區(qū)感知
df['timestamp'] = pd.to_datetime(df['timestamp']).dt.tz_localize('UTC')

# 轉(zhuǎn)換時區(qū)
df['local_time'] = df['timestamp'].dt.tz_convert('Asia/Shanghai')

# 移除時區(qū)信息
df['naive_time'] = df['timestamp'].dt.tz_localize(None)

# 在不同時區(qū)之間進(jìn)行日期比較
mask = (df['timestamp'] >= pd.Timestamp('2025-01-01', tz='UTC')) & \
       (df['timestamp'] <= pd.Timestamp('2025-01-31', tz='UTC'))
filtered_df = df[mask]

6. 性能優(yōu)化技巧

技巧21：使用inplace=True減少內(nèi)存使用

在適當(dāng)?shù)那闆r下原地修改數(shù)據(jù)：

# 不創(chuàng)建新的DataFrame
df.fillna(0, inplace=True)
df.drop('unused_column', axis=1, inplace=True)
df.reset_index(inplace=True)

注意：雖然inplace=True可以減少內(nèi)存使用，但在某些情況下可能會降低性能，并且使代碼的流式處理變得困難。在現(xiàn)代pandas版本中，推薦的做法是避免使用inplace=True，而是使用方法鏈。

技巧22：使用numba加速自定義函數(shù)

對于計算密集型操作，使用numba可以顯著提高性能：

import numba

@numba.jit(nopython=True)
def fast_calculation(array):
    result = np.zeros_like(array)
    for i in range(len(array)):
        result[i] = some_complex_math(array[i])
    return result

df['result'] = fast_calculation(df['value'].values)

技巧23：使用swifter并行處理

自動并行化pandas操作：

# 安裝：pip install swifter
import swifter

# 替代普通的apply操作
df['result'] = df['complex_column'].swifter.apply(complex_function)

技巧24：使用eval和query進(jìn)行高性能操作

對于大型DataFrame，使用這些方法可以避免創(chuàng)建中間對象：

# 傳統(tǒng)方式
df['C'] = df['A'] + df['B']
df = df[(df['A'] < 100) & (df['B'] > 50)]

# 高性能方式
df = df.eval('C = A + B')
df = df.query('A < 100 and B > 50')

7. 可視化增強(qiáng)

技巧25：使用內(nèi)置樣式

利用pandas的內(nèi)置樣式增強(qiáng)可視化效果：

# 設(shè)置繪圖樣式
plt.style.use('ggplot')

# 使用pandas內(nèi)置繪圖功能
df.plot(kind='bar', figsize=(12, 6))

# 使用多種圖表類型
fig, axes = plt.subplots(2, 2, figsize=(12, 10))
df.plot(kind='line', ax=axes[0, 0], title='Line Plot')
df.plot(kind='bar', ax=axes[0, 1], title='Bar Plot')
df.plot(kind='box', ax=axes[1, 0], title='Box Plot')
df.plot(kind='scatter', x='A', y='B', ax=axes[1, 1], title='Scatter Plot')

技巧26：使用styler美化DataFrame顯示

在Jupyter Notebook中美化DataFrame的顯示：

# 高亮最大值
styled_df = df.style.highlight_max(color='lightgreen')

# 根據(jù)條件設(shè)置樣式
styled_df = df.style.applymap(lambda x: 'background-color: yellow' if x < 0 else '')

# 使用漸變顏色
styled_df = df.style.background_gradient(cmap='viridis')

# 格式化數(shù)值
styled_df = df.style.format({
    'A': '{:.2f}',
    'B': '{:+.2f}',
    'C': '{:.2%}'
})

技巧27：交互式可視化

結(jié)合其他庫創(chuàng)建交互式可視化：

# 使用plotly（需要安裝plotly）
import plotly.express as px
fig = px.line(df, x='date', y='value', color='category')
fig.show()

# 使用hvplot（需要安裝hvplot和holoviews）
import hvplot.pandas
interactive_plot = df.hvplot.scatter(x='A', y='B', by='category', hover_cols=['C', 'D'])

8. 綜合應(yīng)用示例

下面我們通過一個綜合示例，展示如何將這些高級技巧應(yīng)用到實(shí)際數(shù)據(jù)分析中：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 1. 高效讀取數(shù)據(jù)
sales_data = pd.read_csv('sales_data.csv', 
                         parse_dates=['date'],
                         dtype={'product_id': 'category', 'store_id': 'category'})

# 2. 數(shù)據(jù)轉(zhuǎn)換
# 添加時間特征
sales_data['year'] = sales_data['date'].dt.year
sales_data['month'] = sales_data['date'].dt.month
sales_data['day_of_week'] = sales_data['date'].dt.dayofweek

# 3. 高級索引與過濾
# 使用query篩選數(shù)據(jù)
recent_sales = sales_data.query('date >= "2024-01-01" and revenue > 1000')

# 4. 分組操作與聚合
# 按產(chǎn)品和月份分組，計算多個統(tǒng)計量
monthly_stats = sales_data.groupby(['product_id', 'year', 'month']).agg(
    total_revenue=('revenue', 'sum'),
    avg_revenue=('revenue', 'mean'),
    total_units=('units', 'sum'),
    transaction_count=('transaction_id', 'nunique')
).reset_index()

# 5. 時間序列處理
# 將數(shù)據(jù)重采樣為周頻率
weekly_sales = sales_data.set_index('date').groupby('product_id')['revenue'].resample('W').sum()

# 計算移動平均
monthly_sales = sales_data.set_index('date')['revenue'].resample('M').sum()
monthly_sales_smoothed = monthly_sales.rolling(window=3).mean()

# 6. 性能優(yōu)化
# 使用eval計算新列
sales_data = sales_data.eval('revenue_per_unit = revenue / units')

# 7. 可視化
plt.figure(figsize=(12, 6))
sns.lineplot(x=monthly_sales.index, y=monthly_sales.values, label='Monthly Sales')
sns.lineplot(x=monthly_sales_smoothed.index, y=monthly_sales_smoothed.values, label='3-Month Moving Average')
plt.title('Monthly Sales Trend with Moving Average')
plt.xlabel('Date')
plt.ylabel('Revenue')
plt.legend()
plt.tight_layout()
plt.show()

總結(jié)

掌握這些pandas高級技巧可以顯著提高你的數(shù)據(jù)處理和分析效率。從高效的數(shù)據(jù)讀取和導(dǎo)出，到復(fù)雜的數(shù)據(jù)轉(zhuǎn)換、高級索引、分組聚合、時間序列處理、性能優(yōu)化和可視化增強(qiáng)，這些技巧涵蓋了數(shù)據(jù)科學(xué)工作流程的各個方面。

通過不斷實(shí)踐和應(yīng)用這些技巧，你將能夠編寫更簡潔、高效和專業(yè)的數(shù)據(jù)分析代碼，從而更快地從數(shù)據(jù)中獲取洞察。

以上就是20個Python中pandas數(shù)據(jù)處理的高級技巧的詳細(xì)內(nèi)容，更多關(guān)于Python pandas的資料請關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频