使用python進行時間序列預測的流程

更新時間：2024年09月05日 09:00:00 作者：杰哥在此

使用 Python 進行時間序列預測是一個非常常見的任務,可以應用于各種領域,時間序列預測的方法有很多,包括統(tǒng)計方法、機器學習方法、以及深度學習方法,下面是一個簡單的時間序列預測流程示例,需要的朋友可以參考下

引言

使用 Python 進行時間序列預測是一個非常常見的任務，可以應用于各種領域，如金融市場預測、銷售量預測、天氣預報等。時間序列預測的方法有很多，包括統(tǒng)計方法（如 ARIMA 模型）、機器學習方法（如支持向量機、決策樹）、以及深度學習方法（如 LSTM 網絡）。

下面是一個簡單的時間序列預測流程示例，使用 Python 和 pandas、numpy、以及 statsmodels 庫來實現 ARIMA 模型的時間序列預測。

1. 導入必要的庫

首先，我們需要導入一些常用的 Python 庫。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from statsmodels.tsa.arima.model import ARIMA
from sklearn.metrics import mean_squared_error

2. 準備數據

我們將使用一個簡單的時間序列數據集。這個數據集可以是來自 CSV 文件的數據，也可以是生成的模擬數據。在這里，我們將生成一些模擬數據。

# 生成模擬時間序列數據
np.random.seed(0)
date_range = pd.date_range(start='2020-01-01', periods=100, freq='D')
data = np.random.normal(0, 1, size=(100,)).cumsum()
time_series_data = pd.Series(data, index=date_range)

# 可視化數據
time_series_data.plot(title="Time Series Data", xlabel="Date", ylabel="Value")
plt.show()

3. 檢查時間序列的平穩(wěn)性

ARIMA 模型要求時間序列是平穩(wěn)的。我們可以通過觀察時間序列圖或使用統(tǒng)計檢驗（如 ADF 檢驗）來檢查時間序列的平穩(wěn)性。

from statsmodels.tsa.stattools import adfuller

# ADF 檢驗
result = adfuller(time_series_data)
print(f'ADF Statistic: {result[0]}')
print(f'p-value: {result[1]}')

如果 p-value 小于 0.05，說明時間序列是平穩(wěn)的。否則，我們可能需要對時間序列進行差分操作來使其平穩(wěn)。

4. 拆分訓練集和測試集

在進行時間序列預測時，我們通常將數據集拆分為訓練集和測試集。訓練集用于訓練模型，測試集用于評估模型性能。

# 拆分數據集
train_size = int(len(time_series_data) * 0.8)
train, test = time_series_data[:train_size], time_series_data[train_size:]

# 可視化訓練集和測試集
train.plot(label='Training Data')
test.plot(label='Test Data')
plt.legend()
plt.show()

5. 構建和訓練 ARIMA 模型

ARIMA 模型的參數包括 p（自回歸部分的階數）、d（差分階數）、q（移動平均部分的階數）?？梢酝ㄟ^ ACF 和 PACF 圖或網格搜索來確定這些參數。在這里，我們將使用簡單的參數值。

# 創(chuàng)建 ARIMA 模型
model = ARIMA(train, order=(5, 1, 0))  # 這里 (p, d, q) = (5, 1, 0)
model_fit = model.fit()

# 打印模型總結
print(model_fit.summary())

6. 進行預測

訓練好模型后，我們可以對測試集進行預測，并與實際值進行比較。

# 進行預測
predictions = model_fit.forecast(steps=len(test))
predictions_series = pd.Series(predictions, index=test.index)

# 可視化預測結果
train.plot(label='Training Data')
test.plot(label='Test Data')
predictions_series.plot(label='Predictions')
plt.legend()
plt.show()

7. 評估模型

最后，我們評估模型的性能，可以使用均方誤差（MSE）、平均絕對誤差（MAE）等指標。

# 計算均方誤差
mse = mean_squared_error(test, predictions_series)
print(f'Mean Squared Error: {mse}')

8. 完整代碼

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from statsmodels.tsa.arima.model import ARIMA
from sklearn.metrics import mean_squared_error
from statsmodels.tsa.stattools import adfuller

# 生成模擬時間序列數據
np.random.seed(0)
date_range = pd.date_range(start='2020-01-01', periods=100, freq='D')
data = np.random.normal(0, 1, size=(100,)).cumsum()
time_series_data = pd.Series(data, index=date_range)

# 檢查時間序列的平穩(wěn)性
result = adfuller(time_series_data)
print(f'ADF Statistic: {result[0]}')
print(f'p-value: {result[1]}')

# 拆分數據集
train_size = int(len(time_series_data) * 0.8)
train, test = time_series_data[:train_size], time_series_data[train_size:]

# 創(chuàng)建和訓練 ARIMA 模型
model = ARIMA(train, order=(5, 1, 0))
model_fit = model.fit()

# 進行預測
predictions = model_fit.forecast(steps=len(test))
predictions_series = pd.Series(predictions, index=test.index)

# 評估模型
mse = mean_squared_error(test, predictions_series)
print(f'Mean Squared Error: {mse}')

# 可視化
train.plot(label='Training Data')
test.plot(label='Test Data')
predictions_series.plot(label='Predictions')
plt.legend()
plt.show()