kaggle數(shù)據(jù)分析家庭電力消耗過(guò)程詳解
一、家庭電力消耗分析
1.背景描述
本數(shù)據(jù)集包含了一個(gè)家庭6個(gè)月的用電數(shù)據(jù),收集于2007年1月至2007年6月。
這些數(shù)據(jù)包括全球有功功率、全球無(wú)功功率、電壓、全球強(qiáng)度、分項(xiàng)計(jì)量1(廚房)、分項(xiàng)計(jì)量2(洗衣房)和分項(xiàng)計(jì)量3(電熱水器和空調(diào))等信息。該數(shù)據(jù)集共有260,640個(gè)測(cè)量值,可以為了解家庭用電情況提供重要的見(jiàn)解。
我們要感謝databeats團(tuán)隊(duì)提供這個(gè)數(shù)據(jù)集。如果你在你的研究中使用這個(gè)數(shù)據(jù)集,請(qǐng)注明原作者:Georges Hébrail 和 Alice Bérard
數(shù)據(jù)說(shuō)明
列名 | 說(shuō)明 |
---|---|
Date | 日期 |
Time | 時(shí)間 |
Globalactivepower | 該家庭所消耗的總有功功率(千瓦) |
Globalreactivepower | 該家庭消耗的總無(wú)功功率(千瓦) |
Voltage | 向家庭輸送電力的電壓(伏特) |
Global_intensity | 輸送到家庭的平均電流強(qiáng)度(安培) |
Submetering1 | 廚房消耗的有功功率(千瓦) |
Submetering2 | 洗衣房所消耗的有功功率(千瓦) |
Submetering3 | 電熱水器和空調(diào)所消耗的有功功率(千瓦) |
2.數(shù)據(jù)來(lái)源
3.問(wèn)題描述
本數(shù)據(jù)集可以用于機(jī)器學(xué)習(xí)的目的,如預(yù)測(cè)性建模或時(shí)間序列分析。例如,人們可以使用這個(gè)數(shù)據(jù)集,根據(jù)過(guò)去的數(shù)據(jù)來(lái)預(yù)測(cè)未來(lái)的家庭用電量。
分析不同類(lèi)型的電氣設(shè)備對(duì)耗電量的影響
研究電力消耗如何隨時(shí)間和地點(diǎn)而變化
構(gòu)建一個(gè)預(yù)測(cè)模型來(lái)預(yù)測(cè)未來(lái)的電力消耗
二、數(shù)據(jù)加載
!pip install prophet -i https://pypi.tuna.tsinghua.edu.cn/simple
data_path="/home/mw/input/Household_Electricity4767/household_power_consumption.csv"
import pandas as pd import seaborn as sns import numpy as np from tqdm.auto import tqdm from prophet import Prophet
df=pd.read_csv(data_path)
df.head()
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
index | Date | Time | Global_active_power | Global_reactive_power | Voltage | Global_intensity | Sub_metering_1 | Sub_metering_2 | Sub_metering_3 |
---|---|---|---|---|---|---|---|---|---|
0 | 1/1/07 | 0:00:00 | 2.58 | 0.136 | 241.97 | 10.6 | 0 | 0 | 0.0 |
1 | 1/1/07 | 0:01:00 | 2.552 | 0.1 | 241.75 | 10.4 | 0 | 0 | 0.0 |
2 | 1/1/07 | 0:02:00 | 2.55 | 0.1 | 241.64 | 10.4 | 0 | 0 | 0.0 |
3 | 1/1/07 | 0:03:00 | 2.55 | 0.1 | 241.71 | 10.4 | 0 | 0 | 0.0 |
4 | 1/1/07 | 0:04:00 | 2.554 | 0.1 | 241.98 | 10.4 | 0 | 0 | 0.0 |
df.describe()
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
index | Sub_metering_3 | |
---|---|---|
count | 260640.000000 | 256869.000000 |
mean | 130319.500000 | 5.831825 |
std | 75240.431418 | 8.186709 |
min | 0.000000 | 0.000000 |
25% | 65159.750000 | 0.000000 |
50% | 130319.500000 | 0.000000 |
75% | 195479.250000 | 17.000000 |
max | 260639.000000 | 20.000000 |
df.dtypes
index int64 Date object Time object Global_active_power object Global_reactive_power object Voltage object Global_intensity object Sub_metering_1 object Sub_metering_2 object Sub_metering_3 float64 dtype: object
df['Date']=pd.DatetimeIndex(df['Date'])
make_em_num = ['Global_active_power', 'Global_reactive_power', 'Voltage', 'Global_intensity', 'Sub_metering_1', 'Sub_metering_2', 'Sub_metering_3']
def floating(string): try: return float(string) except: return float(0)
for column in tqdm(make_em_num): df[column] = df[column].apply(lambda item: floating(item))
HBox(children=(FloatProgress(value=0.0, max=7.0), HTML(value='')))
df.dtypes
index int64 Date datetime64[ns] Time object Global_active_power float64 Global_reactive_power float64 Voltage float64 Global_intensity float64 Sub_metering_1 float64 Sub_metering_2 float64 Sub_metering_3 float64 dtype: object
df.head()
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
index | Date | Time | Global_active_power | Global_reactive_power | Voltage | Global_intensity | Sub_metering_1 | Sub_metering_2 | Sub_metering_3 |
---|---|---|---|---|---|---|---|---|---|
0 | 2007-01-01 | 0:00:00 | 2.580 | 0.136 | 241.97 | 10.6 | 0.0 | 0.0 | 0.0 |
1 | 2007-01-01 | 0:01:00 | 2.552 | 0.100 | 241.75 | 10.4 | 0.0 | 0.0 | 0.0 |
2 | 2007-01-01 | 0:02:00 | 2.550 | 0.100 | 241.64 | 10.4 | 0.0 | 0.0 | 0.0 |
3 | 2007-01-01 | 0:03:00 | 2.550 | 0.100 | 241.71 | 10.4 | 0.0 | 0.0 | 0.0 |
4 | 2007-01-01 | 0:04:00 | 2.554 | 0.100 | 241.98 | 10.4 | 0.0 | 0.0 | 0.0 |
sns.heatmap(df.drop(['index','Date','Time'], axis=1).corr(), annot=True)
<matplotlib.axes._subplots.AxesSubplot at 0x7f31603ed4e0>
三、預(yù)測(cè)
1.Prophet介紹
Prophet是一種基于可加性模型預(yù)測(cè)時(shí)間序列數(shù)據(jù)的程序,其中非線(xiàn)性趨勢(shì)可以按年度、每周和每日的季節(jié)性,以及假日效應(yīng)進(jìn)行擬合。它最適合于具有強(qiáng)烈季節(jié)效應(yīng)的時(shí)間序列和有幾個(gè)季節(jié)的歷史數(shù)據(jù)。Prophet對(duì)于缺失的數(shù)據(jù)和趨勢(shì)的變化是穩(wěn)健的,并且通常能夠很好地處理異常值。
2.模型介紹
Prophet模型如下:
- g(t) 表示趨勢(shì)函數(shù),擬合非周期性變化;
- s(s)表示周期性變化,比如說(shuō)每周,每年,季節(jié)等;
- h(t)表示假期變化,節(jié)假日可能是一天或者多天;
- ?t為噪聲項(xiàng),用他來(lái)表示隨機(jī)無(wú)法預(yù)測(cè)的波動(dòng),我們假設(shè)?t是高斯的。
趨勢(shì)中有兩個(gè)增長(zhǎng)函數(shù),分別是分段線(xiàn)性函數(shù)(linear)和非線(xiàn)性邏輯回歸函數(shù)(logistic)擬合增長(zhǎng)曲線(xiàn)趨勢(shì)。通過(guò)從數(shù)據(jù)中選擇變化點(diǎn),Prophet自動(dòng)探測(cè)趨勢(shì)變化;
使用傅里葉級(jí)數(shù)建模每年的季節(jié)分量;
使用虛變量代表過(guò)去,將來(lái)的相同節(jié)假日,屬于節(jié)假日就為1,不屬于就是0;
用戶(hù)提供的重要節(jié)假日列表
- Modeling:建立時(shí)間序列模型。分析師根據(jù)預(yù)測(cè)問(wèn)題的背景選擇一個(gè)合適的模型。
- Forecast Evaluation:模型評(píng)估。根據(jù)模型對(duì)歷史數(shù)據(jù)進(jìn)行仿真,在模型的參數(shù)不確定的情況下,我們可以進(jìn)行多種嘗試,并根 據(jù)對(duì)應(yīng)的仿真效果評(píng)估哪種模型更適合。
- Surface Problems:呈現(xiàn)問(wèn)題。如果嘗試了多種參數(shù)后,模型的整體表現(xiàn)依然不理想,這個(gè)時(shí)候可以將誤差較大的潛在原因呈現(xiàn)給分析師。
- Visually Inspect Forecasts:以可視化的方式反饋整個(gè)預(yù)測(cè)結(jié)果。當(dāng)問(wèn)題反饋給分析師后,分析師考慮是否進(jìn)一步調(diào)整和構(gòu)建模型。
3.Prophet優(yōu)點(diǎn)
- 準(zhǔn)確,快速,擬合非???,可以進(jìn)行交互式探索
- 全自動(dòng),無(wú)需人工操作就能對(duì)混亂的數(shù)據(jù)做出合理的預(yù)測(cè)
- 可調(diào)整的預(yù)測(cè),預(yù)測(cè)模型的參數(shù)非常容易解釋?zhuān)梢杂脴I(yè)務(wù)知識(shí)改進(jìn)或調(diào)整預(yù)測(cè)
- 對(duì)缺失值和變化劇烈的時(shí)間序列和離散值能做很好有很好的魯棒性,不需要填補(bǔ)缺失值;
import matplotlib.pyplot as plt
df.shape
(260640, 10)
df=df.sample(n=10000)
def prophet_forecaster(data, x, y, period=100): new_df = pd.DataFrame(columns=['ds', 'y']) new_df['ds']= data[x] new_df['y'] = data[y] model = Prophet() model.fit(new_df) future_dates = model.make_future_dataframe(periods=period) forecast = model.predict(future_dates) model.plot(forecast) plt.title(f"Forecasting on the next {period} days for {y}")
prophet_forecaster(df, x='Date', y='Global_active_power', period=100)
prophet_forecaster(df, x='Date', y='Voltage', period=100)
INFO:prophet:Disabling yearly seasonality. Run prophet with yearly_seasonality=True to override this. INFO:prophet:Disabling daily seasonality. Run prophet with daily_seasonality=True to override this.
以上就是kaggle數(shù)據(jù)分析家庭電力消耗過(guò)程詳解的詳細(xì)內(nèi)容,更多關(guān)于kaggle數(shù)據(jù)分析電力消耗的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
簡(jiǎn)單的Python人臉識(shí)別系統(tǒng)
這篇文章主要介紹了Python人臉識(shí)別系統(tǒng)的實(shí)現(xiàn),文中講解非常詳細(xì),代碼幫助大家更好的理解和學(xué)習(xí),感興趣的朋友可以了解下2020-07-07淺談Python Opencv中g(shù)amma變換的使用詳解
下面小編就為大家分享一篇淺談Python Opencv中g(shù)amma變換的使用詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-04-04python實(shí)現(xiàn)協(xié)同過(guò)濾推薦算法完整代碼示例
這篇文章主要介紹了python實(shí)現(xiàn)協(xié)同過(guò)濾推薦算法完整代碼示例,具有一定借鑒價(jià)值,需要的朋友可以參考下。2017-12-12python 基于opencv實(shí)現(xiàn)高斯平滑
這篇文章主要介紹了python 基于opencv實(shí)現(xiàn)高斯平滑,幫助大家更好的理解和使用python處理圖片,感興趣的朋友可以了解下2020-12-12python回溯算法實(shí)現(xiàn)全排列小練習(xí)分享
這篇文章主要給大家分享的是python回溯算法實(shí)現(xiàn)全排列小練習(xí),文章根據(jù)例子:輸入列表L(不含重復(fù)元素),輸出L的全排列展開(kāi)學(xué)習(xí),需要的小伙伴可以參考一下2022-02-02基于python的selenium全網(wǎng)最新超詳細(xì)教程
這篇文章主要介紹了基于python的selenium全網(wǎng)最新超詳細(xì)教程,本文內(nèi)容比較長(zhǎng),結(jié)合實(shí)例代碼給大家講解的非常詳細(xì),需要的朋友可以參考下2023-12-12利用pandas將numpy數(shù)組導(dǎo)出生成excel的實(shí)例
今天小編就為大家分享一篇利用pandas將numpy數(shù)組導(dǎo)出生成excel的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-06-06