pandas數(shù)據(jù)集的端到端處理

更新時(shí)間：2019年02月18日 16:16:41 作者：Inside_Zhang

今天小編就為大家分享一篇關(guān)于pandas數(shù)據(jù)集的端到端處理，小編覺得內(nèi)容挺不錯(cuò)的，現(xiàn)在分享給大家，具有很好的參考價(jià)值，需要的朋友一起跟隨小編來看看吧

1. 數(shù)據(jù)集基本信息

df = pd.read_csv()

df.head()：前五行；

df.info()：

rangeindex：行索引；
data columns：列索引；
dtypes：各個(gè)列的類型，
主體部分是各個(gè)列值的情況，比如可判斷是否存在 NaN 值；

對(duì)于非數(shù)值型的屬性列

df[‘some_categorical_columns'].value_counts()：取值分布；

df.describe()：各個(gè)列的基本統(tǒng)計(jì)信息

count
mean
std
min/max
25%, 50%, 75%：分位數(shù)

df.hist(bins=50, figsize=(20, 15))：統(tǒng)計(jì)直方圖；

對(duì) df 的每一列進(jìn)行展示：

train_prices = pd.DataFrame({'price': train_df.SalePrice, 
    'log(price+1)': np.log1p(train_df.SalePrice)})
 # train_prices 共兩列，一列列名為 price，一列列名為 log(price+1)
train_prices.hist()

2. 數(shù)據(jù)集拆分

def split_train_test(data, test_ratio=.3):
 shuffled_indices = np.random.permutation(len(data))
 test_size = int(len(data)*test_ratio)
 test_indices = shuffled_indices[:test_size]
 train_indices = shuffled_indices[test_size:]
 return data.iloc[train_indices], data.iloc[test_indices]

3. 數(shù)據(jù)預(yù)處理

一鍵把 categorical 型特征（字符串類型）轉(zhuǎn)化為數(shù)值型：

>> df['label'] = pd.Categorical(df['label']).codes

一鍵把 categorical 型特征（字符串類型）轉(zhuǎn)化為 one-hot 編碼：

>> df = pd.get_dummies(df)

null 值統(tǒng)計(jì)與填充：

>> df.isnull().sum().sort_values(ascending=False).head()
# 填充為 mean 值
>> mean_cols = df.mean()
>> df = df.fillna(mean_cols)
>> df.isnull().sum().sum()
0

總結(jié)

以上就是這篇文章的全部?jī)?nèi)容了，希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，謝謝大家對(duì)腳本之家的支持。如果你想了解更多相關(guān)內(nèi)容請(qǐng)查看下面相關(guān)鏈接

您可能感興趣的文章:

相關(guān)文章

基于ID3決策樹算法的實(shí)現(xiàn)(Python版)
下面小編就為大家?guī)硪黄贗D3決策樹算法的實(shí)現(xiàn)(Python版)。小編覺得挺不錯(cuò)的，現(xiàn)在就分享給大家，也給大家做個(gè)參考。一起跟隨小編過來看看吧
2017-05-05
Python利用matplotlib繪制圓環(huán)圖(環(huán)形圖)的實(shí)戰(zhàn)案例
環(huán)形圖也被稱為圓環(huán)圖,它在功能上與餅圖相同,只是中間有一個(gè)空白,并且能夠同時(shí)支持多個(gè)統(tǒng)計(jì)數(shù)據(jù),下面這篇文章主要給大家介紹了關(guān)于Python利用matplotlib繪制圓環(huán)圖的實(shí)戰(zhàn)案例,文中通過實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下
2022-08-08
Python super( )函數(shù)用法總結(jié)
今天給大家?guī)淼闹R(shí)是關(guān)于Python的相關(guān)知識(shí),文章圍繞著super( )函數(shù)展開,文中有非常詳細(xì)的介紹及代碼示例,需要的朋友可以參考下
2021-06-06
對(duì)dataframe進(jìn)行列相加,行相加的實(shí)例
今天小編就為大家分享一篇對(duì)dataframe進(jìn)行列相加,行相加的實(shí)例，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
2018-06-06
Python爬取你好李煥英豆瓣短評(píng)生成詞云的示例代碼
這篇文章主要介紹了Python爬取你好李煥英豆瓣短評(píng)生成詞云,本文給大家介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值，需要的朋友可以參考下
2021-02-02
python中nan與inf轉(zhuǎn)為特定數(shù)字方法示例
這篇文章主要給大家介紹了將python中nan與inf轉(zhuǎn)為特定數(shù)字的方法，文中給出了詳細(xì)的示例代碼和運(yùn)行結(jié)果，對(duì)大家的理解和學(xué)習(xí)具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面來一起看看吧。
2017-05-05
python 第三方庫(kù)的安裝及pip的使用詳解
下面小編就為大家?guī)硪黄猵ython 第三方庫(kù)的安裝及pip的使用詳解。小編覺得挺不錯(cuò)的，現(xiàn)在就分享給大家，也給大家做個(gè)參考。一起跟隨小編過來看看吧
2017-05-05
人工智能學(xué)習(xí)pyTorch自建數(shù)據(jù)集及可視化結(jié)果實(shí)現(xiàn)過程
這篇文章主要為大家介紹了人工智能學(xué)習(xí)pyTorch自建數(shù)據(jù)集及可視化結(jié)果的實(shí)現(xiàn)過程，有需要的朋友可以借鑒參考下，希望能夠有所幫助
2021-11-11
Python中三元運(yùn)算符的簡(jiǎn)潔性及多用途實(shí)例探究
這篇文章主要為大家介紹了Python中三元運(yùn)算符的簡(jiǎn)潔性及多用途實(shí)例探究,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
2024-01-01
閉包在python中的應(yīng)用之translate和maketrans用法詳解
這篇文章主要介紹了閉包在python中的應(yīng)用之translate和maketrans用法,是比較實(shí)用的技巧,需要的朋友可以參考下
2014-08-08