亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

30?個?Python?函數(shù),加速數(shù)據(jù)分析處理速度

 更新時間:2021年12月26日 08:52:55   作者:遲業(yè)  
這篇文章主要介紹了30?個?Python?函數(shù),加速數(shù)據(jù)分析處理速度,Pandas?是?Python?中最廣泛使用的數(shù)據(jù)分析和操作庫。它提供了許多功能和方法,可以加快數(shù)據(jù)分析和預處理步驟,下面我們就一起來看看這些方法吧,需要的小伙伴可以參考一下,希望給你帶來幫助

前言:

Pandas Python 中最廣泛使用的數(shù)據(jù)分析和操作庫。它提供了許多功能和方法,可以加快 「數(shù)據(jù)分析」 和 「預處理」 步驟。

為了更好的學習 Python,我將以客戶流失數(shù)據(jù)集為例,分享 「30」 個在數(shù)據(jù)分析過程中最常使用的函數(shù)和方法。

數(shù)據(jù)如下所示:

import numpy as np
import pandas as pd
df = pd.read_csv("Churn_Modelling.csv")
print(df.shape)
df.columns


結(jié)果輸出:

(10000, 14)
Index(['RowNumber', 'CustomerId', 'Surname', 'CreditScore', 'Geography','Gender', 'Age', 'Tenure', 'Balance', 'NumOfProducts', 'HasCrCard','IsActiveMember', 'EstimatedSalary', 'Exited'],dtype='object')

1.刪除列

df.drop(['RowNumber', 'CustomerId', 'Surname', 'CreditScore'], axis=1, inplace=True)
print(df[:2])
print(df.shape)


結(jié)果輸出:

? Geography? Gender? Age? Tenure? Balance? NumOfProducts? HasCrCard?
0??? France? Female?? 42?????? 2????? 0.0????????????? 1????????? 1??

?? IsActiveMember? EstimatedSalary? Exited?
0?????????????? 1??????? 101348.88?????? 1?
(10000, 10)

說明:「axis」 參數(shù)設置為 1 以放置列,0 設置為行。「inplace=True」 參數(shù)設置為 True 以保存更改。我們減了 4 列,因此列數(shù)從 14 個減少到 10 列。

2.選擇特定列

我們從 csv 文件中讀取部分列數(shù)據(jù)。可以使用 usecols 參數(shù)。

df_spec = pd.read_csv("Churn_Modelling.csv", usecols=['Gender', 'Age', 'Tenure', 'Balance'])
df_spec.head()


3.nrows

可以使用 nrows 參數(shù),創(chuàng)建了一個包含 csv 文件前 5000 行的數(shù)據(jù)幀。還可以使用 skiprows 參數(shù)從文件末尾選擇行。Skiprows=5000 表示我們將在讀取 csv 文件時跳過前 5000 行。

df_partial = pd.read_csv("Churn_Modelling.csv", nrows=5000)
print(df_partial.shape)


4.樣品

創(chuàng)建數(shù)據(jù)框后,我們可能需要一個小樣本來測試數(shù)據(jù)。我們可以使用 nfrac 參數(shù)來確定樣本大小。

df= pd.read_csv("Churn_Modelling.csv", usecols=['Gender', 'Age', 'Tenure', 'Balance'])
df_sample = df.sample(n=1000)
df_sample2 = df.sample(frac=0.1)


5.檢查缺失值

isna 函數(shù)確定數(shù)據(jù)幀中缺失的值。通過將 isna sum 函數(shù)一起使用,我們可以看到每列中缺失值的數(shù)量。

df.isna().sum()


6.使用 loc 和 iloc 添加缺失值

使用 loc 和 iloc 添加缺失值,兩者區(qū)別如下:

  • loc:選擇帶標簽
  • iloc:選擇索引

我們首先創(chuàng)建 20 個隨機索引進行選擇

missing_index = np.random.randint(10000, size=20)


我們將使用 loc 將某些值更改為 np.nan(缺失值)。

df.loc[missing_index, ['Balance','Geography']] = np.nan


"Balance"和"Geography"列中缺少 20 個值。讓我們用 iloc 做另一個示例。

df.iloc[missing_index, -1] = np.nan


7.填充缺失值

fillna 函數(shù)用于填充缺失的值。它提供了許多選項。我們可以使用特定值、聚合函數(shù)(例如均值)或上一個或下一個值。

avg = df['Balance'].mean()
df['Balance'].fillna(value=avg, inplace=True)


fillna 函數(shù)的方法參數(shù)可用于根據(jù)列中的上一個或下一個值(例如方法="ffill")填充缺失值。它可以對順序數(shù)據(jù)(例如時間序列)非常有用。

8.刪除缺失值

處理缺失值的另一個方法是刪除它們。以下代碼將刪除具有任何缺失值的行。

df.dropna(axis=0, how='any', inplace=True)


9.根據(jù)條件選擇行

在某些情況下,我們需要適合某些條件的觀測值(即行)

france_churn = df[(df.Geography == 'France') & (df.Exited == 1)]
france_churn.Geography.value_counts()


10.用查詢描述條件

查詢函數(shù)提供了一種更靈活的傳遞條件的方法。我們可以用字符串來描述它們。

df2 = df.query('80000 < Balance < 100000')
# 讓我們通過繪制平衡列的直方圖來確認結(jié)果。
df2['Balance'].plot(kind='hist', figsize=(8,5))


11.用 isin 描述條件

條件可能有多個值。在這種情況下,最好使用 isin 方法,而不是單獨編寫值。

df[df['Tenure'].isin([4,6,9,10])][:3]


12.Groupby 函數(shù)

Pandas Groupby 函數(shù)是一個多功能且易于使用的功能,可幫助獲取數(shù)據(jù)概述。它使瀏覽數(shù)據(jù)集和揭示變量之間的基本關系更加容易。

我們將做幾個組比函數(shù)的示例。讓我們從簡單的開始。以下代碼將基于 Geography、Gender 組合對行進行分組,然后給出每個組的平均流失率。

df[['Geography','Gender','Exited']].groupby(['Geography','Gender']).mean()


13.Groupby與聚合函數(shù)結(jié)合

agg 函數(shù)允許在組上應用多個聚合函數(shù),函數(shù)的列表作為參數(shù)傳遞。

df[['Geography','Gender','Exited']].groupby(['Geography','Gender']).agg(['mean','count'])


14.對不同的群體應用不同的聚合函數(shù)

df_summary = df[['Geography','Exited','Balance']].groupby('Geography').agg({'Exited':'sum', 'Balance':'mean'})
df_summary.rename(columns={'Exited':'# of churned customers', 'Balance':'Average Balance of Customers'},inplace=True)


此外,「NamedAgg 函數(shù)」允許重命名聚合中的列

import pandas as pd
df_summary = df[['Geography','Exited','Balance']].groupby('Geography').agg(Number_of_churned_customers = pd.NamedAgg('Exited', 'sum'),Average_balance_of_customers = pd.NamedAgg('Balance', 'mean'))
print(df_summary)


15.重置索引

您是否已經(jīng)注意到上圖的數(shù)據(jù)格式了。我們可以通過重置索引來更改它。

print(df_summary.reset_index())


圖片

16.重置并刪除原索引

在某些情況下,我們需要重置索引并同時刪除原始索引。

df[['Geography','Exited','Balance']].sample(n=6).reset_index(drop=True)


17.將特定列設置為索引

我們可以將數(shù)據(jù)幀中的任何列設置為索引。

df_new.set_index('Geography')


18.插入新列

group = np.random.randint(10, size=6)
df_new['Group'] = group


19.where 函數(shù)

它用于根據(jù)條件替換行或列中的值。默認替換值為 NaN,但我們也可以指定要作為替換值。

df_new['Balance'] = df_new['Balance'].where(df_new['Group'] >= 6, 0)


20.等級函數(shù)

等級函數(shù)為值分配一個排名。讓我們創(chuàng)建一個列,根據(jù)客戶的余額對客戶進行排名。

df_new['rank'] = df_new['Balance'].rank(method='first', ascending=False).astype('int')


21.列中的唯一值數(shù)

它使用分類變量時派上用場。我們可能需要檢查唯一類別的數(shù)量。我們可以檢查值計數(shù)函數(shù)返回的序列的大小或使用 nunique 函數(shù)。

df.Geography.nunique


22.內(nèi)存使用情況

使用函數(shù) memory_usage,這些值顯示以字節(jié)為單位的內(nèi)存.

df.memory_usage()


23.數(shù)據(jù)類型轉(zhuǎn)換

默認情況下,分類數(shù)據(jù)與對象數(shù)據(jù)類型一起存儲。但是,它可能會導致不必要的內(nèi)存使用,尤其是當分類變量具有較低的基數(shù)。

低基數(shù)意味著列與行數(shù)相比幾乎沒有唯一值。例如,地理列具有 3 個唯一值和 10000 行。

我們可以通過將其數(shù)據(jù)類型更改為"類別"來節(jié)省內(nèi)存。

df['Geography'] = df['Geography'].astype('category')


24.替換值

替換函數(shù)可用于替換數(shù)據(jù)幀中的值。

df['Geography'].replace({0:'B1',1:'B2'})


25.繪制直方圖

pandas 不是一個數(shù)據(jù)可視化庫,但它使得創(chuàng)建基本繪圖變得非常簡單。

我發(fā)現(xiàn)使用 Pandas 創(chuàng)建基本繪圖更容易,而不是使用其他數(shù)據(jù)可視化庫。

讓我們創(chuàng)建平衡列的直方圖。

26.減少浮點數(shù)小數(shù)點

pandas 可能會為浮點數(shù)顯示過多的小數(shù)點。我們可以輕松地調(diào)整它。

df['Balance'].plot(kind='hist', figsize=(10,6), 
title='Customer Balance')


27.更改顯示選項

我們可以更改各種參數(shù)的默認顯示選項,而不是每次手動調(diào)整顯示選項。

  • get_option:返回當前選項
  • set_option:更改選項 讓我們將小數(shù)點的顯示選項更改為 2。
pd.set_option("display.precision", 2)


可能要更改的一些其他選項包括:

  • max_colwidth:列中顯示的最大字符數(shù)
  • max_columns:要顯示的最大列數(shù)
  • max_rows:要顯示的最大行數(shù)

28.通過列計算百分比變化

pct_change用于計算序列中值的變化百分比。在計算時間序列或元素順序數(shù)組中更改的百分比時,它很有用。

ser= pd.Series([2,4,5,6,72,4,6,72])
ser.pct_change()


29.基于字符串的篩選

我們可能需要根據(jù)文本數(shù)據(jù)(如客戶名稱)篩選觀測值(行)。我已經(jīng)在數(shù)據(jù)幀中添加了df_new名稱。

df_new[df_new.Names.str.startswith('Mi')]


30.設置數(shù)據(jù)幀樣式

我們可以通過使用返回 Style 對象的 Style 屬性來實現(xiàn)此目的,它提供了許多用于格式化和顯示數(shù)據(jù)框的選項。例如,我們可以突出顯示最小值或最大值。

它還允許應用自定義樣式函數(shù)。

df_new.style.highlight_max(axis=0, color='darkgreen')


到此這篇關于30 個 Python 函數(shù),加速數(shù)據(jù)分析處理速度的文章就介紹到這了,更多相關Python 函數(shù),加速數(shù)據(jù)分析處理速度內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

相關文章

  • Python中的裝飾器用法詳解

    Python中的裝飾器用法詳解

    這篇文章主要介紹了Python中的裝飾器用法,以實例形式詳細的分析了Python中的裝飾器的使用技巧及相關注意事項,具有一定參考借鑒價值,需要的朋友可以參考下
    2015-01-01
  • Django靜態(tài)文件配置request對象方法ORM操作講解

    Django靜態(tài)文件配置request對象方法ORM操作講解

    這篇文章主要為大家介紹了Django靜態(tài)文件配置request對象方法ORM操作,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪
    2022-09-09
  • Python?切片為什么不會索引越界?

    Python?切片為什么不會索引越界?

    這篇文章主要介紹了Python?切片為什么不會索引越界?切片(slice)是?Python?中一種很有特色的特性,在正式開始之前,我們先來從關于切片的相關知識開始介紹,感興趣的小伙伴一起參考參考呀</P><P>
    2021-12-12
  • Python中的進程操作模塊(multiprocess.process)

    Python中的進程操作模塊(multiprocess.process)

    這篇文章介紹了Python中的進程操作模塊(multiprocess.process),文中通過示例代碼介紹的非常詳細。對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2022-05-05
  • Python 跨文件夾導入自定義包的實現(xiàn)

    Python 跨文件夾導入自定義包的實現(xiàn)

    有時我們自己編寫一些模塊時,跨文件夾調(diào)用會出現(xiàn)ModuleNotFoundError: No module named 'XXX',本文就來介紹一下解決方法,感興趣的可以了解一下
    2023-11-11
  • 解決Windows下python和pip命令無法使用的問題

    解決Windows下python和pip命令無法使用的問題

    這篇文章主要介紹了解決Windows下python和pip命令無法使用的問題,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2020-08-08
  • Python中的異常處理相關語句基礎學習筆記

    Python中的異常處理相關語句基礎學習筆記

    這里我們簡單整理一下Python中的異常處理相關語句基礎學習筆記,包括try...except與assert等基本語句的用法講解:
    2016-07-07
  • Python的多態(tài)性實例分析

    Python的多態(tài)性實例分析

    這篇文章主要介紹了Python的多態(tài)性,以實例形式深入淺出的分析了Python在面向?qū)ο缶幊讨卸鄳B(tài)性的原理與實現(xiàn)方法,需要的朋友可以參考下
    2015-07-07
  • python基于tkinter制作無損音樂下載工具(附源碼)

    python基于tkinter制作無損音樂下載工具(附源碼)

    這篇文章主要介紹了python基于tkinter制作無損音樂下載工具(附源碼),幫助大家更好的理解和學習使用python,感興趣的朋友可以了解下
    2021-03-03
  • Python使用signal定時結(jié)束AsyncIOScheduler任務的問題

    Python使用signal定時結(jié)束AsyncIOScheduler任務的問題

    這篇文章主要介紹了Python使用signal定時結(jié)束AsyncIOScheduler任務,在使用aiohttp結(jié)合apscheduler的AsyncIOScheduler模擬定點并發(fā)的時候遇到兩個問題,針對每個問題給大家詳細介紹,需要的朋友可以參考下
    2021-07-07

最新評論