亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

python  dataprep庫簡化加速數(shù)據(jù)科學(xué)操作

 更新時間:2024年01月30日 11:32:57   作者:程序員小寒  
這篇文章主要為大家介紹了python  dataprep庫簡化加速數(shù)據(jù)科學(xué)操作,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪

python  dataprep數(shù)據(jù)科學(xué)庫

今天給大家分享一個超酷的 python 庫,dataprep

https://github.com/sfu-db/dataprept 

Dataprep 是一個開源的 Python 庫,它的主要目標(biāo)是簡化和加快數(shù)據(jù)科學(xué)操作,特別關(guān)注簡化探索性數(shù)據(jù)分析(EDA) 階段

通過利用 DataPrep 的強(qiáng)大功能,數(shù)據(jù)科學(xué)家可以顯著減少執(zhí)行 EDA 任務(wù)所花費的時間。

該庫包含三個主要的API供我們使用,它們是:

  • 從常見數(shù)據(jù)源收集數(shù)據(jù)(dataprep.connector )
  • 進(jìn)行探索性數(shù)據(jù)分析(dataprep.eda)
  • 清理和標(biāo)準(zhǔn)化數(shù)據(jù)(dataprep.clean)

DataPrep 包旨在實現(xiàn)快速數(shù)據(jù)探索,并與 Pandas 的 DataFrame 對象良好配合。

庫的安裝

我們將首先使用 pip 安裝 Dataprep 庫。下面給出的命令將執(zhí)行此操作。

pip install -U dataprep

數(shù)據(jù)準(zhǔn)備

DataPrep 使我們能夠使用一行代碼創(chuàng)建交互式配置文件報告。

該報告對象是一個與我們的 Notebook 分離的 HTML 對象,具有多種探索選擇。

讓我們使用示例數(shù)據(jù)嘗試該 API。

from dataprep.datasets import load_dataset
from dataprep.eda import create_report
df = load_dataset("titanic")
df.head()

我們將使用泰坦尼克號樣本數(shù)據(jù)集作為我們的數(shù)據(jù)。

加載數(shù)據(jù)后,我們將使用 create_report 函數(shù)來生成交互式報告。

create_report(df).show_browser()

正如我們在上面的 GIF 中看到的,API 創(chuàng)建了一個很好的交互式報告供我們探索。

讓我們嘗試一一剖析這些信息。

概述選項卡

從概述選項卡中,我們可以看到數(shù)據(jù)集中的所有概述信息。

我們可以獲得的信息包括缺失數(shù)據(jù)數(shù)量和百分比、重復(fù)數(shù)據(jù)、變量數(shù)據(jù)類型以及每個變量的詳細(xì)信息。

變量選項卡

變量選項卡為我們提供了數(shù)據(jù)集中每個變量的詳細(xì)信息。

幾乎你需要的所有信息都可用,例如,分位數(shù)和描述性統(tǒng)計、分布和正態(tài)性。

交互選項卡

交互選項卡將從兩個數(shù)值變量創(chuàng)建散點圖。

我們可以自己設(shè)置 X 軸和 Y 軸,這使我們能夠控制如何可視化它。

相關(guān)性選項卡

相關(guān)性選項卡為我們提供了數(shù)值之間的統(tǒng)計相關(guān)性。

目前,我們可以使用三種計算:Pearson、Spearman 和 KendallTau

缺失值選項卡

缺失值選項卡為我們提供了有關(guān)選項卡中缺失值的所有詳細(xì)信息。

我們可以選擇條形圖、頻譜、熱圖和樹狀圖來充分探索缺失值信息。

數(shù)據(jù)清理

DataPrep Cleaning API 集合提供了 140 多個 API 來清理和驗證我們的 DataFrame。

讓我們通過泰坦尼克號數(shù)據(jù)集示例嘗試列標(biāo)題清理功能。

from dataprep.clean import clean_headers
clean_headers(df, case = 'const').head()

使用 “ Const ” 大小寫,我們最終會得到所有大寫的列名稱。

如果你想要一個完整干凈的 DataFrame,我們可以使用 DataPrep 中的 clean_df API 。

該 API 將有兩個輸出—推斷的數(shù)據(jù)類型和清理后的 DataFrame。

from dataprep.clean import clean_df
inferred_dtypes, cleaned_df = clean_df(df)

以上就是python dataprep庫簡化加速數(shù)據(jù)科學(xué)操作的詳細(xì)內(nèi)容,更多關(guān)于python dataprep數(shù)據(jù)科學(xué)庫的資料請關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

最新評論