python數(shù)據(jù)預(yù)處理之將類別數(shù)據(jù)轉(zhuǎn)換為數(shù)值的方法
在進(jìn)行python數(shù)據(jù)分析的時(shí)候,首先要進(jìn)行數(shù)據(jù)預(yù)處理。
有時(shí)候不得不處理一些非數(shù)值類別的數(shù)據(jù),嗯, 今天要說的就是面對(duì)這些數(shù)據(jù)該如何處理。
目前了解到的大概有三種方法:
1,通過LabelEncoder來進(jìn)行快速的轉(zhuǎn)換;
2,通過mapping方式,將類別映射為數(shù)值。不過這種方法適用范圍有限;
3,通過get_dummies方法來轉(zhuǎn)換。
import pandas as pd from io import StringIO csv_data = '''A,B,C,D 1,2,3,4 5,6,,8 0,11,12,''' df = pd.read_csv(StringIO(csv_data)) print(df) #統(tǒng)計(jì)為空的數(shù)目 print(df.isnull().sum()) print(df.values) #丟棄空的 print(df.dropna()) print('after', df) from sklearn.preprocessing import Imputer # axis=0 列 axis = 1 行 imr = Imputer(missing_values='NaN', strategy='mean', axis=0) imr.fit(df) # fit 構(gòu)建得到數(shù)據(jù) imputed_data = imr.transform(df.values) #transform 將數(shù)據(jù)進(jìn)行填充 print(imputed_data) df = pd.DataFrame([['green', 'M', 10.1, 'class1'], ['red', 'L', 13.5, 'class2'], ['blue', 'XL', 15.3, 'class1']]) df.columns =['color', 'size', 'price', 'classlabel'] print(df) size_mapping = {'XL':3, 'L':2, 'M':1} df['size'] = df['size'].map(size_mapping) print(df) ## 遍歷Series for idx, label in enumerate(df['classlabel']): print(idx, label) #1, 利用LabelEncoder類快速編碼,但此時(shí)對(duì)color并不適合, #看起來,好像是有大小的 from sklearn.preprocessing import LabelEncoder class_le = LabelEncoder() color_le = LabelEncoder() df['classlabel'] = class_le.fit_transform(df['classlabel'].values) #df['color'] = color_le.fit_transform(df['color'].values) print(df) #2, 映射字典將類標(biāo)轉(zhuǎn)換為整數(shù) import numpy as np class_mapping = {label: idx for idx, label in enumerate(np.unique(df['classlabel']))} df['classlabel'] = df['classlabel'].map(class_mapping) print('2,', df) #3,處理1不適用的 #利用創(chuàng)建一個(gè)新的虛擬特征 from sklearn.preprocessing import OneHotEncoder pf = pd.get_dummies(df[['color']]) df = pd.concat([df, pf], axis=1) df.drop(['color'], axis=1, inplace=True) print(df)
以上這篇python數(shù)據(jù)預(yù)處理之將類別數(shù)據(jù)轉(zhuǎn)換為數(shù)值的方法就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
- Python多進(jìn)程模式實(shí)現(xiàn)多核CPU并行計(jì)算
- python multiprocessing 多進(jìn)程并行計(jì)算的操作
- Python基于pyCUDA實(shí)現(xiàn)GPU加速并行計(jì)算功能入門教程
- Python 多核并行計(jì)算的示例代碼
- python數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)標(biāo)準(zhǔn)化的幾種處理方式
- python實(shí)現(xiàn)數(shù)據(jù)預(yù)處理之填充缺失值的示例
- Python數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)規(guī)范化(歸一化)示例
- Python----數(shù)據(jù)預(yù)處理代碼實(shí)例
- python數(shù)據(jù)預(yù)處理 :樣本分布不均的解決(過采樣和欠采樣)
- python 刪除excel表格重復(fù)行,數(shù)據(jù)預(yù)處理操作
- Python Joblib庫(kù)使用方法案例總結(jié)
相關(guān)文章
利用PyInstaller將python程序.py轉(zhuǎn)為.exe的方法詳解
這篇文章主要給大家介紹了利用PyInstaller將python程序.py轉(zhuǎn)為.exe的方法,文中介紹的非常詳細(xì),對(duì)大家具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面來一起看看吧。2017-05-05numpy 對(duì)矩陣中Nan的處理:采用平均值的方法
今天小編就為大家分享一篇numpy 對(duì)矩陣中Nan的處理:采用平均值的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-10-10Python將list元素轉(zhuǎn)存為CSV文件的實(shí)現(xiàn)
這篇文章主要介紹了Python將list元素轉(zhuǎn)存為CSV文件的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-11-11python 類的繼承 實(shí)例方法.靜態(tài)方法.類方法的代碼解析
這篇文章主要介紹了python 類的繼承 實(shí)例方法.靜態(tài)方法.類方法的代碼解析,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-08-08python 利用matplotlib在3D空間繪制二次拋物面的案例
這篇文章主要介紹了python 利用matplotlib在3D空間繪制二次拋物面的案例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2021-02-02Python設(shè)置Word頁面紙張方向?yàn)闄M向
這篇文章主要為大家詳細(xì)介紹了Python設(shè)置Word頁面紙張方向?yàn)闄M向的相關(guān)知識(shí),文中的示例代碼講解詳細(xì),感興趣的小伙伴可以跟隨小編一起2024-02-02