亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

pandas數據清洗,排序,索引設置,數據選取方法

 更新時間:2018年05月18日 15:19:33   作者:李困困  
下面小編就為大家分享一篇pandas數據清洗,排序,索引設置,數據選取方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧

此教程適合有pandas基礎的童鞋來看,很多知識點會一筆帶過,不做詳細解釋

Pandas數據格式

Series

DataFrame:每個column就是一個Series

基礎屬性shape,index,columns,values,dtypes,describe(),head(),tail()

統(tǒng)計屬性Series: count(),value_counts(),前者是統(tǒng)計總數,后者統(tǒng)計各自value的總數

df.isnull() df的空值為True

df.notnull() df的非空值為True

修改列名

df.rename(columns = {'key':'key2'},inplace=True)

更改數據格式astype()

isin     #計算一個“Series各值是否包含傳入的值序列中”的布爾數組
unique    #返回唯一值的數組
value_counts   #返回一個Series,其索引為唯一值,值為頻率,按計數降序排列

數據清洗

丟棄值drop()

df.drop(labels, axis=1)# 按列(axis=1),丟棄指定label的列,默認按行。。。

丟棄缺失值dropna()

# 默認axi=0(行);1(列),how=‘any'
df.dropna()#每行只要有空值,就將這行刪除
df.dropna(axis=1)#每列只要有空值,整列丟棄
df.dropna(how='all')# 一行中全部為NaN的,才丟棄該行
df.dropna(thresh=3)# 每行至少3個非空值才保留

缺失值填充fillna()

df.fillna(0)
df.fillna({1:0,2:0.5}) #對第一列nan值賦0,第二列賦值0.5
df.fillna(method='ffill') #在列方向上以前一個值作為值賦給NaN

值替換replace()

# 將df的A列中 -999 全部替換成空值
df['A'].replace(-999, np.nan)
#-999和1000 均替換成空值
obj.replace([-999,1000], np.nan)
# -999替換成空值,1000替換成0
obj.replace([-999,1000], [np.nan, 0])
# 同上,寫法不同,更清晰
obj.replace({-999:np.nan, 1000:0})

重復值處理duplicated(),unique(),drop_duplictad()

df.duplicated()#兩行每列完全一樣才算重復,后面重復的為True,第一個和不重復的為false,返回true
    #和false組成的Series類型
df.duplicated('key')#兩行key這一列一樣就算重復

df['A'].unique()# 返回唯一值的數組(類型為array)

df.drop_duplicates(['k1'])# 保留k1列中的唯一值的行,默認保留第一行
df.drop_duplicates(['k1','k2'], take_last=True)# 保留 k1和k2 組合的唯一值的行,take_last=True 保留最后一行

排序

索引排序

# 默認axis=0,按行索引對行進行排序;ascending=True,升序排序
df.sort_index()
# 按列名對列進行排序,ascending=False 降序
df.sort_index(axis=1, ascending=False) 

值排序

# 按值對Series進行排序,使用order(),默認空值會置于尾部
s = pd.Series([4, 6, np.nan, 2, np.nan])
s.order()

df.sort_values(by=['a','b'])#按列進行排序

排名

a=Series([7,-5,7,4,2,0,4])
a.rank()#默認method='average',升序排名(ascending=True),按行(axis=0)
#average 值相等時,取排名的平均值
#min 值相等時,取排名最小值
#max 值相等時,取排名最大值
#first值相等時,按原始數據出現(xiàn)順序排名

索引設置

reindex()

更新index或者columns,

默認:更新index,返回一個新的DataFrame

# 返回一個新的DataFrame,更新index,原來的index會被替代消失
# 如果dataframe中某個索引值不存在,會自動補上NaN
df2 = df1.reindex(['a','b','c','d','e'])

# fill_valuse為原先不存在的索引補上默認值,不在是NaN
df2 = df1.reindex(['a','b','c','d','e'], fill_value=0)

# inplace=Ture,在DataFrame上修改數據,而不是返回一個新的DataFrame
df1.reindex(['a','b','c','d','e'], inplace=Ture)

# reindex不僅可以修改 索引(行),也可以修改列
states = ["Texas","Utah","California"]
df2 = df1.reindex( columns=states )

set_index()

將DataFrame中的列columns設置成索引index

打造層次化索引的方法

# 將columns中的其中兩列:race和sex的值設置索引,race為一級,sex為二級
# inplace=True 在原數據集上修改的
adult.set_index(['race','sex'], inplace = True) 

# 默認情況下,設置成索引的列會從DataFrame中移除
# drop=False將其保留下來
adult.set_index(['race','sex'], inplace = True) 

reset_index()

將使用set_index()打造的層次化逆向操作

既是取消層次化索引,將索引變回列,并補上最常規(guī)的數字索引

df.reset_index()

數據選取

[]

只能對行進 行(row/index) 切片,前閉后開df[0:3],df[:4],df[4:]

where 布爾查找

df[df["A"]>7]

isin

# 返回布爾值
s.isin([1,2,3])
df['A'].isin([1,2,3])
df.loc[df['A'].isin([5.8,5.1])]選取列A中值為5.8,5.1的所有行組成dataframe

query

多個where整合切片,&:于,|:或 

df.query(" A>5.0 & (B>3.5 | C<1.0) ") 

loc :根據名稱Label切片

# df.loc[A,B] A是行范圍,B是列范圍
df.loc[1:4,['petal_length','petal_width']]

# 需求1:創(chuàng)建一個新的變量 test
# 如果sepal_length > 3 test = 1 否則 test = 0
df.loc[df['sepal_length'] > 6, 'test'] = 1
df.loc[df['sepal_length'] <=6, 'test'] = 0

# 需求2:創(chuàng)建一個新變量test2 
# 1.petal_length>2 and petal_width>0.3 = 1 
# 2.sepeal_length>6 and sepal_width>3 = 2 3.其他 = 0
df['test2'] = 0
df.loc[(df['petal_length']>2)&(df['petal_width']>0.3), 'test2'] = 1
df.loc[(df['sepal_length']>6)&(df['sepal_width']>3), 'test2'] = 2

iloc:切位置

df.iloc[1:4,:]

ix:混切

名稱和位置混切,但效率低,少用

df1.ix[0:3,['sepal_length','petal_width']]

map與lambda

alist = [1,2,3,4]
map(lambda s : s+1, alist)#map就是將自定義函數應用于Series每個元素

df['sepal_length'].map(lambda s:s*2+1)[0:3]

apply和applymap

apply和applymap是對dataframe的操作,前者操作一行或者一列,后者操作每個元素

These are techniques to apply function to element, column or dataframe.

Map: It iterates over each element of a series. 
df[‘column1'].map(lambda x: 10+x), this will add 10 to each element of column1.
df[‘column2'].map(lambda x: ‘AV'+x), this will concatenate “AV“ at the beginning of each element of column2 (column format is string).

Apply: As the name suggests, applies a function along any axis of the DataFrame.
df[[‘column1','column2']].apply(sum), it will returns the sum of all the values of column1 and column2.
df0[['data1']].apply(lambda s:s+1)

ApplyMap: 對dataframe的每一個元素施加一個函數
func = lambda x: x+2
df.applymap(func), dataframe每個元素加2 (所有列必須數字類型)

contains

# 使用DataFrame模糊篩選數據(類似SQL中的LIKE)
# 使用正則表達式進行模糊匹配,*匹配0或無限次,?匹配0或1次
df_obj[df_obj['套餐'].str.contains(r'.*?語音CDMA.*')] 

# 下面兩句效果一致
df[df['商品名稱'].str.contains("四件套")]
df[df['商品名稱'].str.contains(r".*四件套.*")]

以上這篇pandas數據清洗,排序,索引設置,數據選取方法就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持腳本之家。

相關文章

  • python微信公眾號開發(fā)簡單流程

    python微信公眾號開發(fā)簡單流程

    這篇文章主要介紹了python微信公眾號開發(fā)的相關資料,分步驟為大家分享python微信公眾號開發(fā),具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2018-03-03
  • Python實現(xiàn)建立SSH連接的方法

    Python實現(xiàn)建立SSH連接的方法

    這篇文章主要介紹了Python實現(xiàn)建立SSH連接的方法,涉及pycrypto和paramiko兩個模塊的相關使用技巧,需要的朋友可以參考下
    2015-06-06
  • pyecharts如何使用formatter回調函數的問題

    pyecharts如何使用formatter回調函數的問題

    這篇文章主要介紹了pyecharts如何使用formatter回調函數的問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2023-08-08
  • Python實現(xiàn)分數序列求和

    Python實現(xiàn)分數序列求和

    今天小編就為大家分享一篇Python實現(xiàn)分數序列求和,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-02-02
  • python網絡編程之多線程同時接受和發(fā)送

    python網絡編程之多線程同時接受和發(fā)送

    這篇文章主要為大家詳細介紹了python網絡編程之多線程同時接受和發(fā)送,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2019-09-09
  • 解決pycharm導入本地py文件時,模塊下方出現(xiàn)紅色波浪線的問題

    解決pycharm導入本地py文件時,模塊下方出現(xiàn)紅色波浪線的問題

    這篇文章主要介紹了解決pycharm導入本地py文件時,模塊下方出現(xiàn)紅色波浪線的問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-06-06
  • python 合并文件的具體實例

    python 合并文件的具體實例

    提供了很多個文件,需要對文件分析,如果每次讀取多個文件,造成很多麻煩,所以需要對源文件進行合并預處理。
    2013-08-08
  • 簡介Python中用于處理字符串的center()方法

    簡介Python中用于處理字符串的center()方法

    這篇文章主要介紹了簡介Python中用于處理字符串的center()方法,是Python入門中的基礎知識,需要的朋友可以參考下
    2015-05-05
  • python中global與nonlocal比較

    python中global與nonlocal比較

    這篇文章主要介紹了python中global與nonlocal比較,global關鍵字用來在函數或其他局部作用域中使用全局變量,nonlocal關鍵字用來在函數或其他作用域中使用外層(非全局)變量,需要的朋友可以參考下
    2014-11-11
  • Python并發(fā)編程之IO模型

    Python并發(fā)編程之IO模型

    本文詳細講解了Python并發(fā)編程之IO模型,文中通過示例代碼介紹的非常詳細。對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2022-06-06

最新評論