詳解pandas中MultiIndex和對象實(shí)際索引不一致問題
在最新版的pandas中(不知道之前的版本有沒有這個問題),當(dāng)我們對具有多層次索引的對象做切片或者通過df[bool_list]的方式索引的時候,得到的新的對象盡管實(shí)際索引已經(jīng)發(fā)生了改變,但是當(dāng)直接使用df_new.index調(diào)取新對象的MultiIndex對象的時候,這個MultiIndex對象還是和原對象的索引保持一致的,而不是和新對象的實(shí)際索引保持一致。這點(diǎn)需要特別注意,因?yàn)檎G闆r下,我們自然會認(rèn)為df.index的MultiIndex對象和df的實(shí)際索引是一致的,基于此,我們可能會寫出一些難以發(fā)現(xiàn)的bug??梢钥聪旅娴睦?。
import pandas as pd df_t1=pd.DataFrame([[1,2],[2,3],[2,3],[3,5]],index=[['a','a','b','b'],[0,1,0,1]]) df_t1 Out[39]: 0 1 a 0 1 2 1 2 3 b 0 2 3 1 3 5 df_t2=df_t1.loc[[x=='a' for x in df_t1.index.levels[0]]] df_t2 Out[41]: 0 1 a 0 1 2 df_t2.index #從上面df_t2對象的輸出結(jié)果和下面index的輸出結(jié)果可以發(fā)現(xiàn),df_t2的index和其實(shí)際的索引并不一致 Out[42]: MultiIndex(levels=[['a', 'b'], [0, 1]], codes=[[0], [0]]) df_t3=df_t1.iloc[:2,:] df_t3 Out[46]: 0 1 a 0 1 2 1 2 3 df_t3.index #從上面df_t3對象的輸出結(jié)果和下面index的輸出結(jié)果可以發(fā)現(xiàn),df_t3的index和其實(shí)際的索引也不一致 Out[47]: MultiIndex(levels=[['a', 'b'], [0, 1]], codes=[[0, 0], [0, 1]])
從上面的例子可以看出,當(dāng)通過bool索引和切片索引時,就會出現(xiàn)這種問題,其他的索引方式一般不會出現(xiàn)這種問題。當(dāng)遇到這種問題時,如果我們需要始終保持新對象的index得到的對象和實(shí)際索引一致,該如何做呢?請看下面代碼
df_t2.index.remove_unused_levels() Out[62]: MultiIndex(levels=[['a'], [0]], codes=[[0], [0]]) df_t2.index=df_t2.index.remove_unused_levels() df_t2.index Out[75]: MultiIndex(levels=[['a'], [0]], codes=[[0], [0]]) df_t2 Out[76]: 0 1 a 0 1 2
可以看到,MultiIndex對象有一個remove_unused_levels()函數(shù),其作用是把沒有被使用的索引被去處掉,這樣就可以使得對象的MultiIndex對象和其實(shí)際顯示出來的索引保持一致了。故其實(shí)在遇到多層次索引的切片索引或者bool索引之后,加上一條df.index.remove_unused_levels()語句不失為一個好的習(xí)慣,或者至少得有這種意識,意識到此處可能會出現(xiàn)這種問題。
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
python多進(jìn)程并發(fā)的實(shí)現(xiàn)示例
python中的多線程無法利用多核優(yōu)勢,如果想要充分地使用多核CPU的資源,在python中大部分情況需要使用多進(jìn)程,本文主要介紹了python多進(jìn)程并發(fā)的實(shí)現(xiàn)示例,感興趣的可以了解一下2024-02-02Python搭建自己IP代理池的方法實(shí)現(xiàn)
本文主要介紹了Python搭建自己IP代理池的方法實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2023-02-02python將字符串列表轉(zhuǎn)換為數(shù)值列表的幾種方法
這篇文章主要介紹了python將字符串列表轉(zhuǎn)換為數(shù)值列表的幾種方法,包括使用map()和float()/int()、列表推導(dǎo)式、pandas庫以及numpy庫,每種方法都有其適用場景,如小型列表、靈活轉(zhuǎn)換、處理復(fù)雜數(shù)據(jù)集和大規(guī)模數(shù)據(jù)計(jì)算等,需要的朋友可以參考下2025-04-04Python爬蟲爬取電影票房數(shù)據(jù)及圖表展示操作示例
這篇文章主要介紹了Python爬蟲爬取電影票房數(shù)據(jù)及圖表展示操作,結(jié)合實(shí)例形式分析了Python爬蟲爬取、解析電影票房數(shù)據(jù)并進(jìn)行圖表展示操作相關(guān)實(shí)現(xiàn)技巧,需要的朋友可以參考下2020-03-03Python中實(shí)現(xiàn)定時任務(wù)詳解
這篇文章主要介紹了Python中實(shí)現(xiàn)定時任務(wù)詳解的相關(guān)資料,需要的朋友可以參考下2023-07-07利用Python實(shí)現(xiàn)智能合約的示例詳解
智能合約是一種由計(jì)算機(jī)程序編寫的自動化合約,它可以在沒有第三方干預(yù)的情況下執(zhí)行交易和契約條款。這篇文章主要介紹了如何利用Python實(shí)現(xiàn)智能合約,需要的可以參考一下2023-04-04Python使用scipy模塊實(shí)現(xiàn)一維卷積運(yùn)算示例
這篇文章主要介紹了Python使用scipy模塊實(shí)現(xiàn)一維卷積運(yùn)算,結(jié)合實(shí)例形式分析了scipy模塊的功能及使用scipy模塊進(jìn)行一維卷積運(yùn)算的相關(guān)操作技巧,需要的朋友可以參考下2019-09-09