import?pandas?as?pd

df?=?pd.DataFrame(
????{'地區(qū)':?['A',?'B',?'C'],
?????'2020':?[80,?60,?40],
?????'2021':?[800,?600,?400],?
?????'2022':?[8000,?6000,?4000]})

pd.melt(df,
????????id_vars=['地區(qū)'],
????????value_vars=['2020',?'2021',?'2022'])

設(shè)置var_name與value_name。

df?=?pd.melt(df,
?????????????id_vars=['地區(qū)'],
?????????????value_vars=['2020',?'2021',?'2022'],
?????????????var_name='年份',
?????????????value_name='銷售額')

pandas.pivot()

pivot函數(shù)主要用于通過索引及列值對DataFrame重構(gòu)。

“
pandas.pivot(data, index=None, columns=None, values=None)
”

參數(shù)含義

data：DataFrame對象
index：可選，用于新DataFrame的索引
columns：用于創(chuàng)建新DataFrame的列
values：可選，用于填充新DataFrame的值

用上面的結(jié)果舉個例子：

df.pivot(index='年份',
?????????columns='地區(qū)',
?????????values='銷售額')

也可以寫成以下格式。

df.pivot(index='年份',?columns='地區(qū)')['銷售額']

添加一個銷量列，同時統(tǒng)計兩個values，這樣會使columns變成多層索引。

df['銷量']?=?df['銷售額']/10
df.pivot(index='年份',
?????????columns='地區(qū)',
?????????values=['銷售額',?'銷量'])

添加一個月份列，指定兩個index。

df['月份']?=?[f'{m}月'?for?m?in?range(1,?4)]*3
df.pivot(index=['年份',?'月份'],
?????????columns='地區(qū)',
?????????values='銷售額')

使用pivot時需要注意，當index，columns出現(xiàn)重復(fù)時，會導(dǎo)致ValueError。

df?=?pd.DataFrame(
????????{'地區(qū)':?['A',?'A',?'B',?'C'],
?????????'年份':?['2020',?'2020',?'2021',?'2022'],
?????????'銷售額':?[800,?600,?400,?200]})

df.pivot(index='地區(qū)',
?????????columns='年份',
?????????values='銷售額')
#?ValueError

pandas.pivot_table()

這個函數(shù)之前已經(jīng)單獨講過了，詳見Pandas玩轉(zhuǎn)數(shù)據(jù)透視表，相比于pivot，pivot_table的靈活性更強。

pandas.crosstab()

crosstab函數(shù)計算兩個(或多個)數(shù)組的簡單交叉表。默認情況下計算元素的頻率表。

“
pandas.crosstab(index, columns, values=None, rownames=None, colnames=None, aggfunc=None, margins=False, margins_name='All', dropna=True, normalize=False)
”

看下例子：

這里默認計算頻率。

import?numpy?as?np
array_A?=?np.array(["one",?"two",?"two",?"three",?"three",?"three"],?dtype=object)
array_B?=?np.array(["Python",?"Python",?"Python",?"C",?"C",?"C"],?dtype=object)
array_C?=?np.array(["Y",?"Y",?"Y",?"N",?"N",?"N"])
pd.crosstab(array_A,
???????????[array_B,?array_C],
???????????rownames=['array_A'],
???????????colnames=['array_B',?'array_C'])

新建一個values列，計算總和。

array_D?=?np.array([1,?4,?9,?16,?25,?36])
pd.crosstab(index=array_A,
????????????columns=[array_B,?array_C],
????????????rownames=['array_A'],
????????????colnames=['array_B',?'array_C'],
????????????values=array_D,
????????????aggfunc='sum')