快捷導(dǎo)航

pandas 選取行和列數(shù)據(jù)的方法詳解

更新時(shí)間：2019年08月08日 10:56:05 作者：Stone0823

這篇文章主要介紹了pandas 選取行和列數(shù)據(jù)的方法詳解,文中通過示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下

前言

本文介紹在 pandas 中如何讀取數(shù)據(jù)行列的方法。數(shù)據(jù)由行和列組成，在數(shù)據(jù)庫(kù)中，一般行被稱作記錄 (record)，列被稱作字段 (field)?；仡櫼幌挛覀儗?duì)記錄和字段的獲取方式：一般情況下，字段根據(jù)名稱獲取，記錄根據(jù)篩選條件獲取。比如獲取 student_id 和 studnent_name 兩個(gè)字段；記錄篩選，比如 sales_amount 大于 10000 的所有記錄。對(duì)于熟悉 SQL 語(yǔ)句的人來說，就是下面的語(yǔ)句：

select student_id, student_name
from exam_scores
where chinese >= 90 and math >= 90

上面的 SQL 語(yǔ)句表示從考試成績(jī)表 (exam_scores) 中，篩選出語(yǔ)文和數(shù)學(xué)都大于或等于 90 分的所有學(xué)生 id 和 name。學(xué)習(xí) pandas 數(shù)據(jù)獲取，推薦這種以數(shù)據(jù)處理的目標(biāo)為導(dǎo)向的方式，而不是被動(dòng)的按 pandas 提供的 loc, iloc的語(yǔ)法中，一條條順序?qū)W習(xí)。

本篇我們要分析的關(guān)于銷售數(shù)量和金額的一組數(shù)據(jù)，數(shù)據(jù)存放在 csv 文件中。示例數(shù)據(jù)我在 github 上放了一份，方便大家對(duì)照練習(xí)。

選擇列

以下兩種方法返回 Series 類型:

import pandas as pd
df = pd.read_csv('sample-salesv3.csv')
df.name
# 或者
df['name']

如果需要返回 DataFrame 格式，使用 list 作為參數(shù)。為了方便說明，給出在 jupyter notebook 中顯示的界面。

如果需要選取多列，傳給 DataFrame 一個(gè)包含列名的 list：

選擇行

假設(shè)我們要篩選 quantity < 0 的所有記錄：

按多條件篩選的處理方式。假設(shè)想篩選 quantity < 0 并且 unit price > 50 的所有記錄：

代碼：

criteria = (df['quantity'] < 0) & (df['unit price'] > 50)
df[criteria].head()

在 pandas 中，AND 條件的運(yùn)算符為 & ，OR 條件的運(yùn)算符為 |。假設(shè)想篩選所有 quantity > 30 或 unit price > 50 的記錄：

代碼：

criteria = (df['quantity'] > 30) | (df['unit price'] > 50)
df[criteria].head()

基于字符串的記錄篩選

如果篩選條件為基于字符串，可以使用用 Series.str.xxx 方法，主要有 startswith, endswith 和 contains等。舉一個(gè)例子，篩選出所有 name 含有 White 的記錄：

代碼：

criteria = df['name'].str.contains('White')
df[criteria].head()

這里解釋一下 pandas 布爾索引 (boolean indexing) 的概念。布爾索引的意思是首先構(gòu)建一個(gè)與 DataFrame 的 index 長(zhǎng)度相同的一個(gè) boolean 向量 (boolean vector)，這個(gè)向量中只包含 True 或者 False，布爾索引是一個(gè) Series。

然后 DataFrame 在篩選的時(shí)候，基于 DataFrame 的行索引，當(dāng)布爾索引相同行索引所在行的 value 為 True 時(shí)，DataFrame 的這一行就包含在篩選之中，否則就排除在外。

為了能看得更加清晰，我們把上面的例子用另外一個(gè)方法來展示。創(chuàng)建一個(gè)新列：is_selected，這一列是一個(gè)布爾索引。

df['is_selected'] = df['name'].str.contains('White')

我們看到，is_selected 由 True 和 False 構(gòu)成。

構(gòu)建了 is_selected 列之后，通過df[df['name'].str.contains('White')] 篩選與下面的語(yǔ)句作用相同：

df[df['is_selected'] == True]

可以把 df['name'].str.contains('White') 這個(gè)布爾索引理解為構(gòu)建了一個(gè)新列，然后基于這一列進(jìn)行篩選。

基于 DateTime 類型的記錄篩選

如果列的類型是 DateTime 類型，比如本示例的 date 列。pandas 讀取 csv 文件時(shí)，date 列是 str 類型，所以我們先將 date 列轉(zhuǎn)換成 datetime 類型，然后基于 pandas 的 Timestamp 類型構(gòu)建篩選條件。

# 將 date 列轉(zhuǎn)換成 datetime 類型
df['date'] = pd.to_datetime(df['date'])

# 篩選條件為日期大于 2014/4/1
criteria = df['date'] > pd.Timestamp(2014,4,1)
df[criteria].head()

同時(shí)選擇行和列

如果基于本篇所說的模式，同時(shí)選擇行和列，最簡(jiǎn)單的方法是組合，比如先基于行構(gòu)建 DataFrame，然后再基于這個(gè) DataFrame 選取需要的列：

where = df['name'].str.contains('White')
cols = ['name', 'quantity', 'unit price', 'ext price']
df[where][cols].head()

參考

Comparison with SQL

以上就是本文的全部?jī)?nèi)容，希望對(duì)大家的學(xué)習(xí)有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章:

亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

pandas 選取行和列數(shù)據(jù)的方法詳解

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具