腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

軟件下載

android MAC 驅(qū)動(dòng)下載字體下載 DLL

源碼下載

PHP ASP.NET ASP JSP

軟件編程

C# JAVA C 語言 Delphi Android

網(wǎng)絡(luò)編程

PHP ASP.NET ASP JavaScript

在線工具

CSS格式化 JS格式化 Html轉(zhuǎn)化為Js

數(shù)據(jù)庫

MYSQL MSSQL oracle DB2 MARIADB

CMS

PHPCMS DEDECMS 帝國CMS WordPress

常用工具

PHP開發(fā)工具 python Photoshop 必備軟件

Python數(shù)據(jù)處理pandas讀寫操作IO工具CSV解析

更新時(shí)間：2022年06月27日 17:20:42 作者：名本無名

這篇文章主要為大家介紹了Python?pandas數(shù)據(jù)讀寫操作IO工具之CSV使用示例詳解，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進(jìn)步，早日升職加薪

前言

前面我們介紹了 pandas 的基礎(chǔ)語法操作，下面我們開始介紹 pandas 的數(shù)據(jù)讀寫操作。

pandas 的 IO API 是一組頂層的 reader 函數(shù)，比如 pandas.read_csv()，會(huì)返回一個(gè) pandas 對(duì)象。

而相應(yīng)的 writer 函數(shù)是對(duì)象方法，如 DataFrame.to_csv()。

下面列出了所有的 reader 和 writer 函數(shù)

注意：后面會(huì)用到 StringIO，請(qǐng)確保導(dǎo)入

# python3
from io import StringIO
# python2
from StringIO import StringIO

CSV 和文本文件

讀取文本文件的主要函數(shù)是 read_csv()

1 參數(shù)解析

read_csv() 接受以下常用參數(shù):

1.1 基礎(chǔ)

filepath_or_buffer: 變量

可以是文件路徑、文件 URL 或任何帶有 read() 函數(shù)的對(duì)象

sep: str，默認(rèn) ,，對(duì)于 read_table 是 \t

文件分隔符，如果設(shè)置為 None，則 C 引擎無法自動(dòng)檢測(cè)分隔符，而 Python 引擎可以通過內(nèi)置的嗅探器工具自動(dòng)檢測(cè)分隔符。
此外，如果設(shè)置的字符長(zhǎng)度大于 1，且不是 '\s+'，那么該字符串會(huì)被解析為正則表達(dá)式，且強(qiáng)制使用 Python 解析引擎。
例如 '\\r\\t'，但是正則表達(dá)式容易忽略文本中的引用數(shù)據(jù)。

delimiter: str, 默認(rèn)為 None

sep 的替代參數(shù)，功能一致

1.2 列、索引、名稱

header: int 或 list, 默認(rèn)為 'infer'

用作列名的行號(hào)，默認(rèn)行為是對(duì)列名進(jìn)行推斷：

如果未指定 names 參數(shù)其行為類似于 header=0，即從讀取的第一行開始推斷。
如果設(shè)置了 names，則行為與 header=None 相同。
也可以為 header 設(shè)置列表，表示多級(jí)列名。如 [0,1,3]，未指定的行（這里是 2）將會(huì)被跳過，如果 skip_blank_lines=True，則會(huì)跳過空行和注釋的行。因此 header=0 并不是代表文件的第一行

names: array-like, 默認(rèn)為 None

需要設(shè)置的列名列表，如果文件中不包含標(biāo)題行，則應(yīng)顯式傳遞 header=None，且此列表中不允許有重復(fù)值。

index_col: int, str, sequence of int/str, False, 默認(rèn)為 None

用作 DataFrame 的索引的列，可以字符串名稱或列索引的形式給出。如果指定了列表，則使用 MultiIndex
注意：index_col=False 可用于強(qiáng)制 pandas 不要將第一列用作索引。例如，當(dāng)您的文件是每行末尾都帶有一個(gè)分隔符的錯(cuò)誤文件時(shí)。

usecols: 列表或函數(shù), 默認(rèn)為 None

只讀取指定的列。如果是列表，則所有元素都必須是位置（即文件列中的整數(shù)索引）或字符串，這些字符串必須與 names 參數(shù)提供的或從文檔標(biāo)題行推斷出的列名相對(duì)應(yīng)。
列表中的順序會(huì)被忽略，即 usecols=[0, 1] 等價(jià)于 [1, 0]
如果是可調(diào)用函數(shù)，將會(huì)根據(jù)列名計(jì)算，返回可調(diào)用函數(shù)計(jì)算為 True 的名稱

In [1]: import pandas as pd
In [2]: from io import StringIO
In [3]: data = "col1,col2,col3\na,b,1\na,b,2\nc,d,3"
In [4]: pd.read_csv(StringIO(data))
Out[4]: 
  col1 col2  col3
0    a    b     1
1    a    b     2
2    c    d     3
In [5]: pd.read_csv(StringIO(data), usecols=lambda x: x.upper() in ["COL1", "COL3"])
Out[5]: 
  col1  col3
0    a     1
1    a     2
2    c     3

使用此參數(shù)可以大大加快解析時(shí)間并降低內(nèi)存使用

squeeze: boolean, 默認(rèn)為 False

如果解析的數(shù)據(jù)只包含一列，那么返回一個(gè) Series

prefix: str, 默認(rèn)為 None

當(dāng)沒有標(biāo)題時(shí)，添加到自動(dòng)生成的列號(hào)的前綴，例如 'X' 表示 X0, X1...

mangle_dupe_cols: boolean, 默認(rèn)為 True

重復(fù)的列將被指定為 'X','X.1'…'X.N'，而不是 'X'... 。如果在列中有重復(fù)的名稱，傳遞 False 將導(dǎo)致數(shù)據(jù)被覆蓋

1.3 常規(guī)解析配置

dtype: 類型名或類型字典（column -> type）, 默認(rèn)為 None

數(shù)據(jù)或列的數(shù)據(jù)類型。例如。

{'a'：np.float64，'b'：np.int32}

engine: {'c', 'python'}

要使用的解析器引擎。C 引擎更快，而 Python 引擎目前功能更完整

converters: dict, 默認(rèn)為 None

用于在某些列中對(duì)值進(jìn)行轉(zhuǎn)換的函數(shù)字典。鍵可以是整數(shù)，也可以是列名

true_values: list, 默認(rèn)為 None

數(shù)據(jù)值解析為 True

false_values: list, 默認(rèn)為 None

數(shù)據(jù)值解析為 False

skipinitialspace: boolean, 默認(rèn)為 False

跳過分隔符之后的空格

skiprows: 整數(shù)或整數(shù)列表, 默認(rèn)為 None

在文件開頭要跳過的行號(hào)（索引為 0）或要跳過的行數(shù)
如果可調(diào)用函數(shù)，則對(duì)索引應(yīng)用函數(shù)，如果返回 True，則應(yīng)跳過該行，否則返回 False

In [6]: data = "col1,col2,col3\na,b,1\na,b,2\nc,d,3"
In [7]: pd.read_csv(StringIO(data))
Out[7]: 
  col1 col2  col3
0    a    b     1
1    a    b     2
2    c    d     3
In [8]: pd.read_csv(StringIO(data), skiprows=lambda x: x % 2 != 0)
Out[8]: 
  col1 col2  col3
0    a    b     2

skipfooter: int, 默認(rèn)為 0

需要跳過文件末尾的行數(shù)（不支持 C 引擎）

nrows: int, 默認(rèn)為 None

要讀取的文件行數(shù)，對(duì)于讀取大文件很有用

memory_map: boolean, 默認(rèn)為 False

如果為 filepath_or_buffer 參數(shù)指定了文件路徑，則將文件對(duì)象直接映射到內(nèi)存中，然后直接從那里訪問數(shù)據(jù)。使用此選項(xiàng)可以提高性能，因?yàn)椴辉儆腥魏?I/O 開銷

1.4 NA 和缺失數(shù)據(jù)處理

na_values: scalar, str, list-like, dict, 默認(rèn)為 None

需要轉(zhuǎn)換為 NA 值的字符串

keep_default_na: boolean, 默認(rèn)為 True

解析數(shù)據(jù)時(shí)是否包含默認(rèn)的 NaN 值。根據(jù)是否傳入 na_values，其行為如下

keep_default_na=True, 且指定了 na_values, na_values 將會(huì)與默認(rèn)的 NaN 一起被解析

keep_default_na=True, 且未指定 na_values, 只解析默認(rèn)的 NaN

keep_default_na=False, 且指定了 na_values, 只解析 na_values 指定的 NaN

keep_default_na=False, 且未指定 na_values, 字符串不會(huì)被解析為 NaN

注意：如果 na_filter=False，那么 keep_default_na 和 na_values 參數(shù)將被忽略

na_filter: boolean, 默認(rèn)為 True

檢測(cè)缺失值標(biāo)記（空字符串和 na_values 的值）。在沒有任何 NA 的數(shù)據(jù)中，設(shè)置 na_filter=False 可以提高讀取大文件的性能

skip_blank_lines: boolean, 默認(rèn)為 True

如果為 True，則跳過空行，而不是解釋為 NaN 值

1.5 日期時(shí)間處理

parse_dates: 布爾值、列表或嵌套列表、字典, 默認(rèn)為 False.

如果為 True -> 嘗試解析索引
如果為 [1, 2, 3] -> 嘗試將 1, 2, 3 列解析為分隔的日期
如果為 [[1, 3]] -> 將 1, 3 列解析為單個(gè)日期列
如果為 {'foo': [1, 3]} -> 將 1, 3 列作為日期并設(shè)置列名為 foo

infer_datetime_format: 布爾值, 默認(rèn)為 False

如果設(shè)置為 True 且設(shè)置了 parse_dates，則嘗試推斷 datetime 格式以加快處理速度

date_parser: 函數(shù), 默認(rèn)為 None

用于將字符串序列轉(zhuǎn)換為日期時(shí)間實(shí)例數(shù)組的函數(shù)。默認(rèn)使用 dateutil.parser.parser 進(jìn)行轉(zhuǎn)換，pandas 將嘗試以三種不同的方式調(diào)用 date_parser

傳遞一個(gè)或多個(gè)數(shù)組（parse_dates 定義的列）作為參數(shù);
將 parse_dates 定義的列中的字符串值連接到單個(gè)數(shù)組中，并將其傳遞;
使用一個(gè)或多個(gè)字符串(對(duì)應(yīng)于 parse_dates 定義的列)作為參數(shù)，對(duì)每一行調(diào)用 date_parser 一次。

dayfirst: 布爾值, 默認(rèn)為 False

DD/MM 格式的日期

cache_dates: 布爾值, 默認(rèn)為 True

如果為 True，則使用唯一的、經(jīng)過轉(zhuǎn)換的日期緩存來應(yīng)用 datetime 轉(zhuǎn)換。
在解析重復(fù)的日期字符串，特別是帶有時(shí)區(qū)偏移量的日期字符串時(shí)，可能會(huì)顯著提高速度。

1.6 迭代

iterator: boolean, 默認(rèn)為 False

返回 TextFileReader 對(duì)象以進(jìn)行迭代或使用 get_chunk() 來獲取塊

1.7 引用、壓縮和文件格式

compression: {'infer', 'gzip', 'bz2', 'zip', 'xz', None, dict}, 默認(rèn)為 'infer'

用于對(duì)磁盤數(shù)據(jù)進(jìn)行即時(shí)解壓縮。如果為 "infer"，則如果 filepath_or_buffer 是文件路徑且以 ".gz"，".bz2"，".zip" 或 ".xz" 結(jié)尾，則分別使用 gzip，bz2，zip 或 xz 解壓，否則不進(jìn)行解壓縮。
如果使用 "zip"，則 ZIP 文件必須僅包含一個(gè)要讀取的數(shù)據(jù)文件。設(shè)置為 None 表示不解壓
也可以使用字典的方式，鍵為 method 的值從 {'zip', 'gzip', 'bz2'} 中選擇。例如

compression={'method': 'gzip', 'compresslevel': 1, 'mtime': 1}

thousandsstr, 默認(rèn)為 None

數(shù)值在千位的分隔符

decimal: str, 默認(rèn)為 '.'

小數(shù)點(diǎn)

float_precision: string, 默認(rèn)為 None

指定 C 引擎應(yīng)該使用哪個(gè)轉(zhuǎn)換器來處理浮點(diǎn)值。普通轉(zhuǎn)換器的選項(xiàng)為 None，高精度轉(zhuǎn)換器的選項(xiàng)為 high，雙向轉(zhuǎn)換器的選項(xiàng)為 round_trip。

quotechar: str (長(zhǎng)度為 1)

用于表示被引用數(shù)據(jù)的開始和結(jié)束的字符。帶引號(hào)的數(shù)據(jù)里的分隔符將被忽略

comment: str, 默認(rèn)為 None

用于跳過該字符開頭的行，例如，如果 comment='#'，將會(huì)跳過 # 開頭的行

encoding: str, 默認(rèn)為 None

設(shè)置編碼格式

1.8 錯(cuò)誤處理

error_bad_linesboolean, 默認(rèn)為 True

默認(rèn)情況下，字段太多的行（例如，帶有太多逗號(hào)的 csv 文件）會(huì)引發(fā)異常，并且不會(huì)返回任何 DataFrame。
如果設(shè)置為 False，則這些壞行將會(huì)被刪除

warn_bad_linesboolean, 默認(rèn)為 True

如果 error_bad_lines=False 且 warn_bad_lines=True，每個(gè)壞行都會(huì)輸出一個(gè)警告

2. 指定數(shù)據(jù)列的類型

您可以指示整個(gè) DataFrame 或各列的數(shù)據(jù)類型

In [9]: import numpy as np
In [10]: data = "a,b,c,d\n1,2,3,4\n5,6,7,8\n9,10,11"
In [11]: print(data)
a,b,c,d
1,2,3,4
5,6,7,8
9,10,11
In [12]: df = pd.read_csv(StringIO(data), dtype=object)
In [13]: df
Out[13]: 
   a   b   c    d
0  1   2   3    4
1  5   6   7    8
2  9  10  11  NaN
In [14]: df["a"][0]
Out[14]: '1'
In [15]: df = pd.read_csv(StringIO(data), dtype={"b": object, "c": np.float64, "d": "Int64"})
In [16]: df.dtypes
Out[16]: 
a      int64
b     object
c    float64
d      Int64
dtype: object

你可以使用 read_csv() 的 converters 參數(shù)，統(tǒng)一某列的數(shù)據(jù)類型

In [17]: data = "col_1\n1\n2\n'A'\n4.22"
In [18]: df = pd.read_csv(StringIO(data), converters={"col_1": str})
In [19]: df
Out[19]: 
  col_1
0     1
1     2
2   'A'
3  4.22
In [20]: df["col_1"].apply(type).value_counts()
Out[20]: 
<class 'str'>    4
Name: col_1, dtype: int64

或者，您可以在讀取數(shù)據(jù)后使用 to_numeric() 函數(shù)強(qiáng)制轉(zhuǎn)換類型

In [21]: df2 = pd.read_csv(StringIO(data))
In [22]: df2["col_1"] = pd.to_numeric(df2["col_1"], errors="coerce")
In [23]: df2
Out[23]: 
   col_1
0   1.00
1   2.00
2    NaN
3   4.22
In [24]: df2["col_1"].apply(type).value_counts()
Out[24]: 
<class 'float'>    4
Name: col_1, dtype: int64

它將所有有效的數(shù)值轉(zhuǎn)換為浮點(diǎn)數(shù)，而將無效的解析為 NaN

最后，如何處理包含混合類型的列取決于你的具體需要。在上面的例子中，如果您只想要將異常的數(shù)據(jù)轉(zhuǎn)換為 NaN，那么 to_numeric() 可能是您的最佳選擇。

然而，如果您想要強(qiáng)制轉(zhuǎn)換所有數(shù)據(jù)，而無論類型如何，那么使用 read_csv() 的 converters 參數(shù)會(huì)更好

注意

在某些情況下，讀取包含混合類型列的異常數(shù)據(jù)將導(dǎo)致數(shù)據(jù)集不一致。

如果您依賴 pandas 來推斷列的類型，解析引擎將繼續(xù)推斷數(shù)據(jù)塊的類型，而不是一次推斷整個(gè)數(shù)據(jù)集。

In [25]: col_1 = list(range(500000)) + ["a", "b"] + list(range(500000))
In [26]: df = pd.DataFrame({"col_1": col_1})
In [27]: df.to_csv("foo.csv")
In [28]: mixed_df = pd.read_csv("foo.csv")
In [29]: mixed_df["col_1"].apply(type).value_counts()
Out[29]: 
<class 'int'>    737858
<class 'str'>    262144
Name: col_1, dtype: int64
In [30]: mixed_df["col_1"].dtype
Out[30]: dtype('O')

這就導(dǎo)致 mixed_df 對(duì)于列的某些塊包含 int 類型，而對(duì)于其他塊則包含 str，這是由于讀取的數(shù)據(jù)是混合類型。

以上就是Python pandas數(shù)據(jù)讀寫操作IO工具CSV的詳細(xì)內(nèi)容，更多關(guān)于Python pandas數(shù)據(jù)讀寫的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

軟件下載

源碼下載

軟件編程

網(wǎng)絡(luò)編程

在線工具

數(shù)據(jù)庫

CMS

常用工具

Python數(shù)據(jù)處理pandas讀寫操作IO工具CSV解析

目錄

前言

CSV 和文本文件

1 參數(shù)解析

1.1 基礎(chǔ)

1.2 列、索引、名稱

1.3 常規(guī)解析配置

1.4 NA 和缺失數(shù)據(jù)處理

1.5 日期時(shí)間處理

1.6 迭代

1.7 引用、壓縮和文件格式

1.8 錯(cuò)誤處理

2. 指定數(shù)據(jù)列的類型

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

Python數(shù)據(jù)處理pandas讀寫操作IO工具CSV解析

目錄

前言

CSV 和文本文件

1 參數(shù)解析

1.1 基礎(chǔ)

1.2 列、索引、名稱

1.3 常規(guī)解析配置

1.4 NA 和缺失數(shù)據(jù)處理

1.5 日期時(shí)間處理

1.6 迭代

1.7 引用、壓縮和文件格式

1.8 錯(cuò)誤處理

2. 指定數(shù)據(jù)列的類型

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

1.2 列、索引、名稱

1.7 引用、壓縮和文件格式