Python使用pandas導(dǎo)入csv文件內(nèi)容的示例代碼
使用pandas導(dǎo)入csv文件內(nèi)容
1. 默認(rèn)導(dǎo)入
在Python中導(dǎo)入.csv文件用的方法是read_csv()。
使用read_csv()進(jìn)行導(dǎo)入時,指定文件名即可
import pandas as pd df = pd.read_csv(r'G:\test.csv') print(df)
2. 指定分隔符
read_csv()默認(rèn)文件中的數(shù)據(jù)都是以逗號分開的,但是有的文件不是用逗號分開的,這個時候就需要人為指定分隔符號,否則就會報錯。
分隔符通過sep參數(shù)指定。常見的分隔符除了逗號,還有空格以及制表符(\t)等
import pandas as pd df = pd.read_csv(r'G:\test.csv', sep=',') print(df)
3. 指定讀取行數(shù)
假設(shè)現(xiàn)在有一個幾百兆的文件,你想了解一下這個文件里有哪些數(shù)據(jù),那么這個時候你就沒必要把全部數(shù)據(jù)都導(dǎo)入,你只要看到前面幾行即可,因此只要設(shè)置 nrows參數(shù)即可。
import pandas as pd df = pd.read_csv(r'G:\test.csv', sep=',', nrows=2) print(df)
4. 指定編碼格式
每個文件都是有編碼格式的,常用的編碼格式有utf-8和gbk等。有的時候兩個文件看起來一樣,它們的文件名一樣,格式也一樣,但如果它們的編碼格式不一樣,也是不一樣的文件,比如當(dāng)你把一個Excel文件另存為保存時會出現(xiàn)兩個選項,雖然都是.csv文件,但是這兩種格式代表兩種不同的文件
Python用得比較多的兩種編碼格式是UTF-8和gbk,默認(rèn)編碼格式是UTF-8。我們要根據(jù)導(dǎo)入文件本身的編碼格式進(jìn)行設(shè)置,通過設(shè)置參數(shù)encoding來設(shè)置導(dǎo)入的編碼格式。
如果我們不指定encoding參數(shù), 默認(rèn)是使用utf-8編碼格式。
import pandas as pd df = pd.read_csv(r'G:\test.csv', sep=',', nrows=3, encoding='utf-8') print(df)
如果是CSV(逗號分隔) (*.csv)格式的文件,那么在導(dǎo)入的時候就需要把編碼格式更改為gbk,如果使用UTF-8就會報錯。
5. 列標(biāo)題與數(shù)據(jù)對齊
因為我們的表格中有中文,中文占用的字符和英文、數(shù)字占用的字符不一樣,因此需要調(diào)用pd.set_option()使表格對齊顯示。如果你是使用 Jupyter 來運行代碼的,Jupyter 會自動渲染出一個表格,則無需這個設(shè)置。
import pandas as pd #處理數(shù)據(jù)的列標(biāo)題與數(shù)據(jù)無法對齊的情況 pd.set_option('display.unicode.ambiguous_as_wide', True) #無法對齊主要是因為列標(biāo)題是中文 pd.set_option('display.unicode.east_asian_width', True) df = pd.read_csv(r'G:\test.csv', sep=',', nrows=3, encoding='utf-8') print(df)
對齊后的效果:
到此這篇關(guān)于Python使用pandas導(dǎo)入csv文件內(nèi)容的文章就介紹到這了,更多相關(guān)Python導(dǎo)入csv文件內(nèi)容內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
使用Fabric自動化部署Django項目的實現(xiàn)
這篇文章主要介紹了使用Fabric自動化部署Django項目的實現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-09-09