Pandas實現(xiàn)在線文件和剪貼板數(shù)據(jù)讀取詳解
前言
大家好,我是Peter~
本文記錄的是Pandas兩種少用的讀取文件方式:
- 讀取在線文件的數(shù)據(jù)
- 讀取剪貼板的數(shù)據(jù)
聲明:本文案例和在線數(shù)據(jù)僅用于學(xué)術(shù)分享
read_html
該函數(shù)表示的是直接讀取在線的html文件,一般是表格的形式;將HTML的表格轉(zhuǎn)換為DataFrame的一種快速方便的方法。
這個方法對于快速合并來自不同網(wǎng)頁上的表格非常有用,就省去了爬取數(shù)據(jù)再來讀取的時間。
具體函數(shù)的參數(shù)為:
pandas.read_html(io,??#?文件 io 對象;路徑或者io.Strings對象 ?????????????????match='.+',??#?str?或編譯的正則表達式,可選 ?????????????????flavor=None,?#?要使用的解析引擎,?None是默認(rèn)值 ?????????????????header=None,??#?文件表頭 ?????????????????index_col=None,??#?索引 ?????????????????skiprows=None,??#?跳過行 ?????????????????attrs=None,???#?屬性 ?????????????????parse_dates=False,???#?日期解析 ?????????????????thousands=',',???#?千分位 ?????????????????encoding=None,???#?編碼 ?????????????????decimal='.',???#?識別為小數(shù)點的字符 ?????????????????converters=None,???#?屬性轉(zhuǎn)換 ?????????????????na_values=None,??#??空值信息 ?????????????????keep_default_na=True,???#?是否保持空值 ?????????????????displayed_only=True??#?是否應(yīng)該解析帶有“display:none”?的元素 ????????????????)
在線文件1
讀取維基百科上一份歷屆奧運會乒乓球冠軍的相關(guān)數(shù)據(jù)。該地址下的部分表格形式的數(shù)據(jù):
In [3]:
url?=?"https://zh.m.wikipedia.org/zh/%E5%A5%A5%E6%9E%97%E5%8C%B9%E5%85%8B%E8%BF%90%E5%8A%A8%E4%BC%9A%E4%B9%92%E4%B9%93%E7%90%83%E5%A5%96%E7%89%8C%E5%BE%97%E4%B8%BB%E5%88%97%E8%A1%A8" df?=?pd.read_html(url) df
Out[3]:
我們觀察到此時讀取到的df是一個列表,總長度是15
list
In [4]:
len(df)
Out[4]:
9
查看列表中的部分元素:此時就是一個個的DataFrame形式的數(shù)據(jù)
在線文件2
一個國外網(wǎng)站下的數(shù)據(jù)
In [7]:
df1?=?pd.read_html("https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list") type(df1)
Out[7]:
list
In [8]:
len(df1)
Out[8]:
1
In [9]:
df1[0]
Out[9]:
讀取在線CSV文件
以讀取GitHub上一個CSV文件為例:
方式1:直接讀取
url="https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv" pd.read_csv(url)
方式2:通過io.Strings對象
url="https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv" response=requests.get(url).content??#?先發(fā)請求 df2?=?pd.read_csv(io.StringIO(response.decode('utf-8'))) ? df2??#?效果同上
Pandas讀取剪貼板
pandas.read_clipboard(sep='\\s+',?**kwargs)
一個簡單的例子說明函數(shù)使用:假設(shè)本地目錄下有這樣Excel表格的數(shù)據(jù)
1、先剪貼數(shù)據(jù):【Ctrl + C】
2、運行代碼下面的代碼,按下MacOS中的【向上的箭頭】 + 【回車鍵】,完成讀取
Windows下面應(yīng)該是【Shift + Enter】
如果數(shù)據(jù)比較少,省去了通過Excel或者CSV文件的讀取方式的時間:
以上就是Pandas實現(xiàn)在線文件和剪貼板數(shù)據(jù)讀取詳解的詳細(xì)內(nèi)容,更多關(guān)于Pandas數(shù)據(jù)讀取的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
pycharm2022.1最新永久激活碼破解補丁一鍵安裝教程免費分享(2022持續(xù)更新)
更新到Pycharm 2022.2.x版,pycharm2022.2最新可用永久激活碼分享(持續(xù)更新),pycharm激活補丁一鍵安裝簡單方便,無需手動修改文件,兼容蘋果MAC,linux,Windows系統(tǒng)2022-07-07Python監(jiān)測屏幕界面內(nèi)容變化并發(fā)送通知方法詳解
這篇文章主要為大家介紹了Python監(jiān)測屏幕界面內(nèi)容變化并發(fā)送通知,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2023-06-06Python實現(xiàn)在線暴力破解郵箱賬號密碼功能示例【測試可用】
這篇文章主要介紹了Python實現(xiàn)在線暴力破解郵箱賬號密碼功能,結(jié)合完整實例形式分析了Python讀取txt字典文件針對郵箱的相關(guān)驗證破解操作技巧,需要的朋友可以參考下2017-09-09Centos環(huán)境部署django項目的全過程(永久復(fù)用)
Django是一款針對Python環(huán)境的WEB開發(fā)框架,能夠幫助我們構(gòu)架快捷,下面這篇文章主要給大家介紹了關(guān)于Centos環(huán)境部署django項目的相關(guān)資料,需要的朋友可以參考下2022-10-10python代碼實現(xiàn)將列表中重復(fù)元素之間的內(nèi)容全部濾除
這篇文章主要介紹了python代碼實現(xiàn)將列表中重復(fù)元素之間的內(nèi)容全部濾除,本文通過實例代碼給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2020-05-05python中復(fù)數(shù)的共軛復(fù)數(shù)知識點總結(jié)
在本篇內(nèi)容里小編給大家整理的是關(guān)于python中復(fù)數(shù)的共軛復(fù)數(shù)知識點總結(jié),有需要的朋友們可以學(xué)習(xí)下。2020-12-12