亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Python連接HDFS實現(xiàn)文件上傳下載及Pandas轉換文本文件到CSV操作

 更新時間:2020年06月06日 08:39:25   作者:翱翔的江鳥  
這篇文章主要介紹了Python連接HDFS實現(xiàn)文件上傳下載及Pandas轉換文本文件到CSV操作,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧

1. 目標

通過hadoop hive或spark等數(shù)據(jù)計算框架完成數(shù)據(jù)清洗后的數(shù)據(jù)在HDFS上

爬蟲和機器學習在Python中容易實現(xiàn)

在Linux環(huán)境下編寫Python沒有pyCharm便利

需要建立Python與HDFS的讀寫通道

2. 實現(xiàn)

安裝Python模塊pyhdfs

版本:Python3.6, hadoop 2.9

讀文件代碼如下

from pyhdfs import HdfsClient
client=HdfsClient(hosts='ghym:50070')#hdfs地址
res=client.open('/sy.txt')#hdfs文件路徑,根目錄/
for r in res:
 line=str(r,encoding='utf8')#open后是二進制,str()轉換為字符串并轉碼
 print(line)

寫文件代碼如下

from pyhdfs import HdfsClient
client=HdfsClient(hosts='ghym:50070',user_name='hadoop')#只有hadoop用戶擁有寫權限
str='hello world'
client.create('/py.txt',str)#創(chuàng)建新文件并寫入字符串

上傳本地文件到HDFS

from pyhdfs import HdfsClient
client = HdfsClient(hosts='ghym:50070', user_name='hadoop')
client.copy_from_local('d:/pydemo.txt', '/pydemo')#本地文件絕對路徑,HDFS目錄必須不存在

3. 讀取文本文件寫入csv

Python安裝pandas模塊

確認文本文件的分隔符

# pyhdfs讀取文本文件,分隔符為逗號,
from pyhdfs import HdfsClient
client = HdfsClient(hosts='ghym:50070', user_name='hadoop')
inputfile=client.open('/int.txt')
# pandas調(diào)用讀取方法read_table
import pandas as pd
df=pd.read_table(inputfile,encoding='gbk',sep=',')#參數(shù)為源文件,編碼,分隔符
# 數(shù)據(jù)集to_csv方法轉換為csv
df.to_csv('demo.csv',encoding='gbk',index=None)#參數(shù)為目標文件,編碼,是否要索引

補充知識:記 讀取hdfs 轉 pandas 再經(jīng)由pandas轉為csv的一個坑

工作流程是這樣的:

讀取 hdfs 的 csv 文件,采用的是 hdfs 客戶端提供的 read 方法,該方法返回一個生成器。

將讀取到的數(shù)據(jù)按 逗號 處理,變?yōu)橐粋€二維數(shù)組。

將二維數(shù)組傳給 pandas,生成 df。

經(jīng)若干處理后,將 df 轉為 csv 文件并寫入hdfs。

問題是這樣的:

正常的數(shù)據(jù):

ZERO,MEAN,STD,CV,INC,OPP,CS,IS_OUTNET

0,9.233,2.445,0.265,1.202,241,1,0

0,8.667,1.882,0.217,1.049,179,1,0

三行數(shù)據(jù),正常走流程,沒有任何問題。

異常數(shù)據(jù):

ZERO,MEAN,STD,CV,INC,OPP,CS,IS_OUTNET,probability,prediction

0,9.233,2.445,0.265,1.202,241,1,0,'[0.9653901649086855,0.03460983509131456]',0.0

0,8.667,1.882,0.217,1.049,179,1,0,'[0.9653901649086855,0.03460983509131456]',0.0

在每一行中都會有一個數(shù)組類似的數(shù)據(jù),有一對引號包起來,中間存在逗號,不可以拆分。

為此,我的做法如下:

匹配逗號是被成對引號包圍的字符串。

將匹配到的字符串中的逗號替換為特定字符。

將替換后的新字符串替換回原字符串。

在將原字符串中的特定字符串替換為逗號。

本來這樣做沒有什么問題,但是在經(jīng)由pandas轉為csv的時候,發(fā)現(xiàn)原來帶引號的字符串變?yōu)榱饲昂蟾鲙齻€引號。

源數(shù)據(jù):

處理后的數(shù)據(jù):

方法如下:

仔細研究對比了下數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)里的引號其實只是在純文本文件中用來標識其為字符串,并不應該存在于實際數(shù)據(jù)中。

而我每次匹配后都是原封不動替換回去,譬如:

源數(shù)據(jù):

"[0.9653901649086855,0.03460983509131456]"

匹配替換后:

"[0.9653901649086855${dot}0.03460983509131456]"

這樣傳給pandas,它就會認為這個數(shù)據(jù)是帶引號的,在重新轉為csv的時候,就會進行轉義等操作,導致多出很多引號。

所以解決辦法就是在替換之前,將匹配時遇到的引號也去掉:

PATTERN = '(?<=(?P<quote>[\'\"]))([^,]+,[^,]+)+?(?=(?P=quote))'

中間 ([^,]+,[^,]+)+? 要用+?,因為必須確定是有這樣的組合才可以,并且非貪婪模式,故不可 ? 或者 *?

(ps:為了方便后面引用前面的匹配,我在環(huán)視匹配中創(chuàng)建了一個組)

再來個整體效果:

為了說明效果,引用pandas的自帶讀取csv方法:

可以看到pandas讀取出的該位置數(shù)據(jù)也是字符串,引號正是作為一個字符串聲明而存在。

再次修改正則:

def split_by_dot_escape_quote(string):
  """
  按逗號分隔字符串,若其中有引號,將引號內(nèi)容視為整體
  """
  # 匹配引號中的內(nèi)容,非貪婪,采用正向肯定環(huán)視,
  # 當左引號(無論單雙引)被匹配到,放入組quote,
  # 中間的內(nèi)容任意,但是要用+?,非貪婪,且至少有一次匹配到字符,
  # 若*?,則匹配0次也可,并不會匹配任意字符(環(huán)視只匹配位置不匹配字符),
  # 由于在任意字符后面又限定了前面匹配到的quote,故只會匹配到",
  # +?則會限定前面必有字符被匹配,故"",或引號中任意值都可匹配到
  pattern = re.compile('(?=(?P<quote>[\'\"])).+?(?P=quote)')
  rs = re.finditer(pattern, string)
  for data in rs:
    # 匹配到的字符串
    old_str = data.group()
    # 將匹配到的字符串中的逗號替換為特定字符,
    # 以便還原到原字符串進行替換
    new_str = old_str.replace(',', '${dot}')
    # 由于匹配到的引號僅為字符串申明,并不具有實際意義,
    # 需要把匹配時遇到的引號都去掉,只替換掉當前匹配組的引號
    new_str = re.sub(data.group('quote'), '', new_str)
    string = string.replace(old_str, new_str)
  sps = string.split(',')
  return map(lambda x: x.replace('${dot}', ','), sps)
 
 
s = '"2011,603","3510006998","F","5","5","0",""'
print(list(split_by_dot_escape_quote(s)))

運行結果如下:

之前想的正則有些復雜,反而偏離了本意,還是對正則的認識不夠深。

以上這篇Python連接HDFS實現(xiàn)文件上傳下載及Pandas轉換文本文件到CSV操作就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。

相關文章

  • 實例詳解Python的進程,線程和協(xié)程

    實例詳解Python的進程,線程和協(xié)程

    這篇文章主要為大家詳細介紹了Python進程,線程和協(xié)程,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來幫助
    2022-03-03
  • Python鍵值互換的實現(xiàn)示例

    Python鍵值互換的實現(xiàn)示例

    Python鍵值互換是一種對Python字典類型中鍵值對進行反轉的技術,有時候,我們需要以值作為鍵,以鍵作為值來操作字典,這時候就需要用到鍵值互換的技術,本文主要介紹了Python鍵值互換的實現(xiàn)示例,需要的朋友們下面隨著小編來一起學習學習吧
    2023-07-07
  • PyQt5實現(xiàn)簡易計算器

    PyQt5實現(xiàn)簡易計算器

    這篇文章主要為大家詳細介紹了用PyQt5開發(fā)一個簡易的計算器,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2019-03-03
  • Python直接賦值、淺拷貝與深度拷貝實例分析

    Python直接賦值、淺拷貝與深度拷貝實例分析

    這篇文章主要介紹了Python直接賦值、淺拷貝與深度拷貝,結合實例形式分析了Python直接賦值、淺拷貝與深度拷貝的概念、原理、用法及相關操作注意事項,需要的朋友可以參考下
    2019-06-06
  • Python腳本暴力破解柵欄密碼

    Python腳本暴力破解柵欄密碼

    在滲透測試當中,免不了要進行密碼破解。本文通過好幾種方法給大家介紹python密碼破解,有通用腳本,F(xiàn)TP暴力破解腳本,SSH暴力破解,TELNET密碼暴力破解,感興趣的朋友一起學習吧
    2015-10-10
  • Pytorch 定義MyDatasets實現(xiàn)多通道分別輸入不同數(shù)據(jù)方式

    Pytorch 定義MyDatasets實現(xiàn)多通道分別輸入不同數(shù)據(jù)方式

    今天小編就為大家分享一篇Pytorch 定義MyDatasets實現(xiàn)多通道分別輸入不同數(shù)據(jù)方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-01-01
  • python字符串中兩個大括號{{}}的使用及說明

    python字符串中兩個大括號{{}}的使用及說明

    這篇文章主要介紹了python字符串中兩個大括號{{}}的使用及說明,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2022-11-11
  • Python如何將CSV文件轉JSON文件

    Python如何將CSV文件轉JSON文件

    這篇文章主要給大家介紹了關于Python如何將CSV文件轉JSON文件的相關資料,可以使用Python內(nèi)置的csv和json模塊來實現(xiàn)將csv文件轉為json的操作,文中通過代碼介紹的非常詳細,需要的朋友可以參考下
    2023-11-11
  • 中秋送禮分配不均這款python刮刮卡完美解決問題

    中秋送禮分配不均這款python刮刮卡完美解決問題

    這篇文章主要介紹了用Python實現(xiàn)一個抽獎刮刮卡來解決給小朋友的禮物不均,文中講解非常細致,代碼幫助大家更好的理解和學習,感興趣的朋友可以了解下
    2021-09-09
  • python中列表和元組的區(qū)別

    python中列表和元組的區(qū)別

    給大家詳細講解了python中列表和元組的區(qū)別,需要的朋友參考一下。
    2017-12-12

最新評論