python 統(tǒng)計文件中的字符串數(shù)目示例
題目:
一個txt文件中已知數(shù)據(jù)格式為:
C4D
C4D/maya
C4D
C4D/su
C4D/max/AE
統(tǒng)計每個字段出現(xiàn)的次數(shù),比如C4D、maya
先讀取文件,將文件中的數(shù)據(jù)抽取出來:
def getWords(filepath): file = open(filepath) wordOne=[] while(file): line = file.readline() word = line.split('/') wordOne.extend(word) if(not line): #若讀取結(jié)束了 break wordtwo=[] for i in wordOne: wordtwo.extend(i.split()) return wordtwo
說明:這個有一個要注意的地方是文件是被”\n”,”/”兩種格式分割而來的,因此需要split兩次。
然后定義一個dict,遍歷數(shù)據(jù),代碼如下所示:
def getWordNum(words): dictWord={} for i in words: if(i not in dictWord): dictWord[i]=0 dictWord[i]+=1 return dictWord
主函數(shù)的調(diào)用:
filepath='data/new.txt' words = getWords(filepath) dictword = getWordNum(words) print(dictword)
結(jié)果:
{'C4D': 9, 'max': 1, 'su': 1, 'maya': 1, 'AE': 3}
說明:
1,
print(type(word)) print(type(splitData[0]))
輸出為:
<class 'list'> <class 'str'>
就是當splitData.extend()執(zhí)行之后就將原本是list類型的數(shù)據(jù)轉(zhuǎn)換成str類型的存儲起來。只有對str類型的數(shù)據(jù)才能用split函數(shù)
2,
import os print(os.getcwd())
這個可以輸出當前所在位置,對于讀取文件很有用。
在讀入文件并對文件進行切分的時候,若是含有的切分詞太多,那么使用re.split()方法是最方便的,如下所示:
filepath='data/new.txt' file = open(filepath) #讀取文件 wordOne=[] symbol = '\n/' #定義分隔符 symbol = "["+symbol+"]" #拼接正則表達式 while(file): line = file.readline() word = re.split(symbol,line) wordOne.extend(word) if(not line): break #通過上式得到的list中會含有很多的空字符串,所以要去空 wordOne = [x for x in wordOne if x]
以上這篇python 統(tǒng)計文件中的字符串數(shù)目示例就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關(guān)文章
Python requests timeout的設(shè)置
這篇文章主要介紹了Python requests timeout的設(shè)置,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2021-04-04Django models.py應用實現(xiàn)過程詳解
這篇文章主要介紹了Django models.py應用實現(xiàn)過程詳解,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下2019-07-07