Python入門之后再看點什么好?
不止一次在微信、知乎有讀者朋友跑過來問:看完了基礎書,甚至看兩遍了,但自己寫的時候還是沒思路,我該怎么辦?
編程在我看來就是一門手藝活,絕不是簡單通過看書就能學會的,跟學游泳、學車、學鋼琴一個道理,沒別的,掌握了最基本的理論之后就是干,只有通過大量的練習、實戰(zhàn)才能掌握編程這門技能,之后再回過來頭來繼續(xù)深入理論
這個問題在知識星球也同樣被問,于是在那里我們設了每日一題的專題,每周會出三道題給大家,做完之后要求提交到 GitHub,我會統(tǒng)一對代碼進行 review。這些題一般都是出自于一些真實應用場景,通過這種方式來提高編程水平。
下面這道題我們在星球中的第三題,在你往下翻之前,不妨梳理下你的編程思路。
題目:
統(tǒng)計一個文件中每個單詞出現(xiàn)的次數(shù),列出出現(xiàn)頻率最多的5個單詞。
前言:
這道題在實際應用場景中使用比較廣泛,記得哪里看到說李笑來就利用他的編程技能出版過一本背單詞的暢銷書,統(tǒng)計歷年來四六級、托??荚囍谐霈F(xiàn)的高頻詞匯,學生根據(jù)詞頻來記單詞,這種方式深受大家喜歡。這就是一個把編程技能用來解決實際問題的典型場景。
所以,哪怕你不是程序員,如果能掌握編程技能的話,也能給你的工作帶來極大的便利。
另外,在做數(shù)據(jù)分析時,那些詞云效果本質(zhì)上都是基于詞頻統(tǒng)計來控制字體的大小,如果你能熟練運用Python中的知識來解決問題的話,那說明你真正入門Python了。
分析:
本題主要考察以下幾個方面的知識點:
1、如何正確讀寫文件
在 Python 中讀寫文件可以使用內(nèi)置函數(shù)open(),而 open 函數(shù)在python2 和 python3 中有一定的區(qū)別,比如 Python 中可以指定讀寫文件的編碼格式,而 Python 則不可以,為了同時兼容2和3,我們通常會使用io模塊下面的 open 函數(shù),大家可以查文檔搞清楚它們之間的區(qū)別,培養(yǎng)主動學習能力和查資料的習慣。
另外一點是讀寫文件完成之后是需要關閉文件描述符的,除了可以使用 try...except...finally的語法之后,我們還可以使用更優(yōu)雅的 with … as 的語法來自動關閉文件。
2、如何對數(shù)據(jù)進行排序
sorted函數(shù)是一個使用頻率很高的內(nèi)置函數(shù),它的用法也很強大,因為它可以通過指定參數(shù) key 來進行自定義排序,也就意味著你不僅可以對數(shù)字排序、對字母排序、還可以對列表、字典、自定義的對象進行排序,你只需要要告訴 sorted 函數(shù)的排序規(guī)則是什么,比如一個people對象,我既可以根據(jù)年齡排序也可以根據(jù)身高體重來排序,所以這個函數(shù)時非常靈活的,另外,對于列表對象有自帶的 sort 方法,如果能區(qū)分清楚 list.sort 與 sorted 之間區(qū)別那說明你已經(jīng)能靈活運用了。
3、匿名函數(shù)的使用
剛說了sorted函數(shù)可以指定一個參數(shù)來控制排序的規(guī)則,這個參數(shù)可以是一個函數(shù),這種場景往往匿名函數(shù),就是我們常說的lambda函數(shù)顯得很應景。
4、字典類型的運用
做詞頻統(tǒng)計,用字典無疑是最合適的數(shù)據(jù)類型,單詞作為字典的key, 單詞出現(xiàn)的次數(shù)作為字典的 value,很方便地就記錄好了每個單詞的頻率,字典很像我們的電話本,每個名字關聯(lián)一個電話號碼。另外,字典最大的特點就是它的查詢速度會非常快。理想情況下時間復雜度為O(1),我是說理想情況,如果你想深入了解字典的話,建議看看這篇文章。Python中提供了豐富的數(shù)據(jù)結(jié)構(gòu),要懂得根據(jù)應用場景正確選擇合適的數(shù)據(jù)類型
5、正則表達式的運用
處理文本、字符串,正則表達式簡直是神器,無論是做數(shù)據(jù)爬蟲還是表單驗證使用非常廣泛,當然,正則表達式并不是 Python 特有的東西,所有編程語言都支持,我們除了學習正則表達式的基本規(guī)則之外就是Python中的re模塊提供的各種函數(shù)了,只有熟悉了API 我們才能運用到實際場景中去。關于正則表達式推薦一篇文章:Python正則表達式操作指南
以上5點,每個點都可以整理出一篇文章出來
實現(xiàn):
分析完之后,我們實現(xiàn)起來其實是非??斓摹K晕覀冊谀玫揭粋€需求的時候,首先肯定是把需求弄清楚,想想大概可以用哪些技術(shù)來實現(xiàn),隨后才是動手寫代碼,其實我們在工作上,真正寫代碼的時間還不到一半。
# -*- coding:utf-8 -*- import io import re class Counter: def __init__(self, path): """ :param path: 文件路徑 """ self.mapping = dict() with io.open(path, encoding="utf-8") as f: data = f.read() words = [s.lower() for s in re.findall("\w+", data)] for word in words: self.mapping[word] = self.mapping.get(word, 0) + 1 def most_common(self, n): assert n > 0, "n should be large than 0" return sorted(self.mapping.items(), key=lambda item: item[1], reverse=True)[:n] if __name__ == '__main__': most_common_5 = Counter("importthis.txt").most_common(5) for item in most_common_5: print(item) #注:這里的文件是以Python之禪的19條格言保存到文本中進行統(tǒng)計的。
打印結(jié)果:
('is', 10) ('better', 8) ('than', 8) ('the', 6) ('to', 5)
總結(jié)
當然,實現(xiàn)方法不是唯一的。比如Python模塊本身就提供了一個collections.Counter的類,它繼承自dict類,就是用于做統(tǒng)計的,細心的你可能發(fā)現(xiàn)了,我實現(xiàn)的這個Counter和collections下面那個Counter很像,其實這就是造輪子,造輪子可以鍛煉我們的編程思維,當然在工作上有現(xiàn)成的東西就沒必要自己造輪子了,除非你有信心做得更好。你也可以思考假如Python沒有提供Counter這個工具,你該怎么做。
另外,該模塊還提供一個有序的字典對象 OrderedDict,使用它可以免去我們手動排序的操作。對于上面提及的知識點你是否都了然于心了,如果回答是的話,恭喜你,我想你應該掌握差不多了,進階吧,如果你還有很多不清楚的地方,那么需要你更多的總結(jié)、練習。
來源:python之禪
以上就是本文的全部內(nèi)容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。
相關文章
Windows系統(tǒng)下實現(xiàn)pycharm運行.sh文件(本地運行和打開服務器終端)
PyCharm是Python開發(fā)的高效率IDE,但是很多時候需要同時開發(fā)Bash(shell)腳本,下面這篇文章主要給大家介紹了關于Windows系統(tǒng)下實現(xiàn)pycharm運行.sh文件(本地運行和打開服務器終端)的相關資料,需要的朋友可以參考下2022-09-09在python中計算ssim的方法(與Matlab結(jié)果一致)
這篇文章主要介紹了在python中計算ssim的方法(與Matlab結(jié)果一致),本文通過實例代碼給大家介紹的非常詳細,具有一定的參考借鑒價值,需要的朋友可以參考下2019-12-12pycharm創(chuàng)建django項目出現(xiàn)路徑錯誤問題
在PyCharm中創(chuàng)建Django項目時,若使用之前項目的環(huán)境編譯器,且已修改其根目錄,則新建項目路徑可能出錯。解決辦法是在設置中選擇Project,通過齒輪圖標進入Show?All,選擇編譯器路徑,點擊筆形圖修改Development?configuration的Root?path為/,以確保新項目能正確創(chuàng)建2024-09-09Python 反轉(zhuǎn)字符串(reverse)的方法小結(jié)
這篇文章主要介紹了Python 反轉(zhuǎn)字符串(reverse)的方法小結(jié),需要的朋友可以參考下2018-02-02