亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

python 文本單詞提取和詞頻統(tǒng)計(jì)的實(shí)例

 更新時(shí)間:2018年12月22日 09:13:55   作者:超級(jí)杰哥  
今天小編就為大家分享一篇python 文本單詞提取和詞頻統(tǒng)計(jì)的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧

這些對(duì)文本的操作經(jīng)常用到, 那我就總結(jié)一下。 陸續(xù)補(bǔ)充。。。

操作:

strip_html(cls, text) 去除html標(biāo)簽

separate_words(cls, text, min_lenth=3) 文本提取

get_words_frequency(cls, words_list) 獲取詞頻

源碼:

class DocProcess(object):

 @classmethod
 def strip_html(cls, text):
  """
   Delete html tags in text.
   text is String
  """
  new_text = " "
  is_html = False
  for character in text:
   if character == "<":
    is_html = True
   elif character == ">":
    is_html = False
    new_text += " "
   elif is_html is False:
    new_text += character
  return new_text

 @classmethod
 def separate_words(cls, text, min_lenth=3):
  """
   Separate text into words in list.
  """
  splitter = re.compile("\\W+")
  return [s.lower() for s in splitter.split(text) if len(s) > min_lenth]

 @classmethod
 def get_words_frequency(cls, words_list):
  """
   Get frequency of words in words_list.
   return a dict.
  """
  num_words = {}
  for word in words_list:
   num_words[word] = num_words.get(word, 0) + 1
  return num_words

以上這篇python 文本單詞提取和詞頻統(tǒng)計(jì)的實(shí)例就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。

相關(guān)文章

  • python指定路徑斜杠與反斜杠遇到的問題

    python指定路徑斜杠與反斜杠遇到的問題

    這篇文章主要介紹了python指定路徑斜杠與反斜杠遇到的問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-03-03
  • Python中的SortedList詳解

    Python中的SortedList詳解

    這篇文章主要介紹了Python中的SortedList集合詳解,Python的SortedSet是一個(gè)強(qiáng)大的數(shù)據(jù)結(jié)構(gòu),它結(jié)合了列表和集合的特性,你可以使用sortedcontainers模塊中的SortedList類來創(chuàng)建和操作SortedSet,需要的朋友可以參考下
    2023-09-09
  • Python中的xml與dict的轉(zhuǎn)換方法詳解

    Python中的xml與dict的轉(zhuǎn)換方法詳解

    這篇文章主要介紹了Python中的xml與dict的轉(zhuǎn)換方法詳解,xml 是指可擴(kuò)展標(biāo)記語(yǔ)言,一種標(biāo)記語(yǔ)言類似html,作用是傳輸數(shù)據(jù),而且不是顯示數(shù)據(jù)。可以自定義標(biāo)簽,需要的朋友可以參考下
    2023-07-07
  • Django模板標(biāo)簽{% for %}循環(huán),獲取制定條數(shù)據(jù)實(shí)例

    Django模板標(biāo)簽{% for %}循環(huán),獲取制定條數(shù)據(jù)實(shí)例

    這篇文章主要介紹了Django模板標(biāo)簽{% for %}循環(huán),獲取制定條數(shù)據(jù)實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2020-05-05
  • Numpy中的repeat函數(shù)使用

    Numpy中的repeat函數(shù)使用

    Numpy是Python強(qiáng)大的數(shù)學(xué)計(jì)算庫(kù),和Scipy一起構(gòu)建起Python科學(xué)計(jì)算生態(tài),在本節(jié)下面我們重點(diǎn)介紹下repeat函數(shù)的用法,需要的朋友可以參考下
    2022-11-11
  • Python實(shí)現(xiàn)查找數(shù)據(jù)庫(kù)最接近的數(shù)據(jù)

    Python實(shí)現(xiàn)查找數(shù)據(jù)庫(kù)最接近的數(shù)據(jù)

    這篇文章主要介紹了Python實(shí)現(xiàn)查找數(shù)據(jù)庫(kù)最接近的數(shù)據(jù),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-06-06
  • 詳解JavaScript編程中的window與window.screen對(duì)象

    詳解JavaScript編程中的window與window.screen對(duì)象

    這篇文章主要介紹了JavaScript編程中的window與window.screen對(duì)象,是JS在瀏覽器中視圖編程的基礎(chǔ),需要的朋友可以參考下
    2015-10-10
  • Python列表append和+的區(qū)別淺析

    Python列表append和+的區(qū)別淺析

    這篇文章主要介紹了Python列表append和+的區(qū)別淺析,本文得出一的結(jié)論是使用append實(shí)際是修改一個(gè)列表,使用+實(shí)際是創(chuàng)建一個(gè)新的列表,需要的朋友可以參考下
    2015-02-02
  • python 實(shí)現(xiàn)添加標(biāo)簽&打標(biāo)簽的操作

    python 實(shí)現(xiàn)添加標(biāo)簽&打標(biāo)簽的操作

    這篇文章主要介紹了python 實(shí)現(xiàn)添加標(biāo)簽&打標(biāo)簽的操作,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2021-05-05
  • Python中shutil模塊的使用詳解

    Python中shutil模塊的使用詳解

    這篇文章主要為大家介紹了Python中shutil模塊的使用方法,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來幫助
    2022-01-01

最新評(píng)論