亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Python自然語言處理 NLTK 庫用法入門教程【經(jīng)典】

 更新時(shí)間:2018年06月26日 10:33:51   作者:hzp666  
這篇文章主要介紹了Python自然語言處理 NLTK 庫用法,結(jié)合實(shí)例形式詳細(xì)分析了NLTK庫的功能、安裝、引用以及使用NLTK庫進(jìn)行文本分析的各種常用操作技巧,需要的朋友可以參考下

本文實(shí)例講述了Python自然語言處理 NLTK 庫用法。分享給大家供大家參考,具體如下:

在這篇文章中,我們將基于 Python 討論自然語言處理(NLP)。本教程將會(huì)使用 Python NLTK 庫。NLTK 是一個(gè)當(dāng)下流行的,用于自然語言處理的 Python 庫。

那么 NLP 到底是什么?學(xué)習(xí) NLP 能帶來什么好處?

簡單的說,自然語言處理( NLP )就是開發(fā)能夠理解人類語言的應(yīng)用程序和服務(wù)。

我們生活中經(jīng)常會(huì)接觸的自然語言處理的應(yīng)用,包括語音識別,語音翻譯,理解句意,理解特定詞語的同義詞,以及寫出語法正確,句意通暢的句子和段落。

NLP的作用

正如大家所知,每天博客,社交網(wǎng)站和網(wǎng)頁會(huì)產(chǎn)生數(shù)億字節(jié)的海量數(shù)據(jù)。

有很多公司熱衷收集所有這些數(shù)據(jù),以便更好地了解他們的用戶和用戶對產(chǎn)品的熱情,并對他們的產(chǎn)品或者服務(wù)進(jìn)行合適的調(diào)整。

這些海量數(shù)據(jù)可以揭示很多現(xiàn)象,打個(gè)比方說,巴西人對產(chǎn)品 A 感到滿意,而美國人卻對產(chǎn)品 B 更感興趣。通過NLP,這類的信息可以即時(shí)獲得(即實(shí)時(shí)結(jié)果)。例如,搜索引擎正是一種 NLP,可以在正確的時(shí)間給合適的人提供適當(dāng)?shù)慕Y(jié)果。

但是搜索引擎并不是自然語言處理(NLP)的唯一應(yīng)用。還有更好更加精彩的應(yīng)用。

NLP的應(yīng)用

以下都是自然語言處理(NLP)的一些成功應(yīng)用:

  • 搜索引擎,比如谷歌,雅虎等等。谷歌等搜索引擎會(huì)通過NLP了解到你是一個(gè)科技發(fā)燒友,所以它會(huì)返回科技相關(guān)的結(jié)果。
  • 社交網(wǎng)站信息流,比如 Facebook 的信息流。新聞饋送算法通過自然語言處理了解到你的興趣,并向你展示相關(guān)的廣告以及消息,而不是一些無關(guān)的信息。
  • 語音助手,諸如蘋果 Siri。
  • 垃圾郵件程序,比如 Google 的垃圾郵件過濾程序 ,這不僅僅是通常會(huì)用到的普通的垃圾郵件過濾,現(xiàn)在,垃圾郵件過濾器會(huì)對電子郵件的內(nèi)容進(jìn)行分析,看看該郵件是否是垃圾郵件。

NLP庫

現(xiàn)在有許多開源的自然語言處理(NLP)庫。比如:

  • Natural language toolkit (NLTK)
  • Apache OpenNLP
  • Stanford NLP suite
  • Gate NLP library

自然語言工具包(NLTK)是最受歡迎的自然語言處理(NLP)庫。它是用 Python 語言編寫的,背后有強(qiáng)大的社區(qū)支持。

NLTK 也很容易入門,實(shí)際上,它將是你用到的最簡單的自然語言處理(NLP)庫。

在這個(gè) NLP 教程中,我們將使用 Python NLTK 庫。在開始安裝  NLTK 之前,我假設(shè)你知道一些 Python入門知識。

安裝 NLTK

如果你使用的是 Windows , Linux 或 Mac,你可以 使用PIP 安裝NLTK: # pip install nltk。

在本文撰寫之時(shí),你可以在 Python 2.7 , 3.4 和 3.5 上都可以使用NLTK?;蛘呖梢酝ㄟ^獲取tar 進(jìn)行源碼安裝。

要檢查 NLTK 是否正確地安裝完成,可以打開你的Python終端并輸入以下內(nèi)容:Import nltk。如果一切順利,這意味著你已經(jīng)成功安裝了 NLTK 庫。

一旦你安裝了 NLTK,你可以運(yùn)行下面的代碼來安裝 NLTK 包:

import nltk
nltk.download()

這將打開 NLTK 下載器來選擇需要安裝的軟件包。

你可以選擇安裝所有的軟件包,因?yàn)樗鼈兊娜萘坎淮?,所以沒有什么問題?,F(xiàn)在,我們開始學(xué)習(xí)吧!

使用原生 Python 來對文本進(jìn)行分詞

首先,我們將抓取一些網(wǎng)頁內(nèi)容。然后來分析網(wǎng)頁文本,看看爬下來的網(wǎng)頁的主題是關(guān)于什么。我們將使用 urllib模塊來抓取網(wǎng)頁:

import urllib.request
response = urllib.request.urlopen('http://php.net/')
html = response.read()
print (html)

從打印輸出中可以看到,結(jié)果中包含許多需要清理的HTML標(biāo)記。我們可以用這個(gè)  BeautifulSoup 庫來對抓取的文本進(jìn)行處理:

from bs4 import BeautifulSoup
import urllib.request
response = urllib.request.urlopen('http://php.net/')
html = response.read()
soup = BeautifulSoup(html,"html5lib")
text = soup.get_text(strip=True)
print (text)

現(xiàn)在,我們能將抓取的網(wǎng)頁轉(zhuǎn)換為干凈的文本。這很棒,不是么?

最后,讓我們通過以下方法將文本分詞:

from bs4 import BeautifulSoup
import urllib.request
response = urllib.request.urlopen('http://php.net/')
html = response.read()
soup = BeautifulSoup(html,"html5lib")
text = soup.get_text(strip=True)
tokens = [t for t in text.split()]
print (tokens)

詞頻統(tǒng)計(jì)

現(xiàn)在的文本相比之前的 html 文本好多了。我們再使用 Python NLTK 來計(jì)算每個(gè)詞的出現(xiàn)頻率。NLTK 中的FreqDist( ) 函數(shù)可以實(shí)現(xiàn)詞頻統(tǒng)計(jì)的功能 :

from bs4 import BeautifulSoup
import urllib.request
import nltk
response = urllib.request.urlopen('http://php.net/')
html = response.read()
soup = BeautifulSoup(html,"html5lib")
text = soup.get_text(strip=True)
tokens = [t for t in text.split()]
freq = nltk.FreqDist(tokens)
for key,val in freq.items():
  print (str(key) + ':' + str(val))

如果你查看輸出結(jié)果,會(huì)發(fā)現(xiàn)最常用的詞語是PHP。

你可以用繪圖函數(shù)為這些詞頻繪制一個(gè)圖形: freq.plot(20, cumulative=False)。

從圖中,你可以肯定這篇文章正在談?wù)?PHP。這很棒!有一些詞,如"the," "of," "a," "an," 等等。這些詞是停止詞。一般來說,停止詞語應(yīng)該被刪除,以防止它們影響我們的結(jié)果。

使用 NLTK 刪除停止詞

NLTK 具有大多數(shù)語言的停止詞表。要獲得英文停止詞,你可以使用以下代碼:

from nltk.corpus import stopwords
stopwords.words('english')

現(xiàn)在,讓我們修改我們的代碼,并在繪制圖形之前清理標(biāo)記。首先,我們復(fù)制一個(gè)列表。然后,我們通過對列表中的標(biāo)記進(jìn)行遍歷并刪除其中的停止詞:

clean_tokens = tokens[:]
sr = stopwords.words('english')
for token in tokens:
  if token in stopwords.words('english'):
    clean_tokens.remove(token)

你可以在這里查看Python List 函數(shù),  了解如何處理列表。

最終的代碼應(yīng)該是這樣的:

from bs4 import BeautifulSoup
import urllib.request
import nltk
from nltk.corpus import stopwords
response = urllib.request.urlopen('http://php.net/')
html = response.read()
soup = BeautifulSoup(html,"html5lib")
text = soup.get_text(strip=True)
tokens = [t for t in text.split()]
clean_tokens = tokens[:]
sr = stopwords.words('english')
for token in tokens:
  if token in stopwords.words('english'):
    clean_tokens.remove(token)
freq = nltk.FreqDist(clean_tokens)
for key,val in freq.items():
  print (str(key) + ':' + str(val))

如果你現(xiàn)在檢查圖表,會(huì)感覺比之前那張圖標(biāo)更加清晰,因?yàn)闆]有了停止詞的干擾。

freq.plot(20,cumulative=False)

使用 NLTK 對文本分詞

我們剛剛了解了如何使用 split( ) 函數(shù)將文本分割為標(biāo)記 。現(xiàn)在,我們將看到如何使用 NLTK 對文本進(jìn)行標(biāo)記化。對文本進(jìn)行標(biāo)記化是很重要的,因?yàn)槲谋緹o法在沒有進(jìn)行標(biāo)記化的情況下被處理。標(biāo)記化意味著將較大的部分分隔成更小的單元。

你可以將段落分割為句子,并根據(jù)你的需要將句子分割為單詞。NLTK 具有內(nèi)置的句子標(biāo)記器和詞語標(biāo)記器。

假設(shè)我們有如下的示例文本:

Hello Adam, how are you? I hope everything is going well.  Today is a good day, see you dude.

為了將這個(gè)文本標(biāo)記化為句子,我們可以使用句子標(biāo)記器:

from nltk.tokenize import sent_tokenize
mytext = "Hello Adam, how are you? I hope everything is going well. Today is a good day, see you dude."
print(sent_tokenize(mytext))

輸出如下:

['Hello Adam, how are you?', 'I hope everything is going well.', 'Today is a good day, see you dude.']

你可能會(huì)說,這是一件容易的事情。我不需要使用 NLTK 標(biāo)記器,并且我可以使用正則表達(dá)式來分割句子,因?yàn)槊總€(gè)句子前后都有標(biāo)點(diǎn)符號或者空格。

那么,看看下面的文字:

Hello Mr. Adam, how are you? I hope everything is going well. Today is a good day, see you dude.

呃!Mr. 是一個(gè)詞,雖然帶有一個(gè)符號。讓我們來試試使用 NLTK 進(jìn)行分詞:

from nltk.tokenize import sent_tokenize
mytext = "Hello Mr. Adam, how are you? I hope everything is going well. Today is a good day, see you dude."
print(sent_tokenize(mytext))

輸出如下所示:

['Hello Mr. Adam, how are you?', 'I hope everything is going well.', 'Today is a good day, see you dude.']

Great!結(jié)果棒極了。然后我們嘗試使用詞語標(biāo)記器來看看它是如何工作的:

from nltk.tokenize import word_tokenize
mytext = "Hello Mr. Adam, how are you? I hope everything is going well. Today is a good day, see you dude."
print(word_tokenize(mytext))

輸出如下:

['Hello', 'Mr.', 'Adam', ',', 'how', 'are', 'you', '?', 'I', 'hope', 'everything', 'is', 'going', 'well', '.', 'Today', 'is', 'a', 'good', 'day', ',', 'see', 'you', 'dude', '.']

正如所料,Mr. 是一個(gè)詞,也確實(shí)被 NLTK 當(dāng)做一個(gè)詞。NLTK使用 nltk.tokenize.punkt module 中的  PunktSentenceTokenizer 進(jìn)行文本分詞。這個(gè)標(biāo)記器經(jīng)過了良好的訓(xùn)練,可以對多種語言進(jìn)行分詞 。

標(biāo)記非英語語言文本

為了標(biāo)記其他語言,可以像這樣指定語言:

from nltk.tokenize import sent_tokenize
mytext = "Bonjour M. Adam, comment allez-vous? J'espère que tout va bien. Aujourd'hui est un bon jour."
print(sent_tokenize(mytext,"french"))

結(jié)果將是這樣的:

['Bonjour M. Adam, comment allez-vous?', "J'espère que tout va bien.", "Aujourd'hui est un bon jour."]

NLTk 對其他非英語語言的支持也非常好!

從 WordNet 獲取同義詞

如果你還記得我們使用 nltk.download( ) 安裝 NLTK 的擴(kuò)展包時(shí)。其中一個(gè)擴(kuò)展包名為 WordNet。WordNet 是為自然語言處理構(gòu)建的數(shù)據(jù)庫。它包括部分詞語的一個(gè)同義詞組和一個(gè)簡短的定義。

通過 NLTK 你可以得到給定詞的定義和例句:

from nltk.corpus import wordnet
syn = wordnet.synsets("pain")
print(syn[0].definition())
print(syn[0].examples())

結(jié)果是:

a symptom of some physical hurt or disorder
['the patient developed severe pain and distension']

WordNet 包含了很多詞的定義:

from nltk.corpus import wordnet
syn = wordnet.synsets("NLP")
print(syn[0].definition())
syn = wordnet.synsets("Python")
print(syn[0].definition())

結(jié)果是:

the branch of information science that deals with natural language information
large Old World boas

您可以使用 WordNet 來獲得同義詞:

from nltk.corpus import wordnet
synonyms = []
for syn in wordnet.synsets('Computer'):
  for lemma in syn.lemmas():
    synonyms.append(lemma.name())
print(synonyms)

輸出是:

['computer', 'computing_machine', 'computing_device', 'data_processor', 'electronic_computer', 'information_processing_system', 'calculator', 'reckoner', 'figurer', 'estimator', 'computer']

Cool!

從 WordNet 獲取反義詞

你可以用同樣的方法得到單詞的反義詞。你唯一要做的是在將 lemmas 的結(jié)果加入數(shù)組之前,檢查結(jié)果是否確實(shí)是一個(gè)正確的反義詞。

from nltk.corpus import wordnet
antonyms = []
for syn in wordnet.synsets("small"):
  for l in syn.lemmas():
    if l.antonyms():
      antonyms.append(l.antonyms()[0].name())
print(antonyms)

輸出是:

['large', 'big', 'big']

這就是 NLTK 在自然語言處理中的力量。

NLTK詞干提取

單詞詞干提取就是從單詞中去除詞綴并返回詞根。(比方說 working 的詞干是 work。)搜索引擎在索引頁面的時(shí)候使用這種技術(shù),所以很多人通過同一個(gè)單詞的不同形式進(jìn)行搜索,返回的都是相同的,有關(guān)這個(gè)詞干的頁面。

詞干提取的算法有很多,但最常用的算法是 Porter 提取算法。NLTK 有一個(gè) PorterStemmer 類,使用的就是 Porter 提取算法。

from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
print(stemmer.stem('working'))

結(jié)果是: 

work

結(jié)果很清楚。

還有其他一些提取算法,如 Lancaster 提取算法。這個(gè)算法的輸出同 Porter 算法的結(jié)果在幾個(gè)單詞上不同。你可以嘗試他們兩個(gè)算法來查看有哪些不同結(jié)果。

提取非英語單詞詞干

SnowballStemmer 類,除了英語外,還可以適用于其他 13 種語言。支持的語言如下:

from nltk.stem import SnowballStemmer
print(SnowballStemmer.languages)
'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'porter', 'portuguese', 'romanian', 'russian', 'spanish', 'swedish'

你可以使用 SnowballStemmer 類的 stem()函數(shù)來提取非英語單詞,如下所示:

from nltk.stem import SnowballStemmer
french_stemmer = SnowballStemmer('french')
print(french_stemmer.stem("French word"))

來自法國的朋友歡迎在評論區(qū) poll 出你們測試的結(jié)果!

使用 WordNet 引入詞匯

詞匯的詞匯化與提取詞干類似,但不同之處在于詞匯化的結(jié)果是一個(gè)真正的詞匯。與詞干提取不同,當(dāng)你試圖提取一些詞干時(shí),有可能會(huì)導(dǎo)致這樣的情況:

from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
print(stemmer.stem('increases'))

結(jié)果是:

increas

現(xiàn)在,如果我們試圖用NLTK WordNet來還原同一個(gè)詞,結(jié)果會(huì)是正確的:

from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize('increases'))

結(jié)果是:

 increase

結(jié)果可能是同義詞或具有相同含義的不同詞語。有時(shí),如果你試圖還原一個(gè)詞,比如 playing,還原的結(jié)果還是 playing。這是因?yàn)槟J(rèn)還原的結(jié)果是名詞,如果你想得到動(dòng)詞,可以通過以下的方式指定。

from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize('playing', pos="v"))

結(jié)果是: 

play

實(shí)際上,這是一個(gè)非常好的文本壓縮水平。最終壓縮到原文本的 50% 到 60% 左右。結(jié)果可能是動(dòng)詞,名詞,形容詞或副詞:

from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize('playing', pos="v"))
print(lemmatizer.lemmatize('playing', pos="n"))
print(lemmatizer.lemmatize('playing', pos="a"))
print(lemmatizer.lemmatize('playing', pos="r"))

結(jié)果是:

play
playing
playing
playing

詞干化和詞化差異

好吧,讓我們分別嘗試一些單詞的詞干提取和詞形還原:

from nltk.stem import WordNetLemmatizer
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
lemmatizer = WordNetLemmatizer()
print(stemmer.stem('stones'))
print(stemmer.stem('speaking'))
print(stemmer.stem('bedroom'))
print(stemmer.stem('jokes'))
print(stemmer.stem('lisa'))
print(stemmer.stem('purple'))
print('----------------------')
print(lemmatizer.lemmatize('stones'))
print(lemmatizer.lemmatize('speaking'))
print(lemmatizer.lemmatize('bedroom'))
print(lemmatizer.lemmatize('jokes'))
print(lemmatizer.lemmatize('lisa'))
print(lemmatizer.lemmatize('purple'))

結(jié)果是:

stone
speak
bedroom
joke
lisa
purpl
----------------------
stone
speaking
bedroom
joke
lisa
purple

詞干提取的方法可以在不知道語境的情況下對詞匯使用,這就是為什么它相較詞形還原方法速度更快但準(zhǔn)確率更低。

在我看來,詞形還原比提取詞干的方法更好。詞形還原,如果實(shí)在無法返回這個(gè)詞的變形,也會(huì)返回另一個(gè)真正的單詞;這個(gè)單詞可能是一個(gè)同義詞,但不管怎樣這是一個(gè)真正的單詞。當(dāng)有時(shí)候,你不關(guān)心準(zhǔn)確度,需要的只是速度。在這種情況下,詞干提取的方法更好。

我們在本 NLP 教程中討論的所有步驟都涉及到文本預(yù)處理。在以后的文章中,我們將討論使用Python NLTK進(jìn)行文本分析。

更多關(guān)于Python相關(guān)內(nèi)容感興趣的讀者可查看本站專題:《Python數(shù)學(xué)運(yùn)算技巧總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進(jìn)階經(jīng)典教程》及《Python文件與目錄操作技巧匯總

希望本文所述對大家Python程序設(shè)計(jì)有所幫助。

相關(guān)文章

  • 解決Windows下PowerShell無法進(jìn)入Python虛擬環(huán)境問題

    解決Windows下PowerShell無法進(jìn)入Python虛擬環(huán)境問題

    這篇文章主要介紹了解決Windows下PowerShell無法進(jìn)入Python虛擬環(huán)境問題,具有很好的參考價(jià)值,希望對大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2024-02-02
  • python測試攻略pytest.main()隱藏利器實(shí)例探究

    python測試攻略pytest.main()隱藏利器實(shí)例探究

    在Pytest測試框架中,pytest.main()是一個(gè)重要的功能,用于啟動(dòng)測試執(zhí)行,它允許以不同方式運(yùn)行測試,傳遞參數(shù)和配置選項(xiàng),本文將深入探討pytest.main()的核心功能,提供豐富的示例代碼和更全面的內(nèi)容,
    2024-01-01
  • python 使用pandas同時(shí)對多列進(jìn)行賦值

    python 使用pandas同時(shí)對多列進(jìn)行賦值

    這篇文章主要介紹了python 使用pandas同時(shí)對多列進(jìn)行賦值操作,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2021-03-03
  • Python?matplotlib繪制灰度和彩色直方圖

    Python?matplotlib繪制灰度和彩色直方圖

    Matplotlib是Python的繪圖庫,它能讓使用者很輕松地將數(shù)據(jù)圖形化,并且提供多樣化的輸出格式。本文將為大家介紹如何用matplotlib繪制灰度和彩色直方圖,感興趣的朋友可以學(xué)習(xí)一下
    2021-12-12
  • Python數(shù)據(jù)類型之Number數(shù)字操作實(shí)例詳解

    Python數(shù)據(jù)類型之Number數(shù)字操作實(shí)例詳解

    這篇文章主要介紹了Python數(shù)據(jù)類型之Number數(shù)字操作,結(jié)合實(shí)例形式詳細(xì)分析了Python數(shù)字類型的概念、功能、分類及常用數(shù)學(xué)函數(shù)相關(guān)使用技巧,需要的朋友可以參考下
    2019-05-05
  • python dict如何定義

    python dict如何定義

    在本篇文章里小編給大家整理的是關(guān)于python dict如何定義的相關(guān)知識點(diǎn)內(nèi)容,需要的朋友們可以參考下。
    2020-09-09
  • 超詳細(xì)注釋之OpenCV按位AND OR XOR和NOT

    超詳細(xì)注釋之OpenCV按位AND OR XOR和NOT

    這篇文章主要介紹了OpenCV按位AND OR XOR和NOT運(yùn)算,本文給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2021-09-09
  • 詳解Python3.1版本帶來的核心變化

    詳解Python3.1版本帶來的核心變化

    這篇文章主要介紹了詳解Python3.1版本帶來的核心變化,Python3.1的版本升級在3.0的基礎(chǔ)上帶來了更多影響以后版本的變化,本文分析了其中一些常用功能的改變,如Maketrans函數(shù)等,需要的朋友可以參考下
    2015-04-04
  • Python?Flask?實(shí)現(xiàn)?HTML?文件壓縮案例代碼(9?級壓縮)

    Python?Flask?實(shí)現(xiàn)?HTML?文件壓縮案例代碼(9?級壓縮)

    這篇文章主要介紹了Python?Flask?實(shí)現(xiàn)?HTML?文件壓縮案例代碼(9?級壓縮),本案例是基于?Python?Flask?進(jìn)行搭建,所以需要提前搭建一個(gè)?Flask?項(xiàng)目環(huán)境,有?app.py?文件和?templates/index.html?文件即可,需要的朋友可以參考下
    2023-01-01
  • Python多線程與異步處理在HTTP請求中的應(yīng)用方式

    Python多線程與異步處理在HTTP請求中的應(yīng)用方式

    這篇文章主要介紹了Python多線程與異步處理在HTTP請求中的應(yīng)用方式,具有很好的參考價(jià)值,希望對大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2024-06-06

最新評論