快捷導(dǎo)航

基于Python編寫(xiě)一個(gè)簡(jiǎn)單的垃圾郵件分類(lèi)器

更新時(shí)間：2023年04月13日 11:50:17 作者：海擁

隨著電子郵件的廣泛使用，垃圾郵件也日益增多，本篇文章將介紹如何使用Python實(shí)現(xiàn)一個(gè)簡(jiǎn)單的垃圾郵件分類(lèi)器，幫助您更好地管理自己的電子郵件，需要的可以參考一下

隨著電子郵件的廣泛使用，垃圾郵件也日益增多，對(duì)用戶造成了很大的困擾。因此，開(kāi)發(fā)一個(gè)能夠自動(dòng)分類(lèi)和過(guò)濾垃圾郵件的程序就顯得非常重要。本篇文章將介紹如何使用Python實(shí)現(xiàn)一個(gè)簡(jiǎn)單的垃圾郵件分類(lèi)器，幫助您更好地管理自己的電子郵件。

準(zhǔn)備工作

在開(kāi)始編寫(xiě)代碼之前，我們需要準(zhǔn)備以下的環(huán)境和庫(kù)：

Python 3.x
scikit-learn庫(kù)
pandas庫(kù)
numpy庫(kù)
NLTK庫(kù)

scikit-learn是一個(gè)常用的機(jī)器學(xué)習(xí)庫(kù)，用于實(shí)現(xiàn)各種分類(lèi)算法。pandas和numpy庫(kù)是用于數(shù)據(jù)處理和分析的常用庫(kù)。NLTK是一個(gè)自然語(yǔ)言處理庫(kù)，用于處理文本數(shù)據(jù)。

數(shù)據(jù)集

為了訓(xùn)練和測(cè)試我們的垃圾郵件分類(lèi)器，我們需要一個(gè)數(shù)據(jù)集。在本教程中，我們將使用Spambase數(shù)據(jù)集，該數(shù)據(jù)集由UCI機(jī)器學(xué)習(xí)庫(kù)提供。該數(shù)據(jù)集包含4601個(gè)電子郵件的特征值和一個(gè)二元分類(lèi)標(biāo)簽，0表示正常郵件，1表示垃圾郵件。可以在以下網(wǎng)址下載Spambase數(shù)據(jù)集：https://archive.ics.uci.edu/ml/datasets/Spambase

加載數(shù)據(jù)

首先，我們需要將Spambase數(shù)據(jù)集加載到Python中。我們可以使用pandas庫(kù)中的read_csv函數(shù)來(lái)加載數(shù)據(jù)：

import pandas as pd data = pd.read_csv("spambase.data")

加載完成后，我們可以使用以下代碼查看數(shù)據(jù)集的前5行：

print(data.head())

數(shù)據(jù)預(yù)處理

在將數(shù)據(jù)用于分類(lèi)器之前，我們需要進(jìn)行一些數(shù)據(jù)預(yù)處理。首先，我們需要將數(shù)據(jù)分成特征值和分類(lèi)標(biāo)簽兩個(gè)部分：

X = data.iloc[:, :-1].values y = data.iloc[:, -1].values

接下來(lái)，我們將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集。我們可以使用scikit-learn庫(kù)中的train_test_split函數(shù)將數(shù)據(jù)集隨機(jī)分成訓(xùn)練集和測(cè)試集：

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

最后，我們需要進(jìn)行特征縮放，將所有特征值縮放到相同的尺度上。我們可以使用scikit-learn庫(kù)中的StandardScaler類(lèi)來(lái)完成特征縮放：

from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

訓(xùn)練分類(lèi)器

在完成數(shù)據(jù)預(yù)處理后，我們可以開(kāi)始訓(xùn)練我們的垃圾郵件分類(lèi)器。在本教程中，我們將使用支持向量機(jī)（SVM）算法作為分類(lèi)器。我們可以使用scikit-learn庫(kù)中的SVM類(lèi)來(lái)訓(xùn)練我們的分類(lèi)器：

from sklearn.svm import SVC 
classifier = SVC(kernel='linear', random_state=0) 
classifier.fit(X_train, y_train)

在這里，我們選擇線性核函數(shù)作為SVM的核函數(shù)，random_state參數(shù)用于保證每次運(yùn)行程序時(shí)得到的結(jié)果相同。

測(cè)試分類(lèi)器

在完成訓(xùn)練后，我們可以使用測(cè)試集來(lái)測(cè)試我們的垃圾郵件分類(lèi)器。我們可以使用以下代碼來(lái)預(yù)測(cè)測(cè)試集中的分類(lèi)標(biāo)簽：

y_pred = classifier.predict(X_test)

接下來(lái)，我們可以使用以下代碼來(lái)計(jì)算分類(lèi)器的準(zhǔn)確率、精確率、召回率和F1分?jǐn)?shù)：

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

print("Accuracy:", accuracy_score(y_test, y_pred))
print("Precision:", precision_score(y_test, y_pred))
print("Recall:", recall_score(y_test, y_pred))
print("F1 score:", f1_score(y_test, y_pred))

在這里，accuracy_score函數(shù)用于計(jì)算準(zhǔn)確率，precision_score函數(shù)用于計(jì)算精確率，recall_score函數(shù)用于計(jì)算召回率，f1_score函數(shù)用于計(jì)算F1分?jǐn)?shù)。

結(jié)論

在本教程中，我們使用Python實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的垃圾郵件分類(lèi)器。我們使用Spambase數(shù)據(jù)集訓(xùn)練了一個(gè)SVM分類(lèi)器，并使用測(cè)試集對(duì)其進(jìn)行了測(cè)試。通過(guò)計(jì)算準(zhǔn)確率、精確率、召回率和F1分?jǐn)?shù)，我們發(fā)現(xiàn)分類(lèi)器的表現(xiàn)很好，可以有效地識(shí)別垃圾郵件。這個(gè)簡(jiǎn)單的垃圾郵件分類(lèi)器可以為您的電子郵件管理提供幫助，讓您更加高效地處理郵件。

以上就是基于Python編寫(xiě)一個(gè)簡(jiǎn)單的垃圾郵件分類(lèi)器的詳細(xì)內(nèi)容，更多關(guān)于Python垃圾郵件分類(lèi)器的資料請(qǐng)關(guān)注腳本之家

您可能感興趣的文章:

相關(guān)文章

這篇文章主要介紹了Python使用UDP實(shí)現(xiàn)720p視頻傳輸?shù)牟僮?，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
2021-04-04

pytorch模型預(yù)測(cè)結(jié)果與ndarray互轉(zhuǎn)方式

今天小編就為大家分享一篇pytorch模型預(yù)測(cè)結(jié)果與ndarray互轉(zhuǎn)方式，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧

2020-01-01

python將視頻轉(zhuǎn)換為全字符視頻

這篇文章主要為大家詳細(xì)介紹了Python將視頻轉(zhuǎn)換為全字符視頻，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下

2019-04-04

Python使用OpenPyXL處理Excel表格

這篇文章主要介紹了Python使用OpenPyXL處理Excel表格,文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下

2020-07-07

對(duì)python讀取zip壓縮文件里面的csv數(shù)據(jù)實(shí)例詳解

今天小編就為大家分享一篇對(duì)python讀取zip壓縮文件里面的csv數(shù)據(jù)實(shí)例詳解，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧

2019-02-02

Python對(duì)FTP交互封裝的實(shí)現(xiàn)

本文主要介紹了Python對(duì)FTP交互封裝的實(shí)現(xiàn)，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

2022-06-06

Python自定義類(lèi)的數(shù)組排序?qū)崿F(xiàn)代碼

這篇文章主要介紹了Python自定義類(lèi)的數(shù)組排序?qū)崿F(xiàn)代碼,需要的朋友可以參考下

2016-08-08

Python 運(yùn)行.py文件和交互式運(yùn)行代碼的區(qū)別詳解

這篇文章主要介紹了Python 運(yùn)行.py文件和交互式運(yùn)行代碼的區(qū)別詳解，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

2019-07-07

元組列表字典（莫煩python基礎(chǔ)）

這篇文章主要介紹了python元組列表字典，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

2019-04-04

利用pyuic5將ui文件轉(zhuǎn)換為py文件的方法

今天小編就為大家分享一篇利用pyuic5將ui文件轉(zhuǎn)換為py文件的方法，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧

2019-06-06

亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

軟件下載

源碼下載

軟件編程

網(wǎng)絡(luò)編程

在線工具

數(shù)據(jù)庫(kù)

CMS

常用工具

基于Python編寫(xiě)一個(gè)簡(jiǎn)單的垃圾郵件分類(lèi)器

目錄

準(zhǔn)備工作

數(shù)據(jù)集

加載數(shù)據(jù)

數(shù)據(jù)預(yù)處理

訓(xùn)練分類(lèi)器

測(cè)試分類(lèi)器

結(jié)論

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具