Kmeans均值聚類算法原理以及Python如何實(shí)現(xiàn)
第一步.隨機(jī)生成質(zhì)心
由于這是一個(gè)無(wú)監(jiān)督學(xué)習(xí)的算法,因此我們首先在一個(gè)二維的坐標(biāo)軸下隨機(jī)給定一堆點(diǎn),并隨即給定兩個(gè)質(zhì)心,我們這個(gè)算法的目的就是將這一堆點(diǎn)根據(jù)它們自身的坐標(biāo)特征分為兩類,因此選取了兩個(gè)質(zhì)心,什么時(shí)候這一堆點(diǎn)能夠根據(jù)這兩個(gè)質(zhì)心分為兩堆就對(duì)了。如下圖所示:
第二步.根據(jù)距離進(jìn)行分類
紅色和藍(lán)色的點(diǎn)代表了我們隨機(jī)選取的質(zhì)心。既然我們要讓這一堆點(diǎn)的分為兩堆,且讓分好的每一堆點(diǎn)離其質(zhì)心最近的話,我們首先先求出每一個(gè)點(diǎn)離質(zhì)心的距離。假如說(shuō)有一個(gè)點(diǎn)離紅色的質(zhì)心比例藍(lán)色的質(zhì)心更近,那么我們則將這個(gè)點(diǎn)歸類為紅色質(zhì)心這一類,反之則歸于藍(lán)色質(zhì)心這一類,如圖所示:
第三步.求出同一類點(diǎn)的均值,更新質(zhì)心位置
在這一步當(dāng)中,我們將同一類點(diǎn)的x\y的值進(jìn)行平均,求出所有點(diǎn)之和的平均值,這個(gè)值(x,y)則是我們新的質(zhì)心的位置,如圖所示:
我們可以看到,質(zhì)心的位置已經(jīng)發(fā)生了改變。
第四步.重復(fù)第二步,第三步
我們重復(fù)第二步和第三部的操作,不斷求出點(diǎn)對(duì)質(zhì)心的最小值之后進(jìn)行分類,分類之后再更新質(zhì)心的位置,直到得到迭代次數(shù)的上限(這個(gè)迭代次數(shù)是可以我們自己設(shè)定的,比如10000次),或者在做了n次迭代之后,最后兩次迭代質(zhì)心的位置已經(jīng)保持不變,如下圖所示:
這個(gè)時(shí)候我們就將這一堆點(diǎn)按照它們的特征在沒(méi)有監(jiān)督的條件下,分成了兩類了?。?/p>
五.如果面對(duì)多個(gè)特征確定的一個(gè)點(diǎn)的情況,又該如何實(shí)現(xiàn)聚類呢?
首先我們引入一個(gè)概念,那就是歐式距離,歐式距離是這樣定義的,很容易理解:
很顯然,歐式距離d(xi,xj)等于我們每一個(gè)點(diǎn)的特征去減去另一個(gè)點(diǎn)在該維度下的距離的平方和再開(kāi)根號(hào),十分容易理解。
我們也可以用另一種方式來(lái)理解kmeans算法,那就是使某一個(gè)點(diǎn)的和另一些點(diǎn)的方差做到最小則實(shí)現(xiàn)了聚類,如下圖所示:
得解!
六:代碼實(shí)現(xiàn)
我們現(xiàn)在使用Python語(yǔ)言來(lái)實(shí)現(xiàn)這個(gè)kmeans均值算法,首先我們先導(dǎo)入一個(gè)名叫make_blobs的數(shù)據(jù)集datasets,然后分別使用兩個(gè)變量X,和y進(jìn)行接收。X表示我們得到的數(shù)據(jù),y表示這個(gè)數(shù)據(jù)應(yīng)該被分類到的是哪一個(gè)類別當(dāng)中,當(dāng)然在我們實(shí)際的數(shù)據(jù)當(dāng)中不會(huì)告訴我們哪個(gè)數(shù)據(jù)分在了哪一個(gè)類別當(dāng)中,只會(huì)有X當(dāng)中數(shù)據(jù)。在這里寫代碼的時(shí)候比較特殊,make_blobs庫(kù)要求我們必須接受這兩個(gè)參數(shù),不能夠只接受X這個(gè)數(shù)據(jù)參數(shù),代碼如下
plt.figure(figsize=(15,15))#規(guī)定我們繪圖的大小為12*12 X, y=make_blobs(n_samples=1600,random_state=170)#一共取用1600個(gè)sample,同時(shí)狀態(tài)設(shè)定為隨機(jī) #不知道這個(gè)狀態(tài)隨機(jī)是什么意思,只能查有關(guān)這個(gè)庫(kù)的官方文檔,同時(shí)這個(gè)數(shù)據(jù)集規(guī)定了是具備三個(gè)數(shù)據(jù)中心,也就是三個(gè)簇 y_pred=KMeans(n_clusters=3,random_state=170).fit_predict(X) plt.subplot(221)#表示四個(gè)方格當(dāng)中的第一格 plt.scatter(X[:,0],X[:,1],c=y_pred)#表示數(shù)據(jù)的第0個(gè)和第1個(gè)維度,同時(shí)數(shù)據(jù)的colour與predict的結(jié)果有關(guān) plt.title("The result of the Kmeans") plt.subplot(222)#表示四個(gè)方格當(dāng)中的第一格 plt.scatter(X[:,0],X[:,1],c=y) plt.title("The Real result of the Kmeans") array=np.array([[0.60834549,-0.63667341],[-0.40887178,-0.85253229]]) lashen=np.dot(X,array) y_pred=KMeans(n_clusters=3,random_state=170).fit_predict(lashen) plt.subplot(223)#表示四個(gè)方格當(dāng)中的第一格 plt.scatter(lashen[:,0],lashen[:,1],c=y_pred)#表示數(shù)據(jù)的第0個(gè)和第1個(gè)維度,同時(shí)數(shù)據(jù)的colour與predict的結(jié)果有關(guān) plt.title("The Real result of the tranfored data")
我們?cè)谑褂胹catter函數(shù)進(jìn)行繪圖的時(shí)候會(huì)根據(jù)我們數(shù)據(jù)結(jié)的形狀來(lái)編寫相應(yīng)的代碼,這里我們所拿到的X數(shù)據(jù)集的行數(shù)是我們所指定的1600行,因?yàn)槲覀円还材玫搅?600個(gè)數(shù)據(jù),每一個(gè)數(shù)據(jù)僅有兩個(gè)特征,也就是在XY軸當(dāng)中的坐標(biāo),因此X是一個(gè)二維的ndarray對(duì)象(X是numpy當(dāng)中的ndarray對(duì)象),我們可以打印出來(lái)看看這個(gè)數(shù)據(jù)的構(gòu)成,如下圖所示:
同時(shí)我們也可以看到y(tǒng)也是ndarray對(duì)象,由于我們?cè)诓杉瘮?shù)據(jù)的時(shí)候僅僅接受了3個(gè)簇,make_blobs默認(rèn)接受的是三個(gè)簇(或稱cluster)的緣故,因此最后y的值只有0,1,2這三種可能。我們通過(guò)matplotlib繪圖,繪制出我們分類的結(jié)果圖,也就是上述代碼的運(yùn)行結(jié)果如下:
以上就是Kmeans均值聚類算法原理以及Python如何實(shí)現(xiàn)的詳細(xì)內(nèi)容,更多關(guān)于Kmeans均值聚類算法的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
Python設(shè)置Word頁(yè)面紙張方向?yàn)闄M向
這篇文章主要為大家詳細(xì)介紹了Python設(shè)置Word頁(yè)面紙張方向?yàn)闄M向的相關(guān)知識(shí),文中的示例代碼講解詳細(xì),感興趣的小伙伴可以跟隨小編一起2024-02-02Python實(shí)現(xiàn)將PowerPoint轉(zhuǎn)為HTML格式
有時(shí)我們需要將精心設(shè)計(jì)的PPT發(fā)布到網(wǎng)絡(luò)上以便于更廣泛的訪問(wèn)和分享,本文將介紹如何使用Python將PowerPoint轉(zhuǎn)換為HTML格式,需要的可以參考下2024-04-04Python中使用異常處理來(lái)判斷運(yùn)行的操作系統(tǒng)平臺(tái)方法
這篇文章主要介紹了Python中使用異常處理來(lái)判斷運(yùn)行的操作系統(tǒng)平臺(tái)方法,這個(gè)方法比較新穎,,需要的朋友可以參考下2015-01-01Python模擬實(shí)現(xiàn)全功能貸款計(jì)算器
在個(gè)人理財(cái)中,貸款計(jì)算器是一款非常實(shí)用的工具,本文將教你如何使用Python編寫一個(gè)全功能的貸款計(jì)算器,感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下2023-12-12利用python如何處理百萬(wàn)條數(shù)據(jù)(適用java新手)
這篇文章主要給大家介紹了關(guān)于利用python如何處理百萬(wàn)條數(shù)據(jù)的相關(guān)資料,本文的教程非常適用于java新手,文中通過(guò)示例代碼介紹的非常詳細(xì),需要的朋友可以參考借鑒,下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2018-06-06python用線性回歸預(yù)測(cè)股票價(jià)格的實(shí)現(xiàn)代碼
這篇文章主要介紹了python用線性回歸預(yù)測(cè)股票價(jià)格的實(shí)現(xiàn)代碼,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-09-09python實(shí)現(xiàn)Virginia無(wú)密鑰解密
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)Virginia無(wú)密鑰解密,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2019-03-03