python實(shí)現(xiàn)k-means算法
聚類屬于無(wú)監(jiān)督學(xué)習(xí),K-means
算法是很典型的基于距離的聚類算法,采用距離作為相似性的評(píng)價(jià)指標(biāo),即認(rèn)為兩個(gè)對(duì)象的距離越近,其相似度就越大。該算法認(rèn)為簇是由距離靠近的對(duì)象組成的,因此把得到緊湊且獨(dú)立的簇作為最終目標(biāo)。
下面來(lái)看看python實(shí)現(xiàn)k-means算法的詳細(xì)代碼吧:
# -*- coding:utf-8 -*- import random import numpy as np from matplotlib import pyplot class K_Means(object): ? ? # k是分組數(shù);tolerance‘中心點(diǎn)誤差';max_iter是迭代次數(shù) ? ? def __init__(self, k=2, tolerance=0.0001, max_iter=300): ? ? ? ? self.k_ = k ? ? ? ? self.tolerance_ = tolerance ? ? ? ? self.max_iter_ = max_iter ? ? def fit(self, data): ? ? ? ? self.centers_ = {} ? ? ? ? for i in range(self.k_): ? ? ? ? ? ? self.centers_[i] = data[random.randint(0,len(data))] ? ? ? ? # print('center', self.centers_) ? ? ? ? for i in range(self.max_iter_): ? ? ? ? ? ? self.clf_ = {} #用于裝歸屬到每個(gè)類中的點(diǎn)[k,len(data)] ? ? ? ? ? ? for i in range(self.k_): ? ? ? ? ? ? ? ? self.clf_[i] = [] ? ? ? ? ? ? # print("質(zhì)點(diǎn):",self.centers_) ? ? ? ? ? ? for feature in data: ? ? ? ? ? ? ? ? distances = [] #裝中心點(diǎn)到每個(gè)點(diǎn)的距離[k] ? ? ? ? ? ? ? ? for center in self.centers_: ? ? ? ? ? ? ? ? ? ? # 歐拉距離 ? ? ? ? ? ? ? ? ? ? distances.append(np.linalg.norm(feature - self.centers_[center])) ? ? ? ? ? ? ? ? classification = distances.index(min(distances)) ? ? ? ? ? ? ? ? self.clf_[classification].append(feature) ? ? ? ? ? ? # print("分組情況:",self.clf_) ? ? ? ? ? ? prev_centers = dict(self.centers_) ? ? ? ? ? ? for c in self.clf_: ? ? ? ? ? ? ? ? self.centers_[c] = np.average(self.clf_[c], axis=0) ? ? ? ? ? ? # '中心點(diǎn)'是否在誤差范圍 ? ? ? ? ? ? optimized = True ? ? ? ? ? ? for center in self.centers_: ? ? ? ? ? ? ? ? org_centers = prev_centers[center] ? ? ? ? ? ? ? ? cur_centers = self.centers_[center] ? ? ? ? ? ? ? ? if np.sum((cur_centers - org_centers) / org_centers * 100.0) > self.tolerance_: ? ? ? ? ? ? ? ? ? ? optimized = False ? ? ? ? ? ? if optimized: ? ? ? ? ? ? ? ? break ? ? def predict(self, p_data): ? ? ? ? distances = [np.linalg.norm(p_data - self.centers_[center]) for center in self.centers_] ? ? ? ? index = distances.index(min(distances)) ? ? ? ? return index if __name__ == '__main__': ? ? x = np.array([[1, 2], [1.5, 1.8], [5, 8], [8, 8], [1, 0.6], [9, 11]]) ? ? k_means = K_Means(k=2) ? ? k_means.fit(x) ? ? for center in k_means.centers_: ? ? ? ? pyplot.scatter(k_means.centers_[center][0], k_means.centers_[center][1], marker='*', s=150) ? ? for cat in k_means.clf_: ? ? ? ? for point in k_means.clf_[cat]: ? ? ? ? ? ? pyplot.scatter(point[0], point[1], c=('r' if cat == 0 else 'b')) ? ? predict = [[2, 1], [6, 9]] ? ? for feature in predict: ? ? ? ? cat = k_means.predict(feature) ? ? ? ? pyplot.scatter(feature[0], feature[1], c=('r' if cat == 0 else 'b'), marker='x') ? ? pyplot.show()
到此這篇關(guān)于python實(shí)現(xiàn)k-means算法的文章就介紹到這了,更多相關(guān)python實(shí)現(xiàn)k-means算法內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python特性之列表推導(dǎo)式和生成器表達(dá)式詳解
這篇文章主要介紹了python語(yǔ)言的兩個(gè)非常有用的特性:列表推導(dǎo)式和生成器表達(dá)式,但是它們之間也有一些重要的區(qū)別,我們一起來(lái)看看吧2023-08-08Python區(qū)塊鏈范圍結(jié)論及Genesis Block的添加教程
這篇文章主要為大家介紹了Python區(qū)塊鏈范圍結(jié)論及Genesis Block的添加,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-05-05python中的pygame實(shí)現(xiàn)接球小游戲
這篇文章主要介紹了python中的pygame實(shí)現(xiàn)接球小游戲,文章基于python的相關(guān)資料展開(kāi)詳細(xì)的內(nèi)容,具有一定的參考價(jià)值,需要的小伙伴可以參考一下2022-04-04django中的數(shù)據(jù)庫(kù)遷移的實(shí)現(xiàn)
這篇文章主要介紹了django中的數(shù)據(jù)庫(kù)遷移的實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-03-03Numpy array數(shù)據(jù)的增、刪、改、查實(shí)例
今天小編就為大家分享一篇Numpy array數(shù)據(jù)的增、刪、改、查實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-06-06