亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

純python實(shí)現(xiàn)機(jī)器學(xué)習(xí)之kNN算法示例

 更新時(shí)間:2018年03月01日 09:32:47   作者:swensun  
本篇文章主要介紹了純python實(shí)現(xiàn)機(jī)器學(xué)習(xí)之kNN算法示例,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧

前面文章分別簡單介紹了線性回歸,邏輯回歸,貝葉斯分類,并且用python簡單實(shí)現(xiàn)。這篇文章介紹更簡單的 knn, k-近鄰算法(kNN,k-NearestNeighbor)。

k-近鄰算法(kNN,k-NearestNeighbor),是最簡單的機(jī)器學(xué)習(xí)分類算法之一,其核心思想在于用距離目標(biāo)最近的k個(gè)樣本數(shù)據(jù)的分類來代表目標(biāo)的分類(這k個(gè)樣本數(shù)據(jù)和目標(biāo)數(shù)據(jù)最為相似)。

原理

kNN算法的核心思想是用距離最近(多種衡量距離的方式)的k個(gè)樣本數(shù)據(jù)來代表目標(biāo)數(shù)據(jù)的分類。

具體講,存在訓(xùn)練樣本集, 每個(gè)樣本都包含數(shù)據(jù)特征和所屬分類值。

輸入新的數(shù)據(jù),將該數(shù)據(jù)和訓(xùn)練樣本集匯中每一個(gè)樣本比較,找到距離最近的k個(gè),在k個(gè)數(shù)據(jù)中,出現(xiàn)次數(shù)做多的那個(gè)分類,即可作為新數(shù)據(jù)的分類。

如上圖:

需要判斷綠色是什么形狀。當(dāng)k等于3時(shí),屬于三角。當(dāng)k等于5是,屬于方形。

因此該方法具有一下特點(diǎn):

  1. 監(jiān)督學(xué)習(xí):訓(xùn)練樣本集中含有分類信息
  2. 算法簡單, 易于理解實(shí)現(xiàn)
  3. 結(jié)果收到k值的影響,k一般不超過20.
  4. 計(jì)算量大,需要計(jì)算與樣本集中每個(gè)樣本的距離。
  5. 訓(xùn)練樣本集不平衡導(dǎo)致結(jié)果不準(zhǔn)確問題

接下來用oython 做個(gè)簡單實(shí)現(xiàn), 并且嘗試用于約會(huì)網(wǎng)站配對(duì)。

python簡單實(shí)現(xiàn)

def classify(inX, dataSet, labels, k):
  """
  定義knn算法分類器函數(shù)
  :param inX: 測(cè)試數(shù)據(jù)
  :param dataSet: 訓(xùn)練數(shù)據(jù)
  :param labels: 分類類別
  :param k: k值
  :return: 所屬分類
  """

  dataSetSize = dataSet.shape[0] #shape(m, n)m列n個(gè)特征
  diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet
  sqDiffMat = diffMat ** 2
  sqDistances = sqDiffMat.sum(axis=1)
  distances = sqDistances ** 0.5 #歐式距離
  sortedDistIndicies = distances.argsort() #排序并返回index

  classCount = {}
  for i in range(k):
    voteIlabel = labels[sortedDistIndicies[i]]
    classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1 #default 0

  sortedClassCount = sorted(classCount.items(), key=lambda d:d[1], reverse=True)
  return sortedClassCount[0][0]

算法的步驟上面有詳細(xì)的介紹,上面的計(jì)算是矩陣運(yùn)算,下面一個(gè)函數(shù)是代數(shù)運(yùn)算,做個(gè)比較理解。

def classify_two(inX, dataSet, labels, k):
  m, n = dataSet.shape  # shape(m, n)m列n個(gè)特征
  # 計(jì)算測(cè)試數(shù)據(jù)到每個(gè)點(diǎn)的歐式距離
  distances = []
  for i in range(m):
    sum = 0
    for j in range(n):
      sum += (inX[j] - dataSet[i][j]) ** 2
    distances.append(sum ** 0.5)

  sortDist = sorted(distances)

  # k 個(gè)最近的值所屬的類別
  classCount = {}
  for i in range(k):
    voteLabel = labels[ distances.index(sortDist[i])]
    classCount[voteLabel] = classCount.get(voteLabel, 0) + 1 # 0:map default
  sortedClass = sorted(classCount.items(), key=lambda d:d[1], reverse=True)
  return sortedClass[0][0]

有了上面的分類器,下面進(jìn)行最簡單的實(shí)驗(yàn)來預(yù)測(cè)一下:

def createDataSet():
  group = np.array([[1, 1.1], [1, 1], [0, 0], [0, 0.1]])
  labels = ['A', 'A', 'B', 'B']
  return group, labels

上面是一個(gè)簡單的訓(xùn)練樣本集。

if __name__ == '__main__':
  dataSet, labels = createDataSet()
  r = classify_two([0, 0.2], dataSet, labels, 3)
  print(r)

執(zhí)行上述函數(shù):可以看到輸出B, [0 ,0.2]應(yīng)該歸入b類。

上面就是一個(gè)最簡單的kNN分類器,下面有個(gè)例子。

kNN用于判斷婚戀網(wǎng)站中人的受歡迎程度

訓(xùn)練樣本集中部分?jǐn)?shù)據(jù)如下:

40920 8.326976 0.953952 3
14488 7.153469 1.673904 2
26052 1.441871 0.805124 1
75136 13.147394 0.428964 1
38344 1.669788 0.134296 1

第一列表示每年獲得的飛行常客里程數(shù), 第二列表示玩視頻游戲所耗時(shí)間百分比, 第三類表示每周消費(fèi)的冰淇淋公升數(shù)。第四列表示分類結(jié)果,1, 2, 3 分別是 不喜歡,魅力一般,極具魅力。

將數(shù)據(jù)轉(zhuǎn)換成numpy。

# 文本轉(zhuǎn)換成numpy
def file2matrix(filepath="datingSet.csv"):
  dataSet = np.loadtxt(filepath)
  returnMat = dataSet[:, 0:-1]
  classlabelVector = dataSet[:, -1:]
  return returnMat, classlabelVector

首先對(duì)數(shù)據(jù)有個(gè)感知,知道是哪些特征影響分類,進(jìn)行可視化數(shù)據(jù)分析。

# 2, 3列數(shù)據(jù)進(jìn)行分析
def show_2_3_fig():
  data, cls = file2matrix()
  fig = plt.figure()
  ax = fig.add_subplot(111)
  ax.scatter(data[:, 1], data[: ,2], c=cls)
  plt.xlabel("playing game")
  plt.ylabel("Icm Cream")
  plt.show()

如上圖可以看到并無明顯的分類。

可以看到不同的人根據(jù)特征有明顯的區(qū)分。因此可以使用kNN算法來進(jìn)行分類和預(yù)測(cè)。

由于后面要用到距離比較,因此數(shù)據(jù)之前的影響較大, 比如飛機(jī)里程和冰淇淋數(shù)目之間的差距太大。因此需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理。

# 數(shù)據(jù)歸一化
def autoNorm(dataSet):
  minVal = dataSet.min(0)
  maxVal = dataSet.max(0)
  ranges = maxVal - minVal

  normDataSet = np.zeros(dataSet.shape)
  m, n = dataSet.shape # 行, 特征
  normDataSet = dataSet - minVal
  normDataSet = normDataSet / ranges
  return normDataSet, ranges, minVal

衡量算法的準(zhǔn)確性

knn算法可以用正確率或者錯(cuò)誤率來衡量。錯(cuò)誤率為0,表示分類很好。

因此可以將訓(xùn)練樣本中的10%用于測(cè)試,90%用于訓(xùn)練。

# 定義測(cè)試算法的函數(shù)
def datingClassTest(h=0.1):
  hoRatio = h
  datingDataMat, datingLabels = file2matrix()
  normMat, ranges, minVals = autoNorm(datingDataMat)
  m, n = normMat.shape
  numTestVecs = int(m * hoRatio) #測(cè)試數(shù)據(jù)行數(shù)
  errorCount = 0 # 錯(cuò)誤分類數(shù)


  # 用前10%的數(shù)據(jù)做測(cè)試
  for i in range(numTestVecs):
    classifierResult = classify(normMat[i, :], normMat[numTestVecs:m, :], datingLabels[numTestVecs:m], 3)
    # print('the classifier came back with: %d,the real answer is: %d' % (int(classifierResult), int(datingLabels[i])))
    if classifierResult != datingLabels[i]:
      errorCount += 1
  print("the total error rate is: %f" % (errorCount / float(numTestVecs)))

調(diào)整不同的測(cè)試比例,對(duì)比結(jié)果。

使用knn進(jìn)行預(yù)測(cè)。

有了訓(xùn)練樣本和分類器,對(duì)新數(shù)據(jù)可以進(jìn)行預(yù)測(cè)。模擬數(shù)據(jù)并進(jìn)行預(yù)測(cè)如下:

# 簡單進(jìn)行預(yù)測(cè)
def classifypersion():
  resultList = ["none", 'not at all','in small doses','in large doses']
  # 模擬數(shù)據(jù)
  ffmiles = 15360
  playing_game = 8.545204
  ice_name = 1.340429

  datingDataMat, datingLabels = file2matrix()
  normMat, ranges, minVals = autoNorm(datingDataMat)
  inArr = np.array([ffmiles, playing_game, ice_name])
  # 預(yù)測(cè)數(shù)據(jù)歸一化
  inArr = (inArr - minVals) / ranges
  classifierResult = classify(inArr, normMat, datingLabels, 3)
  print(resultList[int(classifierResult)])

可以看到基本的得到所屬的分類。

完成代碼和數(shù)據(jù)請(qǐng)參考:

github:kNN

總結(jié)

  1. kNN
  2. 監(jiān)督學(xué)習(xí)
  3. 數(shù)據(jù)可視化
  4. 數(shù)據(jù)歸一化,不影響計(jì)算

以上就是本文的全部內(nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。

相關(guān)文章

  • python畫一個(gè)玫瑰和一個(gè)愛心

    python畫一個(gè)玫瑰和一個(gè)愛心

    這篇文章主要教大家用python畫一個(gè)玫瑰和一個(gè)愛心,作為女生節(jié)禮物,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2018-08-08
  • 基于并發(fā)服務(wù)器幾種實(shí)現(xiàn)方法(總結(jié))

    基于并發(fā)服務(wù)器幾種實(shí)現(xiàn)方法(總結(jié))

    下面小編就為大家分享一篇基于并發(fā)服務(wù)器幾種實(shí)現(xiàn)方法(總結(jié)),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2017-12-12
  • python selenium實(shí)現(xiàn)發(fā)送帶附件的郵件代碼實(shí)例

    python selenium實(shí)現(xiàn)發(fā)送帶附件的郵件代碼實(shí)例

    這篇文章主要介紹了python selenium實(shí)現(xiàn)發(fā)送帶附件的郵件代碼實(shí)例,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-12-12
  • Python中ModuleNotFoundError錯(cuò)誤的問題解決

    Python中ModuleNotFoundError錯(cuò)誤的問題解決

    本文主要介紹了Python中ModuleNotFoundError錯(cuò)誤的問題解決,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2023-02-02
  • 簡單了解Django ContentType內(nèi)置組件

    簡單了解Django ContentType內(nèi)置組件

    這篇文章主要介紹了簡單了解Django ContentType內(nèi)置組件,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-07-07
  • Python開發(fā)中常用操作方法代碼匯總筆記

    Python開發(fā)中常用操作方法代碼匯總筆記

    Python具有易學(xué)、易用、易擴(kuò)展、可移植性強(qiáng)等特點(diǎn),被廣泛應(yīng)用于數(shù)據(jù)分析、人工智能、Web開發(fā)、自動(dòng)化測(cè)試等領(lǐng)域。Python在使用過程中也會(huì)遇到一些常見技術(shù)問題,本文匯總Python開發(fā)中實(shí)用操作方法代碼筆記。
    2023-06-06
  • Python matplotlib實(shí)現(xiàn)條形統(tǒng)計(jì)圖

    Python matplotlib實(shí)現(xiàn)條形統(tǒng)計(jì)圖

    這篇文章主要為大家詳細(xì)介紹了Python matplotlib實(shí)現(xiàn)條形統(tǒng)計(jì)圖,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2022-04-04
  • 如何用Python將圖片轉(zhuǎn)為字符畫

    如何用Python將圖片轉(zhuǎn)為字符畫

    本文主要介紹了用Python將圖片轉(zhuǎn)為黑白字符畫的方法,使用ascii字符把圖片轉(zhuǎn)為黑白字符畫,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2023-03-03
  • 淺談python的深淺拷貝以及fromkeys的用法

    淺談python的深淺拷貝以及fromkeys的用法

    這篇文章主要介紹了python的深淺拷貝以及fromkeys的用法,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-03-03
  • TensorFlow查看輸入節(jié)點(diǎn)和輸出節(jié)點(diǎn)名稱方式

    TensorFlow查看輸入節(jié)點(diǎn)和輸出節(jié)點(diǎn)名稱方式

    今天小編就為大家分享一篇TensorFlow查看輸入節(jié)點(diǎn)和輸出節(jié)點(diǎn)名稱方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2020-01-01

最新評(píng)論