快捷導(dǎo)航

機(jī)器學(xué)習(xí)python實(shí)戰(zhàn)之手寫數(shù)字識別

更新時(shí)間：2017年11月01日 10:51:50 作者：嗜血的草

這篇文章主要為大家詳細(xì)介紹了機(jī)器學(xué)習(xí)python實(shí)戰(zhàn)之手寫數(shù)字識別，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下

看了上一篇內(nèi)容之后，相信對K近鄰算法有了一個清晰的認(rèn)識，今天的內(nèi)容——手寫數(shù)字識別是對上一篇內(nèi)容的延續(xù)，這里也是為了自己能更熟練的掌握k-NN算法。

我們有大約2000個訓(xùn)練樣本和1000個左右測試樣本，訓(xùn)練樣本所在的文件夾是trainingDigits，測試樣本所在的文件夾是testDigits。文本文件中是0~9的數(shù)字，但是是用二值圖表示出來的，如圖。我們要做的就是使用訓(xùn)練樣本訓(xùn)練模型，并用測試樣本來檢測模型的性能。

首先，我們需要將文本文件中的內(nèi)容轉(zhuǎn)化為向量，因?yàn)閳D片大小是32*32，所以我們可以將其轉(zhuǎn)化為1*1024的向量。具體代碼實(shí)現(xiàn)如下：

def img2vector(filename):
  imgVec = zeros((1,1024))
  file = open(filename)
  for i in range(32):
    lines = file.readline()
    for j in range(32):
      imgVec[0,32*i+j] = lines[j]
  return imgVec

實(shí)現(xiàn)了圖片到向量的轉(zhuǎn)化之后，我們就可以對測試文件中的內(nèi)容進(jìn)行識別了。這里的識別我們可以使用上一篇中的自定義函數(shù)classify0，這個函數(shù)的第一個參數(shù)是測試向量，第二個參數(shù)是訓(xùn)練數(shù)據(jù)集，第三個參數(shù)是訓(xùn)練集的標(biāo)簽。所以，我們首先需要將訓(xùn)練數(shù)據(jù)集轉(zhuǎn)化為（1934*1024）的矩陣，1934這里是訓(xùn)練集的組數(shù)即trainingDigits目錄下的文件數(shù)，其對應(yīng)的標(biāo)簽轉(zhuǎn)化為（1*1934）的向量。之后要編寫的代碼就是對測試數(shù)據(jù)集中的每個文本文件進(jìn)行識別，也就是需要將每個文件都轉(zhuǎn)化成一個（1*1024）的向量，再傳入classify0函數(shù)的第一個形參。整體代碼如下：

def handWriteNumClassTest():
  NumLabels = []
  TrainingDirfile = listdir(r'D:\ipython\num_recognize\trainingDigits')#文件目錄
  L = len(TrainingDirfile)  #該目錄中有多少文件
  TrainMat = zeros((L,1024))
  for i in range(L):
    file_n = TrainingDirfile[i]
    fileName = file_n.split('.')[0]
    ClassName = int(file_n.split('_')[0])
    NumLabels.append(ClassName)
    TrainMat[i,:] = img2vector(r'D:\ipython\num_recognize\trainingDigits\%s'%file_n)
  TestfileDir = listdir(r'D:\ipython\num_recognize\testDigits')
  error_cnt = 0.0
  M = len(TestfileDir)
  for j in range(M):
    Testfile = TestfileDir[j]
    TestfileName = Testfile.split('.')[0]
    TestClassName = int(Testfile.split('_')[0])
    TestVector = img2vector(r'D:\ipython\num_recognize\testDigits\%s'%Testfile)
    result = classify0(TestVector,TrainMat,NumLabels,3)
    print('the result is %d,the real answer is %d\n'%(result,TestClassName))
    if result!=TestClassName:
      error_cnt+=1
  print('the total num of errors is %f\n'%error_cnt)
  print('the error rate is %f\n'%(error_cnt/float(M)))

這里需要首先導(dǎo)入listdir方法，from os import listdir，它可以列出給定目錄的文件名。對于測試的每個文件，如果識別的分類結(jié)果跟真實(shí)結(jié)果不一樣，則錯誤數(shù)+1，最終用錯誤數(shù)/測試總數(shù) 來表示該模型的性能。下面給出結(jié)果