Python實(shí)現(xiàn)識別手寫數(shù)字 Python圖片讀入與處理
寫在前面
在上一篇文章Python徒手實(shí)現(xiàn)手寫數(shù)字識別—大綱中,我們已經(jīng)講過了我們想要寫的全部思路,所以我們不再說全部的思路。
我這一次將圖片的讀入與處理的代碼寫了一下,和大綱寫的過程一樣,這一段代碼分為以下幾個部分:
- 讀入圖片;
- 將圖片讀取為灰度值矩陣;
- 圖片背景去噪;
- 切割圖片,得到手寫數(shù)字的最小矩陣;
- 拉伸/壓縮圖片,得到標(biāo)準(zhǔn)大小為100x100大小矩陣;
- 將圖片拉為1x10000大小向量,存入訓(xùn)練矩陣中。
所以下面將會對這幾個函數(shù)進(jìn)行詳解。
代碼分析
基礎(chǔ)內(nèi)容
首先我們現(xiàn)在最前面定義基礎(chǔ)變量
import os from skimage import io import numpy as np ##Essential vavriable 基礎(chǔ)變量 #Standard size 標(biāo)準(zhǔn)大小 N = 100 #Gray threshold 灰度閾值 color = 100/255
其中標(biāo)準(zhǔn)大小指的是我們在最后經(jīng)過切割、拉伸后得到的圖片的尺寸為NxN?;叶乳撝抵傅氖窃谀硞€點(diǎn)上的灰度超過閾值后則變?yōu)?.
接下來是這圖像處理的一部分的主函數(shù)
filenames = os.listdir(r"./num/") pic = GetTrainPicture(filenames)
其中filenames得到在num目錄下所有文件的名稱組成的列表。pic則是通過函數(shù)GetTrainPicture得到所有訓(xùn)練圖像向量的矩陣。這一篇文章主要就是圍繞這個函數(shù)進(jìn)行講解。
GetTrainPicture函數(shù)
GetTrainPicture函數(shù)內(nèi)容如下
#Read and save train picture 讀取訓(xùn)練圖片并保存 def GetTrainPicture(files): Picture = np.zeros([len(files), N**2+1]) #loop all pictures 循環(huán)所有圖片文件 for i, item in enumerate(files): #Read the picture and turn RGB to grey 讀取這個圖片并轉(zhuǎn)為灰度值 img = io.imread('./num/'+item, as_grey = True) #Clear the noise 清除噪音 img[img>color] = 1 #Cut the picture and get the picture of handwritten number #將圖片進(jìn)行切割,得到有手寫數(shù)字的的圖像 img = CutPicture(img) #Stretch the picture and get the standard size 100x100 #將圖片進(jìn)行拉伸,得到標(biāo)準(zhǔn)大小100x100 img = StretchPicture(img).reshape(N**2) #Save the picture to the matrix 將圖片存入矩陣 Picture[i, 0:N**2] = img #Save picture's name to the matrix 將圖片的名字存入矩陣 Picture[i, N**2] = float(item[0]) return Picture
可以看出這個函數(shù)的信息量非常大,基本上今天做的所有步驟我都把封裝到一個個函數(shù)里面了,所以這里我們可以看到圖片處理的所有步驟都在這里。
提前準(zhǔn)備
首先是創(chuàng)建了一個用來存放所有圖像向量的矩陣Picture,大小為fx10001,其中f代表我們擁有的訓(xùn)練圖片的數(shù)目,10001的前10000位代表圖片展開后的向量長度,最后一維代表這一個向量的類別,比如說時2就代表這個圖片上面寫的數(shù)字是2.
接下來用的是一個for循環(huán),將files里面每一個圖片進(jìn)行一次迭代,計算出向量后存入picture。
在循環(huán)中的內(nèi)容就是對每一張圖片進(jìn)行的操作。
讀入圖片并清除背景噪音
首先是io.imread函數(shù),這個函數(shù)是將圖片導(dǎo)出成為灰度值的矩陣,每一個像素點(diǎn)是矩陣上的一個元素。
接下來是img[img>color]=1這一句。這一句運(yùn)用了邏輯運(yùn)算的技巧,我們可以將其分為兩部分
point = img > color img[point] = 1
首先是img>color,img是一個矩陣,color是一個數(shù)。意義就是對img中所有元素進(jìn)行判斷是否大于color這個數(shù),并輸出一個與img同等大小的矩陣,對應(yīng)元素上是該值與color判斷后的結(jié)果,有False與True。如果大于這個數(shù),那么就是Ture,否則是False。下面舉個例子,不再贅述。
a = np.array([1, 2, 3, 4]) print(a>2) #以下為輸出結(jié)果 [False False True True]
之后的img[point] = 1說明將所有True的值等于1。舉個例子
a = np.array([1, 2, 3, 4]) p = a > 2 a[p] = 0 print(a) #以下為輸出結(jié)果 [1 2 0 0]
因此我通過這樣的方法來清除掉了與數(shù)字顏色差別太大的背景噪音。
切割圖像
首先切割圖像的函數(shù)我寫的是CutPicture。我們來說一下這個切割圖像的意思。比如說有一個人寫字寫的特別小,另一個人寫字寫的特別大。就像是下圖所示,所以我們進(jìn)行這樣的操作。沿著圖片的邊進(jìn)行切割,得到了下面切割后的圖片,讓數(shù)字占滿整個圖片,從而具有可比性。
所以下面貼出代碼,詳細(xì)解釋一下我是怎么做的。
#Cut the Picture 切割圖象 def CutPicture(img): #初始化新大小 size = [] #圖片的行數(shù) length = len(img) #圖片的列數(shù) width = len(img[0,:]) #計算新大小 size.append(JudgeEdge(img, length, 0, [-1, -1])) size.append(JudgeEdge(img, width, 1, [-1, -1])) size = np.array(size).reshape(4) print(size) return img[size[0]:size[1]+1, size[2]:size[3]+1]
首先函數(shù)導(dǎo)入過來的的參數(shù)只有一個原img。
我第一步做的是把新的大小初始化一下,size一共會放入四個值,第一個值代表原圖片上的手寫數(shù)字圖案的最高行,第二個值代表的是最低行,第三個值代表數(shù)字圖案的最左列,,第四個只代表最右列**。這個還看不明白的話就看上面的圖示,就是沿著圖片切割一下就好了。
接下來的length和width分別代表著原圖片的行數(shù)與列數(shù),作用在下面。我又創(chuàng)建了一個JudgeEdge函數(shù),這個函數(shù)是輸出它的行數(shù)或者列數(shù)的兩位數(shù)字。第一個append是給size列表放入了兩個行序號(最高行和最低行),第二個append是給size放進(jìn)兩個列序號(最左列和最右列)。所以接下來就看JudgeEdge函數(shù)是干什么的。
def JudgeEdge(img, length, flag, size): for i in range(length): #Cow or Column 判斷是行是列 if flag == 0: #Positive sequence 正序判斷該行是否有手寫數(shù)字 line1 = img[img[i,:]<color] #Negative sequence 倒序判斷該行是否有手寫數(shù)字 line2 = img[img[length-1-i,:]<color] else: line1 = img[img[:,i]<color] line2 = img[img[:,length-1-i]<color] #If edge, recode serial number 若有手寫數(shù)字,即到達(dá)邊界,記錄下行 if len(line1)>=1 and size[0]==-1: size[0] = i if len(line2)>=1 and size[1]==-1: size[1] = length-1-i #If get the both of edge, break 若上下邊界都得到,則跳出 if size[0]!=-1 and size[1]!=-1: break return size
JudgeEdge函數(shù)的參數(shù)flag就是用來判斷是行還是列,當(dāng)flag=0時,說明以行為基礎(chǔ)開始循環(huán);當(dāng)flag=1時說明以列為基礎(chǔ)進(jìn)行循環(huán)。所以參數(shù)length傳遞的時候就是行數(shù)和列數(shù)。接下來的for循環(huán)就是根據(jù)length的大小看似是循環(huán)。
當(dāng)是行時,我這里用line1和line2起到的是一個指針的作用,即在第i行時,line1的內(nèi)容就是這一行擁有非白色底(數(shù)值為1)的像素的個數(shù);line2的作用則是反序的,也就是他計算的是倒數(shù)i行非白色像素個數(shù),這樣做的目的是能夠快一點(diǎn),讓上下同時開始進(jìn)行尋找,而不用line1把整個圖片循環(huán)一遍,line2把整個圖片循環(huán)一遍,大大節(jié)省了時間。
尋找這一行擁有非白色底的像素的個數(shù)這一個語句同樣的運(yùn)用了邏輯判斷,和上文中去噪的原理一模一樣。
當(dāng)line里面有數(shù)的時候,說明已經(jīng)到達(dá)了手寫數(shù)字的邊緣。這時候就記錄下來,然后就不再改變。當(dāng)兩個line都不等于初始值-1時,說明已經(jīng)找到了兩個邊緣,這時候就可以跳出循環(huán)并且return了。
這個函數(shù)就是這樣。所以說切割圖像的完整代碼就是這樣子,下面就要把切割的大小不一的圖像給拉伸成標(biāo)準(zhǔn)大小100x100了。
拉伸圖像
因?yàn)榍懈钜院蟮膱D像有大有小,一張圖片的大小可能是21x39(比如說數(shù)字2),另一張可能是4x40(比如說數(shù)字1)。所以為了能夠讓他們統(tǒng)一大小稱為100x100,我們就要把他們拉伸一下。
大概就是像圖上的一樣。實(shí)際情況的圖案可能會更復(fù)雜,所以我們下面展示一下代碼
#Stretch the Picture 拉伸圖像 def StretchPicture(img): newImg = np.ones(N**2).reshape(N, N) ##Stretch/Compress each cows/columns 對每一行/列進(jìn)行拉伸/壓縮 #The length of each cows after stretching 每一行拉伸/壓縮的步長 step1 = len(img[0])/100 #Each columns blabla 每一列拉伸/壓縮的步長 step2 = len(img)/100 #Operate on each cows 對每一行進(jìn)行操作 for i in range(len(img)): for j in range(N): newImg[i, j] = img[i, int(np.floor(j*step1))] #Operate on each columns 對每一列進(jìn)行操作 for i in range(len(img[0])): for j in range(N): newImg[j, i] = img[int(np.floor(j*step2)), i] return newImg
首先初始化一個新的圖片矩陣,這個大小就是標(biāo)準(zhǔn)大小100x100。接下來才是重頭戲。我這里用的方法是比較簡單基礎(chǔ)的方法,但是可能依舊比較難。
首先定義兩個步長step1和step2,分別代表拉伸/壓縮行與列時的步長。這里的原理就是把原來的長度給他平均分成100份,然后將這100個像素點(diǎn)分別對應(yīng)上原本的像素點(diǎn)。
如下圖所示,圖像1我們假設(shè)為原圖像,圖像2我們假設(shè)為標(biāo)準(zhǔn)圖像,我們需要把圖像1轉(zhuǎn)化為圖像2,其中每一個點(diǎn)代表一個像素點(diǎn),也就是圖像1有五個像素點(diǎn),圖像2有四個像素點(diǎn)。
所以我的思想就是直接讓圖像2的像素點(diǎn)的值等于距離它最近的圖像1的像素點(diǎn)。
我們?yōu)榱朔奖闫鹨?,在這里定義一個語法:圖像2第三個數(shù)據(jù)點(diǎn)我們可以寫為2_3.
所以2_1對應(yīng)的就是1_1,2_2對應(yīng)的就是1_2,2_3對應(yīng)的是1_4,2_4對應(yīng)的是1_5。就這樣我們就能夠得到了圖像2所有的數(shù)據(jù)點(diǎn)。
利用數(shù)學(xué)的形式表現(xiàn)出來,就是假設(shè)圖像1長度為l_1,圖像2長度為l_2,所以令圖像2的步長為l_1/l_2,也就是說當(dāng)圖像2的第一個像素點(diǎn)對應(yīng)圖像1第一個像素點(diǎn),圖像2的最后一個像素點(diǎn)對應(yīng)圖像1最后一個像素點(diǎn)。然后圖像2第二個像素點(diǎn)位置就是2*l_1/l_2,對應(yīng)圖像1第floor(2*l_1/l_2)個像素點(diǎn)。以此類推就行。因此再回頭看一下那一段代碼,這一段是不是就好理解了?
之后對行與列分別進(jìn)行這個操作,所以就可以得到標(biāo)準(zhǔn)的圖片大小。然后再返回到GetTrainPicture即可。
再GetTrainPicture函數(shù)中,我用了reshape函數(shù)把原本100x100大小的圖片拉伸成為1x10000大小的向量,然后存入矩陣當(dāng)中,并將這一張圖片的類別存入矩陣最后一個。
以上就是圖片處理的所有內(nèi)容。
小結(jié)
以上就是把一張圖片經(jīng)過處理后存入矩陣的內(nèi)容。
本文已被收錄到專題《python圖片處理操作》 ,歡迎大家點(diǎn)擊學(xué)習(xí)更多精彩內(nèi)容。
本文中的所有算法、代碼均是我自己構(gòu)思的,所以可能存在一些不足之處,我沒有系統(tǒng)的學(xué)習(xí)過圖像的相關(guān)知識,也并不是計算機(jī)專業(yè),因此可能在理論上有一些不合乎情況,所以如果有錯誤的話歡迎一起討論,謝謝。
相關(guān)文章
Python read函數(shù)按字節(jié)(字符)讀取文件的實(shí)現(xiàn)
這篇文章主要介紹了Python read函數(shù)按字節(jié)(字符)讀取文件的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-07-07Python異步在非阻塞子進(jìn)程中運(yùn)行命令詳解
這篇文章主要為大家介紹了Python異步在非阻塞子進(jìn)程中運(yùn)行命令詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-03-03Python讀取Excel數(shù)據(jù)實(shí)現(xiàn)批量生成PPT
我們常常面臨著大量的重復(fù)性工作,通過人工方式處理往往耗時耗力易出錯。而Python在辦公自動化方面具有天然優(yōu)勢。本文將利用讀取Excel數(shù)據(jù)并實(shí)現(xiàn)批量生成PPT,需要的可以參考一下2022-05-05python常用web框架簡單性能測試結(jié)果分享(包含django、flask、bottle、tornado)
這篇文章主要介紹了python常用web框架簡單性能測試結(jié)果分享(包含django、flask、bottle、tornado),需要的朋友可以參考下2014-08-08人臉識別經(jīng)典算法一 特征臉方法(Eigenface)
這篇文章主要為大家詳細(xì)介紹了人臉識別經(jīng)典算法一,特征臉方法Eigenface,具有一定的參考價值,感興趣的小伙伴們可以參考一下2018-03-03Pandas去除重復(fù)項(xiàng)函數(shù)詳解drop_duplicates()
這篇文章主要介紹了Pandas去除重復(fù)項(xiàng)函數(shù)drop_duplicates(),具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2024-02-02