腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

卷積神經(jīng)網(wǎng)絡(luò)如何實現(xiàn)提取特征

更新時間：2023年04月05日 09:58:02 作者：IT__learning

這篇文章主要介紹了卷積神經(jīng)網(wǎng)絡(luò)如何實現(xiàn)提取特征問題，具有很好的參考價值，希望對大家有所幫助。如有錯誤或未考慮完全的地方，望不吝賜教

圖像在計算機(jī)中的存儲

圖像其實就是一個像素值組成的矩陣。

1、黑白或灰度圖像如何存儲在計算機(jī)中

在這里，我們已經(jīng)采取了黑白圖像，也被稱為一個灰度圖像。

這是數(shù)字8的圖像。現(xiàn)在，如果我們進(jìn)一步放大并且仔細(xì)觀察，你會發(fā)現(xiàn)圖像變得失真，并且你會在該圖像上看到一些小方框。

這些小方框叫做 Pixels。我們經(jīng)常使用的圖像維度是X x Y。這實際上是什么意思？

這意味著圖像的尺寸就是圖像的高度（x）和寬度（y）上的像素數(shù)。

在這種情況下，高度為24像素，寬度為16像素。因此，此圖像的尺寸將為24 x 16。盡管我們看到的是這種格式的圖像，但計算機(jī)以數(shù)字的形式存儲圖像。

這些像素中的每一個都表示為數(shù)值，而這些數(shù)字稱為像素值，這些像素值表示像素的強(qiáng)度。

對于灰度或黑白圖像，我們的像素值范圍是 0 到 255 ：接近零的較小數(shù)字表示較深的陰影，而接近255的較大數(shù)字表示較淺或白色的陰影。

因此，計算機(jī)中的每個圖像都以這種形式保存，其中你具有一個數(shù)字矩陣，該矩陣也稱為Channel。

總結(jié)：

圖像以數(shù)字矩陣的形式存儲在計算機(jī)中，其中這些數(shù)字稱為像素值。
這些像素值代表每個像素的強(qiáng)度：0代表黑色，255代表白色。
數(shù)字矩陣稱為通道，對于灰度圖像，我們只有一個通道。

2、彩色圖像如何存儲在計算機(jī)中

現(xiàn)在我們有了關(guān)于如何將灰度圖像存儲在計算機(jī)中的想法，讓我們看一個彩色圖像的示例。讓我們以彩色圖像為例，這是一條美女的圖像：

該圖像由許多顏色組成，幾乎所有顏色都可以從三種原色（紅色，綠色和藍(lán)色）生成。

我們可以說每個彩色圖像都是由這三種顏色或3個通道（紅色，綠色和藍(lán)色）生成。

這意味著在彩色圖像中，矩陣的數(shù)量或通道的數(shù)量將會更多。

在此特定示例中，我們有3個矩陣：1個用于紅色的矩陣，稱為紅色通道。

另一個綠色的稱為綠色通道。

最后是藍(lán)色的矩陣，也稱為藍(lán)色通道。

這些像素都具有從0到255的值，其中每個數(shù)字代表像素的強(qiáng)度，或者你可以說紅色，綠色和藍(lán)色的陰影。最后，所有這些通道或所有這些矩陣都將疊加在一起，這樣，當(dāng)圖像的形狀加載到計算機(jī)中時，它會是

N * H * W

其中 N 表示通道數(shù)（彩色圖像 N 為 3），H 是整個高度上的像素數(shù)，W 是整個寬度上的像素數(shù)。在這種情況下，我們有3個通道R、G和B。在我們的示例中，彩色圖像的形狀將是 6 x 5 x 3，因為我們在高度上有6個像素，在寬度上有5個像素，并且存在3個通道。

矩陣的特征值與特征向量

這個式子要怎么理解呢？

首先得先弄清矩陣的概念：一個矩陣代表的是一個線性變換規(guī)則，而一個矩陣的乘法運(yùn)行代表的是一個變換。

也就是說，我們有一個方陣（n x n），總能找到一些向量，這個矩陣跟這些向量的作用效果，只是對這個向量造成了拉伸的作用，換句話說，矩陣的作用跟一個系數(shù)的作用是等價的。

也就是如下這個式子：

在圖像處理中，有一種方法就是特征值分解。

我們都知道圖像其實就是一個像素值組成的矩陣，假設(shè)有一個100x100的圖像，對這個圖像矩陣做特征值分解，其實是在提取這個圖像中的特征，這些提取出來的特征是一個個的向量，即對應(yīng)著特征向量。

而這些特征在圖像中到底有多重要，這個重要性則通過特征值來表示。

比如 100x100 的圖像矩陣A分解之后，會得到一個100x100的特征向量組成的矩陣Q，以及一個100x100的只有對角線上的元素不為0的矩陣E，這個矩陣E對角線上的元素就是特征值，而且還是按照從大到小排列的（取模，對于單個數(shù)來說，其實就是取絕對值），也就是說這個圖像A提取出來了100個特征，這100個特征的重要性由100個數(shù)字來表示，這100個數(shù)字存放在對角矩陣E中。在實際中我們發(fā)現(xiàn)，提取出來的這100個特征從他們的特征值大小來看，大部分只有前20（這個20不一定，有的是10，有的是30或者更多）個特征對應(yīng)的特征值很大，后面的就都是接近0了，也就是說后面的那些特征對圖像的貢獻(xiàn)幾乎可以忽略不計。我們知道，圖像矩陣A特征值分解后可以得到矩陣Q和矩陣E：

那么反推出去，把右邊的三個矩陣相乘肯定也能得到矩陣A。既然已經(jīng)知道了矩陣E中只有前20個特征值比較重要，那么我們不妨試試把E中除了前20個后面的都置為0，即只取圖像的前20個主要特征來恢復(fù)圖像，剩下的全部舍棄，看看此時會發(fā)生什么：

原圖：【注意：特征值分解要求必須是nxn的方陣，如果不是行列相等的方陣，請使用奇異值分解】

只取前10個特征值：

只取前20個特征值：

只取前50個特征值：

只取前100個特征值：

我們可以看到，在只取前20個特征值和特征向量對圖像進(jìn)行恢復(fù)的時候，基本上已經(jīng)可以看到圖像的大體輪廓了，而取到前50的時候，幾乎已經(jīng)和原圖像無異了。明白了吧，這就是所謂的矩陣的特征向量和特征值的作用。

所以歸根結(jié)底，特征向量其實反應(yīng)的是矩陣A本身固有的一些特征，本來一個矩陣就是一個線性變換，當(dāng)把這個矩陣作用于一個向量的時候，通常情況絕大部分向量都會被這個矩陣A變換得“面目全非”，但是偏偏剛好存在這么一些向量，被矩陣A變換之后居然還能保持原來的樣子，于是這些向量就可以作為矩陣的核心代表了。于是我們可以說：一個變換（即一個矩陣）可以由其特征值和特征向量完全表述，這是因為從數(shù)學(xué)上看，這個矩陣所有的特征向量組成了這個向量空間的一組基底。而矩陣作為變換的本質(zhì)其實不就把一個基底下的東西變換到另一個基底表示的空間中么？

圖像特征與特征向量

假設(shè)我們要判斷一個人是男的還是女的，第一反應(yīng)可能是“頭發(fā)”，其次是“聲音”，或者“衣著”之類的，一般通過以上3個特征就能非常直觀地判斷出來是男的還是女的。

但是呢，出題人A特別壞，出題人A說：這個人，他有一雙明亮的大眼睛，有一頭烏黑的頭發(fā)，喜歡出入酒吧，一般十點鐘上班，聲音比較細(xì)膩，走路比較急，還有，喜歡吃零食，喜歡穿淺色衣服。

出題人B比較好，出題人B說：他頭發(fā)比較長，說話比較溫柔，穿的比較陽光，聲線比較細(xì)。

我們一聽B的說法，就很直觀地覺得這個人八九不離十是位女生，而從A的判斷中，我們還是模棱兩個。這個就涉及到信息量的問題。A給的特征非常多，信息量很大，但是。。。似乎沒什么用，而B給的特征少，但是基本足夠了。就像圖1，他的數(shù)據(jù)分布特別散漫，而圖3的分布相對集中，是一個道理的。相對于信息量大的特征，我們?nèi)ヌ暨x特征、做出判斷是非常困難的。

所以！??！我們就需要想辦法對特征做特征提取。也就是說，提取主要的、關(guān)鍵的特征就夠了?。。《@個提取的方法就是：特征向量?。?！

以橢圓舉例：

以上幾個圖，全都可以分類為橢圓，但是因為形狀各異，導(dǎo)致數(shù)據(jù)也是不對稱的，尤其體現(xiàn)在rgb值上（當(dāng)然在對圖像的數(shù)據(jù)處理，還有很多，比如subtraction，BN），其次體現(xiàn)在在各個軸的投影。但是，如果如果我們可以對它做旋轉(zhuǎn)，縮放，平移等操作，變成如下的圖：

那，是不是就非常好辨認(rèn)了，而且數(shù)據(jù)也非常集中，至少在某一維度上。于是乎，我們就需要去找這么一個特征向量。卷積的過程，就是通過反向傳播，無限去擬合這么一個非常非常非常逼近的特征向量集（這個特征向量集其實就是咱們的卷積核）?。。?！為什么是特征向量集呢（其實單個特征向量（一個列向量或者行向量）也行）？因為一個列向量，我們只能在一種維度做變換，多個列向量，就意味著多個維度聯(lián)合進(jìn)行特征提取或者曰之為特征映射。

總結(jié)一下：卷積核 ≈ 特征向量集，反向傳播 ≈ 求解特征向量集，我們的圖片 ≈ 矩陣A，注意，這些概念不是等價的，只是用易懂的方式去解釋這些原理。

卷積神經(jīng)網(wǎng)絡(luò)中，第一步一般用卷積核去提取特征，這些初始化的卷積核會在反向傳播的過程中，在迭代中被一次又一次的更新，無限地逼近我們的真實解。其實本質(zhì)沒有對圖像矩陣求解，而是初始化了一個符合某種分布的特征向量集，然后在反向傳播中無限更新這個特征集，讓它能無限逼近數(shù)學(xué)中的那個概念上的特征向量，以致于我們能用特征向量的數(shù)學(xué)方法對矩陣進(jìn)行特征提取。