c# 預(yù)處理識別硬幣的數(shù)據(jù)集
在文章中,我們將對輸入到機器學(xué)習(xí)模型中的數(shù)據(jù)集進行預(yù)處理。
這里我們將對一個硬幣數(shù)據(jù)集進行預(yù)處理,以便以后在監(jiān)督學(xué)習(xí)模型中進行訓(xùn)練。在機器學(xué)習(xí)中預(yù)處理數(shù)據(jù)集通常涉及以下任務(wù):
- 清理數(shù)據(jù)——通過對周圍數(shù)據(jù)的平均值或使用其他策略來填補數(shù)據(jù)缺失或損壞造成的漏洞。
- 規(guī)范數(shù)據(jù)——將數(shù)據(jù)縮放值標(biāo)準(zhǔn)化到一個標(biāo)準(zhǔn)范圍,通常是0到1。具有廣泛值范圍的數(shù)據(jù)可能會導(dǎo)致不規(guī)范,因此我們將所有數(shù)據(jù)都放在一個公共范圍內(nèi)。
- 一種熱編碼標(biāo)簽——將數(shù)據(jù)集中對象的標(biāo)簽或類編碼為N維二進制向量,其中N是類的總數(shù)。數(shù)組元素都被設(shè)置為0,除了與對象的類相對應(yīng)的元素,它被設(shè)置為1。這意味著在每個數(shù)組中都有一個值為1的元素。
- 將輸入數(shù)據(jù)集分為訓(xùn)練集和驗證集——訓(xùn)練集被用于訓(xùn)練模型,驗證集是用于檢查我們的訓(xùn)練結(jié)果。
這個例子我們將使用Numpy.NET,它基本上是Python中流行的Numpy庫的.NET版本。
Numpy是一個專注于處理矩陣的庫。
為了實現(xiàn)我們的數(shù)據(jù)集處理器,我們在PreProcessing文件夾中創(chuàng)建Utils類和DataSet類。Utils類合并了一個靜態(tài)Normalize 方法,如下所示:
public class Utils
{
public static NDarray Normalize(string path)
{
var colorMode = Settings.Channels == 3 ? "rgb" : "grayscale";
var img = ImageUtil.LoadImg(path, color_mode: colorMode, target_size: (Settings.ImgWidth, Settings.ImgHeight));
return ImageUtil.ImageToArray(img) / 255;
}
}
在這種方法中,我們用給定的顏色模式(RGB或灰度)加載圖像,并將其調(diào)整為給定的寬度和高度。然后我們返回包含圖像的矩陣,每個元素除以255。每個元素除以255是使它們標(biāo)準(zhǔn)化,因為圖像中任何像素的值都在0到255之間,所以通過將它們除以255,我們確保了新的范圍是0到1,包括255。
我們還在代碼中使用了一個Settings類。該類包含用于跨應(yīng)用程序使用的許多常量。另一個類DataSet,表示我們將要用來訓(xùn)練機器學(xué)習(xí)模型的數(shù)據(jù)集。這里我們有以下字段:
- _pathToFolder—包含圖像的文件夾的路徑。
- _extList—要考慮的文件擴展名列表。
- _labels—_pathToFolder中圖像的標(biāo)簽或類。
- _objs -圖像本身,表示為Numpy.NDarray。
- _validationSplit—用于將總圖像數(shù)劃分為驗證集和訓(xùn)練集的百分比,在本例中,百分比將定義驗證集與總圖像數(shù)之間的大小。
- NumberClasses-數(shù)據(jù)集中唯一類的總數(shù)。
- TrainX -訓(xùn)練數(shù)據(jù),表示為Numpy.NDarray。
- TrainY -訓(xùn)練標(biāo)簽,表示為Numpy.NDarray。
- ValidationX—驗證數(shù)據(jù),表示為Numpy.NDarray。
- ValidationY-驗證標(biāo)簽,表示為Numpy.NDarray。
這是DataSet類:
public class DataSet
{
private string _pathToFolder;
private string[] _extList;
private List<int> _labels;
private List<NDarray> _objs;
private double _validationSplit;
public int NumberClasses { get; set; }
public NDarray TrainX { get; set; }
public NDarray ValidationX { get; set; }
public NDarray TrainY { get; set; }
public NDarray ValidationY { get; set; }
public DataSet(string pathToFolder, string[] extList, int numberClasses, double validationSplit)
{
_pathToFolder = pathToFolder;
_extList = extList;
NumberClasses = numberClasses;
_labels = new List<int>();
_objs = new List<NDarray>();
_validationSplit = validationSplit;
}
public void LoadDataSet()
{
// Process the list of files found in the directory.
string[] fileEntries = Directory.GetFiles(_pathToFolder);
foreach (string fileName in fileEntries)
if (IsRequiredExtFile(fileName))
ProcessFile(fileName);
MapToClassRange();
GetTrainValidationData();
}
private bool IsRequiredExtFile(string fileName)
{
foreach (var ext in _extList)
{
if (fileName.Contains("." + ext))
{
return true;
}
}
return false;
}
private void MapToClassRange()
{
HashSet<int> uniqueLabels = _labels.ToHashSet();
var uniqueLabelList = uniqueLabels.ToList();
uniqueLabelList.Sort();
_labels = _labels.Select(x => uniqueLabelList.IndexOf(x)).ToList();
}
private NDarray OneHotEncoding(List<int> labels)
{
var npLabels = np.array(labels.ToArray()).reshape(-1);
return Util.ToCategorical(npLabels, num_classes: NumberClasses);
}
private void ProcessFile(string path)
{
_objs.Add(Utils.Normalize(path));
ProcessLabel(Path.GetFileName(path));
}
private void ProcessLabel(string filename)
{
_labels.Add(int.Parse(ExtractClassFromFileName(filename)));
}
private string ExtractClassFromFileName(string filename)
{
return filename.Split('_')[0].Replace("class", "");
}
private void GetTrainValidationData()
{
var listIndices = Enumerable.Range(0, _labels.Count).ToList();
var toValidate = _objs.Count * _validationSplit;
var random = new Random();
var xValResult = new List<NDarray>();
var yValResult = new List<int>();
var xTrainResult = new List<NDarray>();
var yTrainResult = new List<int>();
// Split validation data
for (var i = 0; i < toValidate; i++)
{
var randomIndex = random.Next(0, listIndices.Count);
var indexVal = listIndices[randomIndex];
xValResult.Add(_objs[indexVal]);
yValResult.Add(_labels[indexVal]);
listIndices.RemoveAt(randomIndex);
}
// Split rest (training data)
listIndices.ForEach(indexVal =>
{
xTrainResult.Add(_objs[indexVal]);
yTrainResult.Add(_labels[indexVal]);
});
TrainY = OneHotEncoding(yTrainResult);
ValidationY = OneHotEncoding(yValResult);
TrainX = np.array(xTrainResult);
ValidationX = np.array(xValResult);
}
}
下面是每個方法的說明:
- LoadDataSet()——類的主方法,我們調(diào)用它來加載_pathToFolder中的數(shù)據(jù)集。它調(diào)用下面列出的其他方法來完成此操作。
- IsRequiredExtFile(filename) - 檢查給定文件是否包含至少一個應(yīng)該為該數(shù)據(jù)集處理的擴展名(在_extList中列出)。
- MapToClassRange() -獲取數(shù)據(jù)集中唯一標(biāo)簽的列表。
- ProcessFile(path) -使用Utils.Normalize方法對圖像進行規(guī)格化,并調(diào)用ProcessLabel方法。
- ProcessLabel(filename)——將ExtractClassFromFileName方法的結(jié)果添加為標(biāo)簽。
- ExtractClassFromFileName(filename) -從圖像的文件名中提取類。
- GetTrainValidationData()——將數(shù)據(jù)集劃分為訓(xùn)練子數(shù)據(jù)集和驗證子數(shù)據(jù)集。
在本系列中,我們將使用https://cvl.tuwien.ac.at/research/cvl-databases/coin-image-dataset/上的硬幣圖像數(shù)據(jù)集。
要加載數(shù)據(jù)集,我們可以在控制臺應(yīng)用程序的主類中包含以下內(nèi)容:
var numberClasses = 60;
var fileExt = new string[] { ".png" };
var dataSetFilePath = @"C:/Users/arnal/Downloads/coin_dataset";
var dataSet = new PreProcessing.DataSet(dataSetFilePath, fileExt, numberClasses, 0.2);
dataSet.LoadDataSet();
我們的數(shù)據(jù)現(xiàn)在可以輸入到機器學(xué)習(xí)模型中。下一篇文章將介紹監(jiān)督機器學(xué)習(xí)的基礎(chǔ)知識,以及訓(xùn)練和驗證階段包括哪些內(nèi)容。它是為沒有AI經(jīng)驗的讀者準(zhǔn)備的。
以上就是c# 預(yù)處理識別硬幣的數(shù)據(jù)集的詳細(xì)內(nèi)容,更多關(guān)于c# 識別數(shù)據(jù)集的資料請關(guān)注腳本之家其它相關(guān)文章!

