快捷導(dǎo)航

C語(yǔ)言實(shí)現(xiàn)K-Means算法

更新時(shí)間：2018年02月23日 11:21:26 作者：Deng笨蛋

這篇文章主要為大家詳細(xì)介紹了C語(yǔ)言實(shí)現(xiàn)K-Means算法，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下

一、聚類和聚類算法

聚類，就是將數(shù)據(jù)對(duì)象劃分成若干個(gè)類，在同一個(gè)類中的對(duì)象具有較高的相似度，而不同的類相似度較小。聚類算法將數(shù)據(jù)集合進(jìn)行劃分，分成彼此相互聯(lián)系的若干類，以此實(shí)現(xiàn)對(duì)數(shù)據(jù)的深入分析和數(shù)據(jù)價(jià)值挖掘的初步處理階段。例如在現(xiàn)代商業(yè)領(lǐng)域，聚類分析算法可以從龐大的數(shù)據(jù)集合中對(duì)消費(fèi)者的消費(fèi)習(xí)慣、消費(fèi)傾向，以方便決策者制訂消費(fèi)策略?？傊鳛閿?shù)據(jù)挖掘中的一個(gè)模塊，聚類分析算法可以作為一個(gè)單獨(dú)的工具已發(fā)現(xiàn)數(shù)據(jù)庫(kù)中分布的一些深層信息，并概括出每一類的特點(diǎn)。聚類分析算法也可作為數(shù)據(jù)挖掘算法中其他分析算法的一個(gè)預(yù)處理步驟。

在數(shù)據(jù)挖掘領(lǐng)域，聚類分析算法可以分為一下幾個(gè)大類，包括劃分法、層次法、基于密度的方法、基于網(wǎng)絡(luò)的方法和基于模型的方法?；趧澐值幕舅枷刖褪峭ㄟ^(guò)迭代的方法將含有N個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)集分成K個(gè)聚類。具體的步驟就是，用戶先給出要?jiǎng)澐值膫€(gè)數(shù)，然后通過(guò)一定的算法反復(fù)的進(jìn)行迭代，使得每次得到的分組比前一次更加接近預(yù)期目標(biāo)，是否優(yōu)化的判定標(biāo)準(zhǔn)是同組數(shù)據(jù)之間不同數(shù)據(jù)之間的相似程度，同組數(shù)據(jù)相似程度越大，組間似程度越小越優(yōu)化。

K-means聚類算法的核心思想就是基于對(duì)數(shù)據(jù)集合的劃分，它把N個(gè)數(shù)據(jù)對(duì)象劃分成K個(gè)類，使每個(gè)類中的數(shù)據(jù)點(diǎn)到該聚類中心的距離平方和最小。下面我將利用C語(yǔ)言來(lái)實(shí)現(xiàn)K-means算法，并對(duì)該算法在輸入不同的聚類個(gè)數(shù)、改變數(shù)據(jù)點(diǎn)的密集程度以及初始聚類中心點(diǎn)的選擇三個(gè)方面來(lái)測(cè)試該算法。

二、K-means算法實(shí)現(xiàn)步驟

通過(guò)對(duì)聚類和K-Means算法思想的了解，C語(yǔ)言算法的實(shí)現(xiàn)過(guò)程如下：

（1）通過(guò)文件輸入N個(gè)數(shù)據(jù)點(diǎn)，并選取其中K（K<N）個(gè)數(shù)據(jù)點(diǎn)作為初始聚類中心；

（2）對(duì)剩余的數(shù)據(jù)點(diǎn)分別計(jì)算到各個(gè)聚類聚點(diǎn)中心的歐氏距離，并將該點(diǎn)劃分到最近的類中；

（3）重新計(jì)算各個(gè)聚類的聚點(diǎn)中心；

（4）與之前的聚類中心比較，如果聚類中心發(fā)生變化，轉(zhuǎn)到（2），否則結(jié)束迭并輸出結(jié)果。

三、K-means算法實(shí)現(xiàn)

（一）實(shí)現(xiàn)思路

通過(guò)以上對(duì)K-means算法的了解，該算法主要是通過(guò)迭代的思想來(lái)求解K個(gè)聚類的中心。由于傳統(tǒng)數(shù)組需要先定義再使用，且在使用的過(guò)程中不能實(shí)現(xiàn)數(shù)組長(zhǎng)度的動(dòng)態(tài)增長(zhǎng)。同時(shí)考慮到設(shè)計(jì)該算法時(shí)，沒(méi)有涉及到在迭代過(guò)程中各個(gè)數(shù)據(jù)點(diǎn)的插入和刪除，各個(gè)數(shù)據(jù)點(diǎn)具體劃分到那個(gè)聚類中，是由結(jié)構(gòu)體成員變量中的className來(lái)標(biāo)識(shí)，因此選用了Vector來(lái)作為存儲(chǔ)數(shù)據(jù)的容器，這樣當(dāng)從文件輸入大量數(shù)據(jù)時(shí)，由程序自己開(kāi)辟需要的存儲(chǔ)空間。同時(shí)，也可通過(guò)Vector向量容器提供的size和迭代器方法，實(shí)現(xiàn)遍歷并按照所在聚類進(jìn)行輸出。

每個(gè)數(shù)據(jù)點(diǎn)都含有X、Y坐標(biāo)，算法初始狀態(tài)時(shí)，指定聚類的具體個(gè)數(shù)K，初試狀態(tài)的K個(gè)聚類中心由輸入文件的前K個(gè)數(shù)據(jù)點(diǎn)來(lái)指定。算法在每一次迭代中，需要計(jì)算各個(gè)點(diǎn)到K個(gè)聚類中心坐標(biāo)的歐氏距離，并選擇距離最近的一個(gè)聚類，用該聚類的名稱標(biāo)識(shí)當(dāng)前數(shù)據(jù)點(diǎn)。當(dāng)所有數(shù)據(jù)點(diǎn)遍歷完后，計(jì)算劃分到每個(gè)聚類中所有數(shù)據(jù)點(diǎn)X與Y的均值，并將該均值與前一次聚類中心點(diǎn)的坐標(biāo)相比較。當(dāng)X與Y的誤差小于或者等于1e-6時(shí)，則結(jié)束迭代并輸出收斂后的K歌聚類的中心坐標(biāo)。

（二）變量和函數(shù)說(shuō)明

（1）定義結(jié)構(gòu)體類型，用于存儲(chǔ)數(shù)據(jù)點(diǎn)坐標(biāo)、所在聚類、與聚類中心距離

typedef struct point

{

float x,y;    //數(shù)據(jù)點(diǎn)的坐標(biāo)
string className; //所屬的聚類
float distance;  //距離聚類中心的距離

}Point;

（2）變量聲明

vector<Point> dataVector：存儲(chǔ)從文件讀取的數(shù)據(jù)

vector<Point> classPoints：存儲(chǔ)聚類坐標(biāo)

vector<Point> &totalPoints)：存儲(chǔ)所有的數(shù)據(jù)點(diǎn)

（3）函數(shù)聲明

字符串轉(zhuǎn)換函數(shù)：將整型變量轉(zhuǎn)換成字符串類型：

string converToString(int x);

讀入數(shù)據(jù)函數(shù)：從文件讀入坐標(biāo)數(shù)據(jù)：

vector<Point> readDataFile(string fileName);

初始化數(shù)據(jù)集合函數(shù)：

void initDataset(int classNum,vector<Point> dataVector,vector<Point> &classPoints,vector<Point> &totalPoints);

計(jì)算各個(gè)數(shù)據(jù)點(diǎn)距離聚點(diǎn)中心的歐氏距離的函數(shù)：

string computerDistance(Point *p_totalPoints,vector<Point> &classPoints);

將各個(gè)點(diǎn)劃分到相應(yīng)類的函數(shù)：

void kMeansClustering(int classNum,vector<Point> totalPoints,vector<Point> classPoints);

（三）核心代碼（部分）

（1）初始化數(shù)據(jù)集合函數(shù)：

void initDataset(int classNum,vector<Point>dataVector,vector<Point>&classPoints, 
         vector<Point>&totalPoints) 
{ 
  int i,j; 
  Point point; 
  for(i=0,j=1; i<dataVector.size(); i++) 
  { 
    if(j<=classNum) //classNum表示聚類的編號(hào) 
    { 
      point.x=dataVector[i].x; 
      point.y=dataVector[i].y; 
      point.distance=dataVector[i].distance; 
      point.className=converToString(j);//將整型類型轉(zhuǎn)換成字符串類型 
      classPoints.push_back(point); 
      j++; 
    } 
    point.x=dataVector[i].x; 
    point.y=dataVector[i].y; 
    point.distance=dataVector[i].distance; 
    totalPoints.push_back(point); 
  } 
}

（2）K-means函數(shù)：

void kMeansClustering(int classNum,vector<Point> totalPoints,vector<Point> classPoints) 
{ 
  float tempX=0;//計(jì)算聚類中所有數(shù)據(jù)點(diǎn)X的均值 
  float tempY=0;//計(jì)算聚類中所有數(shù)據(jù)點(diǎn)Y的均值 
  int count=0; //記錄每一個(gè)類中數(shù)據(jù)點(diǎn)的數(shù)目 
  float errorX=INT_MAX; //假設(shè)初始時(shí)誤差最大 
  float errorY=INT_MAX; 
  vector<Point>::iterator p_totalPoints; 
  vector<Point>::iterator p_classPoints; 
  Point temp; 
  int i; 
  while(errorX > 1e-6 && errorY > 1e-6) 
  { 
    for(p_totalPoints=totalPoints.begin(); p_totalPoints!=totalPoints.end(); p_totalPoints++) 
    { 
      //將所有的點(diǎn)就近分類 
      string className=computerDistance(p_totalPoints,classPoints); 
      (*p_totalPoints).className=className; 
    } 
    errorX=0; 
    errorY=0; 
    //按照均值重新劃分聚類中心點(diǎn) 
    for(p_classPoints=classPoints.begin(); p_classPoints!=classPoints.end(); p_classPoints++) 
    { 
      count=0; 
      tempX=0; 
      tempY=0; 
      cout<<"Partition to cluster center "<<p_classPoints->className<<":"; 
      for(p_totalPoints=totalPoints.begin(); p_totalPoints!=totalPoints.end(); p_totalPoints++) 
      { 
        if((*p_totalPoints).className==(*p_classPoints).className) 
        { 
          cout<<" ("<<(*p_totalPoints).x<<","<<(*p_totalPoints).y<<") "; 
          count++; 
          tempX+=(*p_totalPoints).x; 
          tempY+=(*p_totalPoints).y; 
        } 
      } 
      cout<<endl; 
      tempX /=count; 
      tempY /=count; 
      errorX +=fabs(tempX - (*p_classPoints).x); 
      errorY +=fabs(tempY - (*p_classPoints).y); 
      //計(jì)算X與Y均值 
      (*p_classPoints).x=tempX; 
      (*p_classPoints).y=tempY; 
    } 
    int i=0; 
    for(p_classPoints=classPoints.begin(); p_classPoints!=classPoints.end(); p_classPoints++,i++) 
    { 
      cout<<"Cluster center "<<i+1<<": x="<<(*p_classPoints).x<<" y="<<(*p_classPoints).y<<endl; 
    } 
    cout<<"-----------------------------------------------------------------"<<endl; 
  } 
  cout<<"Result value convergence"<<endl; 
  i=0; 
  for(p_classPoints=classPoints.begin(); p_classPoints!=classPoints.end(); p_classPoints++,i++) 
  { 
    cout<<"Cluster center "<<i+1<<": x="<<(*p_classPoints).x<<" y="<<(*p_classPoints).y<<endl; 
  } 
  cout<<"-----------------------------------------------------------------"<<endl; 
}

以上就是本文的全部?jī)?nèi)容，希望對(duì)大家的學(xué)習(xí)有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章: