目錄
成都創新互聯專業為企業提供江南網站建設、江南做網站、江南網站設計、江南網站制作等企業網站建設、網頁設計與制作、江南企業網站模板建站服務,十余年江南做網站經驗,不只是建網站,更提供有價值的思路和整體網絡服務。1.簡介
2.算法原理
3.實例分析
3.1 讀取數據
3.2?原理推導K均值過程
3.3 自帶kmeans函數求解過程
完整代碼
聚類是一個將數據集中在某些方面相似的數據成員進行分類組織的過程,聚類就是一種發現這種內在結構的技術,聚類技術經常被稱為無監督學習。
K均值聚類是最著名的劃分聚類算法,由于簡潔和效率使得他成為所有聚類算法中最廣泛使用的。給定一個數據點集合和需要的聚類數目K,K由用戶指定,K均值算法根據某個距離函數反復把數據分入K個聚類中。
2.算法原理K-means算法是典型的基于距離的聚類算法,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。該算法認為簇是由距離靠近的對象組成的,因此把得到緊湊且獨立的簇作為最終目標。
K-mean算法步驟如下:
(1)隨機選取K個樣本為中?
(2)分別計算所有樣本到隨機選取的K個中?的距離
(3)樣本離哪個中?近就被分到哪個中?
(4)計算各個中?樣本的均值(最簡單的?法就是求樣本每個維度的平均值)作為新的中心
(5)重復(2)(3)(4)直到新的中?和原來的中?基本不變化的時候,算法結束
3.實例分析數據來源于:統計年鑒
從數據中,我們可以看到,實際數據是被分為三類的。
3.1 讀取數據data=xlsread('D:\桌面\kmeans.xlsx')
返回:
在這里我們看到,xlsread讀取數據時沒有讀取變量名,但序號也被加進去了,接下來我們需要將其剔除
data=data(:,2:7)
返回:
3.2?原理推導K均值過程%% 原理推導K均值
[m,n]=size(data); %讀取數據的行數與列數
cluster_num=3; %自定義分類數
cluster=data(randperm(m,cluster_num),:);
epoch_max=1000;%大次數
therad_lim=0.001;%中心變化閾值
epoch_num=0;
while(epoch_numtherad_lim)
cluster=cluster_new;
else
break;
end
end
%% 畫出聚類效果
figure(2)
subplot(2,1,1)
a=unique(index_cluster); %找出分類出的個數
C=cell(1,length(a));
for i=1:length(a)
C(1,i)={find(index_cluster==a(i))};
end
for j=1:cluster_num
data_get=data(C{1,j},:);
scatter(data_get(:,1),data_get(:,2),100,'filled','MarkerFaceAlpha',.6,'MarkerEdgeAlpha',.9);
hold on
end
plot(cluster(:,1),cluster(:,2),'kd','LineWidth',2);
hold on
sc_t=mean(silhouette(data,index_cluster'));
title_str=['原理推導K均值聚類',' 聚類數為:',num2str(cluster_num),' SC輪廓系數:',num2str(sc_t)];
title(title_str)
返回:
3.3 自帶kmeans函數求解過程%% MATLAB自帶kmeans函數
subplot(2,1,2) %畫子圖,在這里是一圖上可畫兩張子圖
cluster_num=3; %自定義分類數
[index_km,center_km]=kmeans(data,cluster_num) ;%MATLAB自帶kmeans函數
a=unique(index_km); %找出分類出的個數
C=cell(1,length(a));
for i=1:length(a)
C(1,i)={find(index_km==a(i))};
end
for j=1:cluster_num
data_get=data(C{1,j},:);
scatter(data_get(:,1),data_get(:,2),100,'filled','MarkerFaceAlpha',.6,'MarkerEdgeAlpha',.9);
hold on
end
plot(center_km(:,1),center_km(:,2),'kd','LineWidth',2);
hold on
sc_k=mean(silhouette(data,index_km));
title_str1=['MATLAB自帶kmeans函數',' 聚類數為:',num2str(cluster_num),' SC輪廓系數:',num2str(sc_k)];
title(title_str1)
返回結果如下:
完整代碼clear;clc;
data=xlsread('D:\桌面\kmeans.xlsx')
data=data(:,2:7)
%% 原理推導K均值
[m,n]=size(data); %讀取數據的行數與列數
cluster_num=3; %自定義分類數
cluster=data(randperm(m,cluster_num),:);
epoch_max=1000;%大次數
therad_lim=0.001;%中心變化閾值
epoch_num=0;
while(epoch_numtherad_lim)
cluster=cluster_new;
else
break;
end
end
%% 畫出聚類效果
figure
subplot(2,1,1) %畫子圖,在這里是一圖上可畫兩張子圖
a=unique(index_cluster); %找出分類出的個數
C=cell(1,length(a));
for i=1:length(a)
C(1,i)={find(index_cluster==a(i))};
end
for j=1:cluster_num
data_get=data(C{1,j},:);
scatter(data_get(:,1),data_get(:,2),100,'filled','MarkerFaceAlpha',.6,'MarkerEdgeAlpha',.9);
hold on
end
plot(cluster(:,1),cluster(:,2),'kd','LineWidth',2);
hold on
sc_t=mean(silhouette(data,index_cluster'));
title_str=['原理推導K均值聚類',' 聚類數為:',num2str(cluster_num),' SC輪廓系數:',num2str(sc_t)];
title(title_str)
%% MATLAB自帶kmeans函數
subplot(2,1,2) %畫子圖,在這里是一圖上可畫兩張子圖
cluster_num=3; %自定義分類數
[index_km,center_km]=kmeans(data,cluster_num) ;%MATLAB自帶kmeans函數
a=unique(index_km); %找出分類出的個數
C=cell(1,length(a));
for i=1:length(a)
C(1,i)={find(index_km==a(i))};
end
for j=1:cluster_num
data_get=data(C{1,j},:);
scatter(data_get(:,1),data_get(:,2),100,'filled','MarkerFaceAlpha',.6,'MarkerEdgeAlpha',.9);
hold on
end
plot(center_km(:,1),center_km(:,2),'kd','LineWidth',2);
hold on
sc_k=mean(silhouette(data,index_km));
title_str1=['MATLAB自帶kmeans函數',' 聚類數為:',num2str(cluster_num),' SC輪廓系數:',num2str(sc_k)];
title(title_str1)
返回:
每次返回結果也不盡相同,原理推導的和自帶的函數的求解結果也相差不是很大,但與原始數據的分類相比較,還是有一定差距
你是否還在尋找穩定的海外服務器提供商?創新互聯www.cdcxhl.cn海外機房具備T級流量清洗系統配攻擊溯源,準確流量調度確保服務器高可用性,企業級服務器適合批量采購,新人活動首月15元起,快前往官網查看詳情吧
網站題目:K-means聚類——matlab-創新互聯
網頁網址:http://vcdvsql.cn/article46/dshihg.html
成都網站建設公司_創新互聯,為您提供App開發、全網營銷推廣、靜態網站、網站制作、移動網站建設、軟件開發
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯