怎么在python中實現一個k近鄰算法-創新互聯

怎么在python中實現一個k近鄰算法？很多新手對此不是很清楚，為了幫助大家解決這個難題，下面小編將為大家詳細講解，有這方面需求的人可以來學習下，希望你能有所收獲。

我們提供的服務有：做網站、網站設計、微信公眾號開發、網站優化、網站認證、萬山ssl等。為上千多家企事業單位解決了網站和推廣的問題。提供周到的售前咨詢和貼心的售后服務，是有科學管理、有技術的萬山網站制作公司

什么是kNN

kNN算法的模型就是整個訓練數據集。當需要對一個未知數據實例進行預測時，kNN算法會在訓練數據集中搜尋k個最相似實例。對k個最相似實例的屬性進行歸納，將其作為對未知實例的預測。

相似性度量依賴于數據類型。對于實數，可以使用歐式距離來計算。其他類型的數據，如分類數據或二進制數據，可以用漢明距離。

對于回歸問題，會返回k個最相似實例屬性的平均值。對于分類問題，會返回k個最相似實例屬性出現最多的屬性。

kNN如何工作

kNN屬于基于實例算法簇的競爭學習和懶惰學習算法。

基于實例的算法運用數據實例（或數據行）對問題進行建模，進而做出預測決策。kNN算法算是基于實例方法的一種極端形式，因為其保留所有的訓練集數據作為模型的一部分。

kNN是一個競爭學習算法，因為為了做出決策，模型內部元素（數據實例）需要互相競爭。數據實例之間客觀相似度的計算，促使每個數據實例都希望在競爭中“獲勝”或者盡可能地與給定的未知數據實例相似，繼而在預測中做出貢獻。

懶惰學習是指直到需要預測時算法才建立模型。它很懶，因為它只在最后一刻才開始工作。優點是只包含了與未知數據相關的數據，稱之為局部模型。缺點是，在大型訓練數據集中會重復相同或相似的搜索過程，帶來昂貴的計算開銷。

最后，kNN的強大之處在于它對數據不進行任何假設，除了任意兩個數據實例之間距離的一致計算。因此，它被稱為成為無參數或者非線性的，因為它沒有預設的函數模型。

用python寫程序真的好舒服。

import numpy as np
def read_data(filename):
  '''讀取文本數據，格式：特征1  特征2 …… 類別'''
  f=open(filename,'rt')
  row_list=f.readlines() #以每行作為列表
  f.close()
  data_array=[]
  labels_vector=[]
  while True:
    if not row_list:
      break
    row=row_list.pop(0).strip().split('\t') #去除換行號，分割制表符
    temp_data_row=[float(a) for a in row[:-1]] #將字符型轉換為浮點型
    data_array.append(temp_data_row) #取特征值
    labels_vector.append(row[-1])  #取最后一個作為類別標簽
  return np.array(data_array),np.array(labels_vector)

def classify(test_data,dataset,labels,k):
  '''分類'''
  diff_dis_array=test_data-dataset  #使用numpy的broadcasting
  dis_array=(np.add.reduce(diff_dis_array**2,axis=-1))**0.5  #求距離
  dis_array_index=np.argsort(dis_array)  #升序距離的索引
  class_count={}
  for i in range(k):
    temp_label=labels[dis_array_index[i]]
    class_count[temp_label]=class_count.get(temp_label,0)+1 #獲取類別及其次數的字典
  sorted_class_count=sorted(class_count.items(), key=lambda item:item[1],reverse=True)  #字典的值按降序排列
  return sorted_class_count[0][0]  #返回元組列表的[0][0]

def normalize(dataset):
  '''數據歸一化'''
  return (dataset-dataset.min(0))/(dataset.max(0)-dataset.min(0))

k=3 #近鄰數
test_data=[0,0] #待分類數據
data,labels=read_data('testdata.txt')
print('數據集：\n',data)
print('標簽集：\n',labels)
result=classify(test_data,normalize(data),labels,k)
print('分類結果：',result)

看完上述內容是否對您有幫助呢？如果還想對相關知識有進一步的了解或閱讀更多相關文章，請關注創新互聯行業資訊頻道，感謝您對創新互聯的支持。

標題名稱：怎么在python中實現一個k近鄰算法-創新互聯
路徑分享：http://vcdvsql.cn/article16/didjdg.html

成都網站建設公司_創新互聯，為您提供做網站、云服務器、定制開發、手機網站建設、App開發、響應式網站

聲明：本網站發布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創新互聯

猜你還喜歡下面的內容

bl双性强迫侵犯h_国产在线观看人成激情视频_蜜芽188_被诱拐的少孩全彩啪啪漫画

怎么在python中實現一個k近鄰算法-創新互聯