這篇文章將為大家詳細講解有關使用python怎么實現一個K近鄰法,文章內容質量較高,因此小編分享給大家做個參考,希望大家閱讀完這篇文章后對相關知識有一定的了解。
創新互聯公司"三網合一"的企業建站思路。企業可建設擁有電腦版、微信版、手機版的企業網站。實現跨屏營銷,產品發布一步更新,電腦網絡+移動網絡一網打盡,滿足企業的營銷需求!創新互聯公司具備承接各種類型的網站設計、成都網站設計項目的能力。經過10年的努力的開拓,為不同行業的企事業單位提供了優質的服務,并獲得了客戶的一致好評。K近鄰法(K-nearest neighbors,KNN)既可以分類,也可以回歸。
KNN做回歸和分類的區別在于最后預測時的決策方式。
KNN做分類時,一般用多數表決法
KNN做回歸時,一般用平均法。
基本概念如下:對待測實例,在訓練數據集中找到與該實例最鄰近的K個實例(也就是上面所說的K個鄰居), 這K個實例的多數屬于某個類,就把該輸入實例分類到這個類中
KNN算法主要考慮:k值的選取,距離度量方式,分類決策規則。
1) k值的選取。在應用中,k值一般選擇一個比較小的值,一般選用交叉驗證來取最優的k值
當K值較小,訓練誤差減小,泛化誤差增大,模型復雜容易過擬合;
當K值較大,泛化誤差減小,訓練誤差增大,模型簡單使預測發生錯誤(一個極端,K等于樣本數m,則完全沒有分類,此時無論測試集是什么,結果都屬于訓練集中最多的類)
2)距離度量。Lp距離:誤差絕對值p次方求和再求p次根。歐式距離:p=2的Lp距離。曼哈頓距離:p=1的Lp距離。p為無窮大時,Lp距離為各個維度上距離的較大值
3)分類決策規則。也就是如何根據k個最近鄰決定待測對象的分類。k最近鄰的分類決策規則一般選用多數表決
1)計算待測對象和訓練集中每個樣本點的歐式距離
2)對上面的所有距離值排序
3)選出k個最小距離的樣本作為“選民”
4)根據“選民”預測待測樣本的分類或值
1)原理簡單
2)保存模型需要保存所有樣本集
3)訓練過程很快,預測速度很慢
· 優點:
精度高、對異常值不敏感
可用于數值型數據和離散型數據(既可以用來估值,又可以用來分類)
· 缺點:
時間復雜性高;空間復雜性高;需要大量的內存
樣本不平衡問題(即有些類別的樣本數量很多,而其它樣本的數量很少);
一般數值很大的時候不用這個,計算量太大。但是單個樣本又不能太少,否則容易發生誤分。
較大的缺點是無法給出數據的內在含義。
需要思考的問題:
樣本屬性如何選擇?如何計算兩個對象間距離?當樣本各屬性的類型和尺度不同時如何處理?各屬性不同重要程度如何處理?模型的好壞如何評估?
K近鄰算法的一般流程:準備數據- 分析數據- 測試算法- 使用算法
關于sklearn的詳細介紹,請見之前的博客 //www.jb51.net/article/204984.htm
5.1.1 sklearn實現k-近鄰算法簡介 官方文檔
5.1.2 KNeighborsClassifier函數8個參數
- n_neighbors:k值,選取最近的k個點,默認為5;k值不同分類結果也會不同
- weights:默認是uniform,參數可以是uniform(均等權重)、distance(按距離分配權重),也可以是用戶自己定義的函數。uniform是均等的權重,就說所有的鄰近點的權重都是相等的。
- algorithm:快速k近鄰搜索算法,默認參數為auto。除此之外,用戶也可以自己指定搜索算法ball_tree、kd_tree、brute方法進行搜索。
- leaf_size:默認是30,這個是構造的kd樹和ball樹的大小。這個值的設置會影響樹構建的速度和搜索速度,同樣也影響著存儲樹所需的內存大小。需要根據問題的性質選擇最優的大小。
- metric:用于距離度量,默認度量是minkowski,也就是p=2的歐氏距離(歐幾里德度量)。
- p:距離度量公式。歐氏距離和曼哈頓距離。這個參數默認為2,也可以設置為1。
- metric_params:距離公式的其他關鍵參數,這個可以不管,使用默認的None即可。
- n_jobs:并行處理設置。默認為1,臨近點搜索并行工作數。如果為-1,那么CPU的所有cores都用于并行工作。
注意:樣本數據 - 特征數據 feature 必須是數字類型,要進行運算的!
5.1.3 實例
(1)對電影進行分類
import pandas as pd import numpy as np from sklearn.neighbors import KNeighborsClassifier # 讀取數據 df = pd.read_excel(../../myfile.excel) #1、實例模型對象 knn = KNeighborsClassifier(n_neighbors=3) #2、拿到樣本數據和分類結果數據: 截取目標列,樣本數據要二維 feature = df[['Action Lean','Love Lean']] target = feature['target'] #3、訓練模型 knn.fit(feature,target) #4、測試結果 movie = np.array([13,21]) res = knn.predict(movie) #5、評分:分數越高悅準確knn.score(feature,target)
(2)預測年收入是否大于50K美元
# 讀取adult.txt文件,最后一列是年收入,并使用KNN算法訓練模型,然后使用模型預測一個人的年收入是否大于50 # 1. 讀取數據 data = pd.read_csv('../data/adults.txt') data.head() # 2. 獲取年齡、教育程度、職位、每周工作時間作為機器學習數據 獲取薪水作為對應結果 feature = data[['age','education_num','occupation' ,'hours_per_week']] target = data['salary'] # 3. knn中特征數據是需要參與運算的,所以要保證特征數據必須為數值型的數據 # 數據轉換,將String類型數據轉換為int #### map方法,進行數據轉換 dic = {}# unique()方法保證數據 occ_arr = feature['occupation'].unique() # 生成 字符對應數字的 關系表 for i in range(occ_arr.size): dic[occ_arr[i]] = i # 數值替換字符串 feature['occupation'] = feature['occupation'].map(dic) # 4. 切片:訓練數據和預測數據 # 查看數據的形狀 (訓練的數據必須是二維數據) feature.shape #訓練數據 x_train = feature[:32500] y_train = target[:32500] #測試數據 x_test = feature[32500:] y_test = target[32500:] # 5. 生成算法 from sklearn.neighbors import KNeighborsClassifier # 實例化一個 knn對象, # 參數:n_neighbors可調,調到最終預測的是好的結果. knn = KNeighborsClassifier(n_neighbors=10) # fit() 訓練函數, (訓練數據,訓練數據的結果) knn.fit(x_train,y_train) # 對訓練的模型進行評分 (測試數據,測試數據的結果) knn.score(x_test,y_test) # 6.預測數據 print('真實的分類結果:',np.array(y_test)) print('模型的分類結果:',knn.predict(x_test))
(3)實例:基于sklearn實現手寫數字識別系統
pylot 讀取圖片:img_arr.shape 查看形狀
import pandas as pd import numpy as np from sklearn.neighbors import KNeighborsClassifier # 1、樣本數據提取:每張圖片對應的numpy數組:0,1,2,3,4,5,6,7,8,9 feature =[] target =[] for i in range(10):#0-9 文件夾名稱 for j in range(1,501): #1-500圖片名稱 imgpath = './data/'+str(i)+'/'+str(i)+'_'+str(j)+'.bmp' #圖片路徑 img_arr = pld.imread(imgpath) feature.append(img_arr) target.append(i) # 2、把列表轉成numpy數組;feature 必須為二維數組; feature = np.array(feature) #這個feature 里有多個二維數組, target = np.array(target) feature.shape (5000,28,28) #里面有5000個28*28的二維數組 # 擴展:feature是三維數組;多個二維數組組成的數組是三維數組,多個一維數組組成的數組是二維數組! # 3、feature變形為二維數組 feature.shape(5000,784) #4、對樣本數據和目標數據進行同步打亂 np.random.seed(10) np.random.shuffle(feature) np.random.seed(10) np.random.shuffle(target) # 5、對樣本數據進行拆分:訓練數據和測試數據 x_train = feature[:4950] y_train = target[:4950] x_test = feature[4950:] y_test = target[4950:] # 6、對模型進行訓練:參數:n_neighbors可調,調到最終預測的評分好的結果. from sklearn.neighbors import KNeighborsClassifier knn = KNeighborsClassifier(n_neighbors=8) knn.fit(x_train,y_train) # (訓練數據,訓練數據的結果) # 7、對訓練的模型進行評分 (測試數據,測試數據的結果) knn.score(x_test,y_test) # 8、對模型進行測試 print('真實的結果',y_test) print('模型分類的結果',knn.predict(x_test)) #9、保存訓練號的模型 from sklearn.externals import joblib joblib.dump(knn,'./knn.m') #10、讀取訓練好的模型 knn = joblib.load('./knn.m') #------------------------------------------------------------------------------------------------- # 11、將外部圖片帶入模型進行測試 # 注意:外部圖片的樣本數據要轉成和訓練模型時候使用的樣本圖片一樣的維度數組 # !!!模型只可以測試類似于測試數據中的特征數據 !!! img_arr = plt.imgread('./數字.jpg') eight_arr = img_arr[170:260,80:70] # 截取圖片的部分 plt.imshow(eight_arr) #查看截取的數字圖片 # 變形為測試數據中的特征數據:feature.shape(5000,784) 每一行是一個一維的784個元素的數組;像素要變為一樣 # 12、將eight_arr 對應的圖片降維(三維變為二維):將(65,50,3)變為(28,28) eight_arr.mean(axis=2 ) # axis=2 表示去除第三個維度,保留(65,50)保證圖片不能變! # 13、將圖片像素進行等比例壓縮 import scipy.ndimage as ndimage data_pre_test = ndimage.zoom(eight_arr,zoom=(28/65,28/50)) eight_arr.shape #(28,28) # 14、將壓縮好的圖片由二維(28,28)變為一維(1,784) eight_arr = eight_arr(1,784) # 15、識別外部進行壓縮和降維的圖片 knn.predict(eight_arr) array([8])
# -*- coding: UTF-8 -*- import numpy as np import operator from os import listdir from sklearn.neighbors import KNeighborsClassifier as kNN """ 函數說明:將32x32的二進制圖像轉換為1x1024向量。 Parameters: filename - 文件名 Returns: returnVect - 返回的二進制圖像的1x1024向量 """ def img2vector(filename): #創建1x1024零向量 returnVect = np.zeros((1, 1024)) #打開文件 fr = open(filename) #按行讀取 for i in range(32): #讀一行數據 lineStr = fr.readline() #每一行的前32個元素依次添加到returnVect中 for j in range(32): returnVect[0, 32*i+j] = int(lineStr[j]) #返回轉換后的1x1024向量 return returnVect """ 函數說明:手寫數字分類測試 Parameters: 無 Returns: 無 """ def handwritingClassTest(): #測試集的Labels hwLabels = [] #返回trainingDigits目錄下的文件名 trainingFileList = listdir('trainingDigits') #返回文件夾下文件的個數 m = len(trainingFileList) #初始化訓練的Mat矩陣,測試集 trainingMat = np.zeros((m, 1024)) #從文件名中解析出訓練集的類別 for i in range(m): #獲得文件的名字 fileNameStr = trainingFileList[i] #獲得分類的數字 classNumber = int(fileNameStr.split('_')[0]) #將獲得的類別添加到hwLabels中 hwLabels.append(classNumber) #將每一個文件的1x1024數據存儲到trainingMat矩陣中 trainingMat[i,:] = img2vector('trainingDigits/%s' % (fileNameStr)) #構建kNN分類器 neigh = kNN(n_neighbors = 3, algorithm = 'auto') #擬合模型, trainingMat為訓練矩陣,hwLabels為對應的標簽 neigh.fit(trainingMat, hwLabels) #返回testDigits目錄下的文件列表 testFileList = listdir('testDigits') #錯誤檢測計數 errorCount = 0.0 #測試數據的數量 mTest = len(testFileList) #從文件中解析出測試集的類別并進行分類測試 for i in range(mTest): #獲得文件的名字 fileNameStr = testFileList[i] #獲得分類的數字 classNumber = int(fileNameStr.split('_')[0]) #獲得測試集的1x1024向量,用于訓練 vectorUnderTest = img2vector('testDigits/%s' % (fileNameStr)) #獲得預測結果 # classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3) classifierResult = neigh.predict(vectorUnderTest) print("分類返回結果為%d\t真實結果為%d" % (classifierResult, classNumber)) if(classifierResult != classNumber): errorCount += 1.0 print("總共錯了%d個數據\n錯誤率為%f%%" % (errorCount, errorCount/mTest * 100)) """ 函數說明:main函數 Parameters: 無 Returns: 無 """ if __name__ == '__main__': handwritingClassTest()
關于使用python怎么實現一個K近鄰法就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
網站題目:使用python怎么實現一個K近鄰法-創新互聯
當前路徑:http://vcdvsql.cn/article46/djhihg.html
成都網站建設公司_創新互聯,為您提供品牌網站建設、App開發、網站內鏈、網站設計公司、網站排名、軟件開發
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯