bl双性强迫侵犯h_国产在线观看人成激情视频_蜜芽188_被诱拐的少孩全彩啪啪漫画

R語言項目中出現數據不平衡如何解決-創新互聯

這篇文章將為大家詳細講解有關R語言項目中出現數據不平衡如何解決,文章內容質量較高,因此小編分享給大家做個參考,希望大家閱讀完這篇文章后對相關知識有一定的了解。

讓客戶滿意是我們工作的目標,不斷超越客戶的期望值來自于我們對這個行業的熱愛。我們立志把好的技術通過有效、簡單的方式提供給客戶,將通過不懈努力成為客戶在信息化領域值得信任、有價值的長期合作伙伴,公司提供的服務項目有:國際域名空間、網絡空間、營銷軟件、網站建設、黃陂網站維護、網站推廣。

一、項目環境


開發工具:RStudio

R:3.5.2

相關包:dplyr、ROSE、DMwR

二、什么是數據不平衡?為什么要處理數據不平衡?

首先我們要知道的第一個問題就是“什么是數據不平衡”,從字面意思上進行解釋就是數據分布不均勻。在我們做有監督學習的時候,數據中有一個類的比例遠大于其他類,或者有一個類的比值遠小于其他類時,我們就可以認為這個數據存在數據不平衡問題。

那么這樣的一個問題會對我們后續的分析工作帶來怎樣的影響呢?我舉個簡單的例子,或許大家就明白了。

假設我們現在需要訓練一個模型來分辨人群中那個人是恐怖分子。那么現在給到我們1萬個人員的數據,在做分析之前其實我們就很清楚,一群人中恐怖分子的比例肯定是要遠小于普通人的比例的。

那么假如在這1萬個人中只有一個是恐怖分子,那么恐怖分子與正常人的比例就是 9999 : 1 。

那么如果我們不進行任何處理就直接進行有監督學習的話,那么模型只需要將所有人數據都分類為正常人,模型的準確率就能達到99.99%。而這樣的模型顯然是沒有意義的。

因為基本上說有可能存在的恐怖分子的特征基本都被模型給忽略了,這也就說明了為什么要處理數據不平衡問題。

三、 常見的數據不平衡處理方法

以下是幾種比較常見的處理數據不平衡的方法:

1、欠采樣法(Undersampling)

2、過采樣法(Oversampling)

3、人工數據合成法(Synthetic Data Generation)

4、代價敏感學習法(Cose Sensitive Learning)

【注】:本文主要以實現為主,因此不對上述方法進行過多的講解。

在處理數據之前,我們先看一下需要處理的數據分布的情況。

load("C:/Users/User/Desktop/data.RData")
table(data$classification)
prop.table(table(data$classification))

> table(data$classification)

-8 1 2 3 4 5

12 104 497 1158 4817 1410

> prop.table(table(data$classification))

-8 1 2 3 4 5

0.001500375 0.013003251 0.062140535 0.144786197 0.602275569 0.176294074

1、 欠采樣

######### 方法一 #########
library(ROSE)
# 由于是多分類問題,我們先提取數據中比例較大的類和比例最小的類
# 進行平衡(轉化為二分類問題)
test <- data[which(data$classification == -8 | data$classification == 4),]
# 將分類結果轉化為因子型(不然會報錯)
test$classification <- as.factor(test$classification)
# 進行欠采樣
# 其中 method = "under" 表示采用的方法為“欠采樣”
# N = 40 表示最終整個數據集的數量
# seed 隨機種子,為了保留對樣本的追蹤
under <- ovun.sample(classification ~ ., test, method = "under", N = 40, seed = 1)$data
# 查看結果
table(under$classification)

> table(under$classification)

4 -8

28 12

######### 方法二 #########
library(dplyr)
# 由于是多分類問題,我們先提取數據中比例較大的類和比例最小的類
# 進行平衡(轉化為二分類問題)
test <- data[which(data$classification == -8 | data$classification == 4),]
# 提取大比例類
test1 <- test[which(test$classification == 4),]
# 將大比例類的數量降為12個
down <- sample_n(test1, 12, replace = TRUE)
# 將欠采樣后的類進行合并
down <- rbind(test[which(test$classification == -8), ],down)
table(down$classification)

> table(down$classification)

-8 4

12 12

【注】:欠采樣是無放回的采樣。

2、 過采樣

######### 方法一 #########
library(ROSE)
test <- data[which(data$classification == -8 | data$classification == 4),]
test$classification <- as.factor(test$classification)
# 實現上大致與欠采樣相同,只有類型 method 改成了 "over",同時沒有限制總數量
under <- ovun.sample(classification ~ ., test, method = "over", seed = 1)$data
table(under$classification)

> table(under$classification)

4 -8

4817 4785

######### 方法二 #########
library(dplyr)
test <- data[which(data$classification == -8 | data$classification == 4),]
# 提取小比例類
test1 <- test[which(test$classification == -8),]
# 將小比例類的數量降為4817個(與大比例類相同)
# 這里使用的過采樣方法是隨機復制小比例類中的數據,將其擴充到指定數量
down <- sample_n(test1, 4817, replace = TRUE)
down <- rbind(test[which(test$classification == 4), ],down)
table(down$classification)

> table(down$classification)

-8 4

4817 4817

3、人工數據合成法(Synthetic Data Generation)

######### 方法一 #########
library(ROSE)
# 由于是多分類問題,我們先提取數據中比例較大的類和比例最小的類
# 進行平衡(轉化為二分類問題)
test <- data[which(data$classification == -8 | data$classification == 4),]
# 將分類結果轉化為因子型(不然會報錯)
test$classification <- as.factor(test$classification)
# ROSE提供了ROSE()函數來合成人工數據
rose <- ROSE(classification ~ ., test, seed = 1)$data
# 查看結果
table(rose$classification)

> table(rose$classification)

4 -8

2483 2346

######### 方法二 #########
library(DMwR)
test <- data[which(data$classification == -8 | data$classification == 4),]
test$classification <- as.factor(test$classification)
# perc.over: 如 perc.over = n,小比例類的個數變為 (n/100)a + a 個數據(a為小比例類原始數量)
# perc.under: 如 perc.under = m,大比例類的個數變為((nm)/100)a個
# 因此本次案例中,小比例類的個數變為(3500/100)*12 + 12 = 432個
# 大比例類的個數變為((3500*300)/100^2)*12 = 1260個
down <- SMOTE(classification ~ ., test, perc.over = 3500, perc.under = 300)
table(down$classification)

> table(down$classification)

-8 4

432 1260

關于R語言項目中出現數據不平衡如何解決就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。

網頁標題:R語言項目中出現數據不平衡如何解決-創新互聯
鏈接URL:http://vcdvsql.cn/article14/csepde.html

成都網站建設公司_創新互聯,為您提供手機網站建設、Google移動網站建設微信公眾號、品牌網站制作、響應式網站

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

網站優化排名