W3Cschool
恭喜您成為首批注冊用戶
獲得88經(jīng)驗值獎勵
分類不平衡是屬于一個類別的觀察數(shù)量顯著低于屬于其他類別的觀測數(shù)量的場景。 例如,在我們需要識別罕見疾病,銀行欺詐性交易等情況下,這個問題非常突出。
不平衡分類的例子 讓我們考慮一個欺詐檢測數(shù)據(jù)集的例子來理解不平衡分類的概念 -
Total observations = 5000
Fraudulent Observations = 50
Non-Fraudulent Observations = 4950
Event Rate = 1%
解決 平衡類的行為,解決不平衡的類問題。 平衡類的主要目標(biāo)是增加少數(shù)類的頻率或減少多數(shù)類的頻率。 以下是解決失衡類問題的方法 -
重采樣 重新采樣是用于重建樣本數(shù)據(jù)集的一系列方法 - 包括訓(xùn)練集和測試集。 重新抽樣是為了提高模型的準(zhǔn)確性。 以下是一些重新抽樣技術(shù) -
Total observations = 5000
Fraudulent Observations = 50
Non-Fraudulent Observations = 4950
Event Rate = 1%
在這種情況下,我們將 10% 的樣本從非欺詐實例中取而代之,然后將它們與欺詐實例相結(jié)合 - 隨機(jī)抽樣后的非欺詐性觀察:4950 的 10% = 495 將他們與欺詐觀察結(jié)合后的總觀測值: 50 + 495 = 545
因此,現(xiàn)在,低采樣后新數(shù)據(jù)集的事件率為: 9%
這種技術(shù)的主要優(yōu)點是可以減少運(yùn)行時間并改善存儲。 但另一方面,它可以丟棄有用的信息,同時減少訓(xùn)練數(shù)據(jù)樣本的數(shù)量。
Total observations = 5000
Fraudulent Observations = 50
Non-Fraudulent Observations = 4950
Event Rate = 1%
如果復(fù)制 50 次欺詐性觀察 30 次,那么在復(fù)制少數(shù)類別觀察值后欺詐觀察值將為 1500。然后,在過采樣后新數(shù)據(jù)中的總觀察值將為:4950 + 1500 = 6450
。因此,新數(shù)據(jù)集的事件率是:1500/6450 = 23%
。
這種方法的主要優(yōu)點是不會丟失有用的信息。 但另一方面,由于它復(fù)制了少數(shù)族群的事件,因此它有更多的過度機(jī)會。
Copyright©2021 w3cschool編程獅|閩ICP備15016281號-3|閩公網(wǎng)安備35020302033924號
違法和不良信息舉報電話:173-0602-2364|舉報郵箱:jubao@eeedong.com
掃描二維碼
下載編程獅App
編程獅公眾號
聯(lián)系方式:
更多建議: