機器學習:亟須糾正的4大類“偏差”
偏見是指個人對他人或其他群體所持有的缺乏充分事實依據(jù)的認識和態(tài)度,而機器學習中的偏差則是由缺乏足夠的特征和用于訓練模型的相關(guān)數(shù)據(jù)集不全面引起的。機器學習算法在訓練中嚴格按照其數(shù)學構(gòu)造和數(shù)據(jù)執(zhí)行任務,準確完成人類所輸入的內(nèi)容,因此,機器學習模型的偏差通常是由設計和收集相關(guān)數(shù)據(jù)的人的“偏見”造成的。
數(shù)據(jù)科學家在構(gòu)建算法并對機器學習進行訓練時,源自其本身某種程度的偏見會不可避免地蔓延到AI模型中,比較幸運的是,機器學習的偏差能夠被檢測和規(guī)避。不過,相關(guān)的研究人員仍需保持警惕。本文總結(jié)了需要了解和防范的4種不同類型的機器學習偏差以供參考。
1. 樣本偏差
樣本偏差是訓練數(shù)據(jù)的問題。當用于訓練模型的數(shù)據(jù)不能準確地表現(xiàn)模型將運行的環(huán)境時,就會產(chǎn)生樣本偏差。沒有任何一種算法可以與整個宇宙環(huán)境的數(shù)據(jù)交互,并在這個宇宙環(huán)境中被訓練,所以,選擇一個足夠大且具備代表性的宇宙子集來減輕樣本的偏差成為一門科學。盡管這門科學容易理解,但并非所有的數(shù)據(jù)科學家都接受過抽樣技術(shù)的訓練。
舉一個自動駕駛汽車的例子。當訓練一個在白天和夜晚都能使汽車自動駕駛的算法時,如果只選取了白天的數(shù)據(jù)進行訓練,這就等于在模型中引入了樣本偏差,用白天和夜晚的數(shù)據(jù)訓練算法才可以消除樣本偏差的來源。
2. 偏見偏差
偏見偏差是由受文化和刻板印象影響的數(shù)據(jù)所引發(fā)的結(jié)果??梢韵胂笠幌?,假設有一個計算機視覺算法正在接受訓練來理解工作中的人們,而該算法暴露于數(shù)以千計的訓練數(shù)據(jù)圖,其中許多圖像顯示的是正在寫代碼的男性和在廚房干活的女性,那么,該算法很可能會將編碼員等同于男性,將家務員等同于女性。這就是偏見偏差,因為很顯然女性也能夠?qū)懘a,而男人也可以做飯。
這里的問題是,被選取的訓練數(shù)據(jù)有意識地或無意識地反映了社會的刻板印象。要避免這樣的情況出現(xiàn),可以忽略性別和職業(yè)之間的統(tǒng)計關(guān)系,并使算法接觸均衡分布的示例。這顯然需要對刻板印象和偏見足夠敏感,而這則取決于人類對模型設定的表達行為的預期,僅靠數(shù)學無法克服這類偏差。負責標記和注釋訓練數(shù)據(jù)的工作人員必須接受相關(guān)的訓練,以避免他們將自己對社會的偏見或刻板印象引入到訓練數(shù)據(jù)中。
3. 計量偏差
如果用于觀察或測量的設備存在問題,這會使系統(tǒng)價值失真,這種偏差趨向于使數(shù)據(jù)朝某個特定的方向偏離。例如,用帶有彩色濾光片的相機拍攝的每幅訓練數(shù)據(jù)圖像都會出現(xiàn)顏色完全失真的情況,如此,用于訓練算法的圖像數(shù)據(jù)實際上也沒有系統(tǒng)地表現(xiàn)出算法將運行的環(huán)境。
這種偏差無法通過簡單地擴大數(shù)據(jù)收集來避免,有效的途徑是,選取多個測量裝置并讓接受過訓練的人員來比較這些裝置的輸出內(nèi)容。
4. 算法偏差
最后一種類型的偏差與數(shù)據(jù)無關(guān),屬于算法的數(shù)學性質(zhì)。一方面,具備高方差的模型可以很容易擬合到訓練數(shù)據(jù)中并能接納復雜性,然而,這種模型對雜訊(又稱噪音noise)十分敏感;另一方面,具備高偏差的模型則更加剛硬,對數(shù)據(jù)和噪聲的變化不那么敏感,但容易丟失復雜性。因此,數(shù)據(jù)科學家需要在這兩個屬性之間達到適當?shù)钠胶狻?/p>
數(shù)據(jù)科學家能通過了解這四種類型的AI偏差構(gòu)建出更好模型和選取更好的訓練數(shù)據(jù)。AI算法是由人類構(gòu)建的,訓練數(shù)據(jù)也是由人類收集、篩選、標記和注釋的,因此,數(shù)據(jù)科學家需要敏銳地識別出這些偏差,并使用一種貫徹和迭代的方式來不斷測試模型,并吸納訓練有素的研究員協(xié)助,最終規(guī)避這些機器學習的偏差。
關(guān)鍵詞: 機器學習
您可能也感興趣:
今日熱點
為您推薦
二季度五行業(yè)暫緩繳納養(yǎng)老保險費 含零售、民航等特困行業(yè)
深圳市重疾險參保人數(shù)逐年增加 七個醫(yī)保年度賠付14.4億元
一季度社?;鹦逻M14只個股 養(yǎng)老金賬戶新進9只個股
更多
- e絡盟發(fā)起‘Spartan-6 FPGA設計遷移七步進階’挑戰(zhàn)賽
- Pickering Electronics發(fā)布新款高壓、長壽命干簧繼電器 具...
- 應用軟件運行速度提升16倍:Lightbits與Ceph的存儲性能對比
- Soitec 公布 2022 財年第四季度財報,收入同比增長53%
- 貿(mào)澤電子開售Qorvo旗下UnitedSiC的UF3N170400B7S 1700V SiC JFET
- Targus推出兩款Thunderbolt 3擴展塢 支持高分辨率圖形傳輸
- 在一個小型嵌入式解決方案上為流式傳輸 4x 應用制作原型的步驟
- Digi-Key得捷電子舉辦物聯(lián)網(wǎng) (IoT) 創(chuàng)新設計大賽
排行
最近更新
- 機器學習:亟須糾正的4大類“偏差”
- 碳化硅(SiC)功率器件或在電動汽車領(lǐng)域一決勝負
- 英特爾楊敘:全新超極本是PC與平板二合一
- 脈沖式電子圍欄工作原理及優(yōu)點分析
- 發(fā)動機測試的便攜式振動分析儀
- 鉅浪混動壓軸登場,廣汽傳祺的“雙保險”
- 新蛋全球CEO鄒果慶獲評 2022年中國數(shù)字生態(tài)領(lǐng)袖
- 四月收官整體呈陰 五月結(jié)束探底翻紅可期丨微策略
- 廣東省出臺促進消費措施,廣汽傳祺率先響應,補貼至高10000元!
- 老字號、供應鏈、新消費品牌集中布局預制菜 疫情打開線上增量?
- 打通鄉(xiāng)村振興“毛細血管”——農(nóng)發(fā)行合江縣支行投放1.07億元...
- 興業(yè)銀行德陽分行筑牢防范電信網(wǎng)絡詐騙“防火墻”
- 珠海制造業(yè)貸款余額比年初增35%
- 如何避免核酸檢測交叉感染
- 九安醫(yī)療擬使用不超27億元開展證券投資與衍生品交易
- 二氧化碳“變”葡萄糖,深圳先進院研究成果登《自然》子刊
- 九安醫(yī)療:一季度凈利潤143.12億元 同比增長37527.35%
- 成立19年兩度遇疫情 楊麗萍含淚宣布《云南映象》演出團隊暫時解散
- 中原區(qū)衛(wèi)健委積極開展醫(yī)療機構(gòu)放射性職業(yè)病危害建設項目竣工...
- 陳岱鎮(zhèn)開展職業(yè)病防治宣傳周活動
- 市疾控中心:開展職業(yè)健康行動 助力企業(yè)高質(zhì)量發(fā)展
- 孝昌縣總工會開展《職業(yè)病防治法》宣傳周活動
- 宜都市衛(wèi)健監(jiān)督執(zhí)法大隊開展《職業(yè)病防治法》宣傳周活動
- 嘉實致遠3個月定期純債債券(013544)2022年第二次收益分配
- Q1綠債產(chǎn)品承銷總額同比增57% 市場稱綠債投資將迎廣闊發(fā)展空間
- 中南建設:“17 中南 01”將于5月11提前兌付及摘牌
- 中證協(xié)修訂發(fā)布《公司債券承銷業(yè)務規(guī)范》 規(guī)范承攬行為
- 信用債追蹤 | 20龍控01上漲50% 15世茂02下跌3.21%
- 泛??毓伞?0泛控03”公司債回售金額7億 將于4月29日摘牌
- 古井貢酒2021年營收132.7億增28.93%,年份原漿毛利率增1.7個百分點