機器學習:亟須糾正的4大類“偏差”
偏見是指個人對他人或其他群體所持有的缺乏充分事實依據(jù)的認識和態(tài)度,而機器學習中的偏差則是由缺乏足夠的特征和用于訓練模型的相關(guān)數(shù)據(jù)集不全面引起的。機器學習算法在訓練中嚴格按照其數(shù)學構(gòu)造和數(shù)據(jù)執(zhí)行任務,準確完成人類所輸入的內(nèi)容,因此,機器學習模型的偏差通常是由設計和收集相關(guān)數(shù)據(jù)的人的“偏見”造成的。
數(shù)據(jù)科學家在構(gòu)建算法并對機器學習進行訓練時,源自其本身某種程度的偏見會不可避免地蔓延到AI模型中,比較幸運的是,機器學習的偏差能夠被檢測和規(guī)避。不過,相關(guān)的研究人員仍需保持警惕。本文總結(jié)了需要了解和防范的4種不同類型的機器學習偏差以供參考。
1. 樣本偏差
樣本偏差是訓練數(shù)據(jù)的問題。當用于訓練模型的數(shù)據(jù)不能準確地表現(xiàn)模型將運行的環(huán)境時,就會產(chǎn)生樣本偏差。沒有任何一種算法可以與整個宇宙環(huán)境的數(shù)據(jù)交互,并在這個宇宙環(huán)境中被訓練,所以,選擇一個足夠大且具備代表性的宇宙子集來減輕樣本的偏差成為一門科學。盡管這門科學容易理解,但并非所有的數(shù)據(jù)科學家都接受過抽樣技術(shù)的訓練。
舉一個自動駕駛汽車的例子。當訓練一個在白天和夜晚都能使汽車自動駕駛的算法時,如果只選取了白天的數(shù)據(jù)進行訓練,這就等于在模型中引入了樣本偏差,用白天和夜晚的數(shù)據(jù)訓練算法才可以消除樣本偏差的來源。
2. 偏見偏差
偏見偏差是由受文化和刻板印象影響的數(shù)據(jù)所引發(fā)的結(jié)果??梢韵胂笠幌?,假設有一個計算機視覺算法正在接受訓練來理解工作中的人們,而該算法暴露于數(shù)以千計的訓練數(shù)據(jù)圖,其中許多圖像顯示的是正在寫代碼的男性和在廚房干活的女性,那么,該算法很可能會將編碼員等同于男性,將家務員等同于女性。這就是偏見偏差,因為很顯然女性也能夠?qū)懘a,而男人也可以做飯。
這里的問題是,被選取的訓練數(shù)據(jù)有意識地或無意識地反映了社會的刻板印象。要避免這樣的情況出現(xiàn),可以忽略性別和職業(yè)之間的統(tǒng)計關(guān)系,并使算法接觸均衡分布的示例。這顯然需要對刻板印象和偏見足夠敏感,而這則取決于人類對模型設定的表達行為的預期,僅靠數(shù)學無法克服這類偏差。負責標記和注釋訓練數(shù)據(jù)的工作人員必須接受相關(guān)的訓練,以避免他們將自己對社會的偏見或刻板印象引入到訓練數(shù)據(jù)中。
3. 計量偏差
如果用于觀察或測量的設備存在問題,這會使系統(tǒng)價值失真,這種偏差趨向于使數(shù)據(jù)朝某個特定的方向偏離。例如,用帶有彩色濾光片的相機拍攝的每幅訓練數(shù)據(jù)圖像都會出現(xiàn)顏色完全失真的情況,如此,用于訓練算法的圖像數(shù)據(jù)實際上也沒有系統(tǒng)地表現(xiàn)出算法將運行的環(huán)境。
這種偏差無法通過簡單地擴大數(shù)據(jù)收集來避免,有效的途徑是,選取多個測量裝置并讓接受過訓練的人員來比較這些裝置的輸出內(nèi)容。
4. 算法偏差
最后一種類型的偏差與數(shù)據(jù)無關(guān),屬于算法的數(shù)學性質(zhì)。一方面,具備高方差的模型可以很容易擬合到訓練數(shù)據(jù)中并能接納復雜性,然而,這種模型對雜訊(又稱噪音noise)十分敏感;另一方面,具備高偏差的模型則更加剛硬,對數(shù)據(jù)和噪聲的變化不那么敏感,但容易丟失復雜性。因此,數(shù)據(jù)科學家需要在這兩個屬性之間達到適當?shù)钠胶狻?/p>
數(shù)據(jù)科學家能通過了解這四種類型的AI偏差構(gòu)建出更好模型和選取更好的訓練數(shù)據(jù)。AI算法是由人類構(gòu)建的,訓練數(shù)據(jù)也是由人類收集、篩選、標記和注釋的,因此,數(shù)據(jù)科學家需要敏銳地識別出這些偏差,并使用一種貫徹和迭代的方式來不斷測試模型,并吸納訓練有素的研究員協(xié)助,最終規(guī)避這些機器學習的偏差。
關(guān)鍵詞: 機器學習
您可能也感興趣:
今日熱點
為您推薦
金融標準化“十四五”發(fā)展規(guī)劃發(fā)布 指明保險業(yè)發(fā)展方向
“隔離險”大火 銀保監(jiān)會強調(diào)保險公司不得無理拒賠
遼寧將全面實施全民參保計劃 發(fā)展多層次、多支柱養(yǎng)老保險體系
更多
- 我國啟動商業(yè)秘密保護創(chuàng)新試點工作 重點做好“兩穩(wěn)兩進”
- 去年重慶高新區(qū)全面實施“項目建設年” 加速集聚高端創(chuàng)新資源
- 廣東各類創(chuàng)新主體蓬勃發(fā)展 不斷強化戰(zhàn)略科技力量布局
- 臺州科技興市步伐更有力 創(chuàng)新鏈產(chǎn)業(yè)鏈深度融合
- 長三角區(qū)域協(xié)同創(chuàng)新指數(shù)年均增速達9.54% 成果共用指標增幅最大
- 大興機場臨空區(qū)設立國際創(chuàng)新中心 助力外資企業(yè)順利“走進來”
- 湖南發(fā)布“創(chuàng)新十條” 幫助企業(yè)紓困增效、激發(fā)創(chuàng)新活力
- 科技部和浙江發(fā)布《創(chuàng)新行動方案》 構(gòu)建高標準技術(shù)要素市場...
更多
- 朔州持續(xù)優(yōu)化投資結(jié)構(gòu) 去年固定資產(chǎn)投資同比增長13.7%
- 1月全國實際使用外資金額1022.8億元 服務業(yè)受外資青睞
- 河南“十四五”將完成農(nóng)村公路投資500億元 推進“四好農(nóng)村路...
- 陜西去年新設外商投資企業(yè)312家 實際利用外資102.46億美元
- 一季度遼寧省預計開復工項目5049個 投資增速或達到10%
- 1月武漢東湖高新區(qū)20多家企業(yè)獲股權(quán)融資 提升創(chuàng)投行業(yè)發(fā)展質(zhì)量
- 海南自貿(mào)港金融政策成效凸顯 去年外國來華投資流入48.4億美元
- 去年湖北共實施6342個工業(yè)技改項目 技改投資增長37.9%
排行
最近更新
- 機器學習:亟須糾正的4大類“偏差”
- 碳化硅(SiC)功率器件或在電動汽車領(lǐng)域一決勝負
- 英特爾楊敘:全新超極本是PC與平板二合一
- 4個元宵等同于1碗米飯?這些人群要慎吃元宵!
- 青島萊西55個重大項目集中開工 堅決實現(xiàn)一季度“開門紅”
- 甘肅定西舉行“春風行動”大型招聘活動 提供就業(yè)崗位27214個
- 兆龍移民:加拿大2022-2024移民計劃公布,三年133萬創(chuàng)新高
- 朔州持續(xù)優(yōu)化投資結(jié)構(gòu) 去年固定資產(chǎn)投資同比增長13.7%
- 深圳鹽田區(qū)堅持“產(chǎn)業(yè)興鹽” 打造千億級海洋經(jīng)濟產(chǎn)業(yè)集群
- 國家發(fā)改委價格監(jiān)測中心網(wǎng)站上線“穩(wěn)健醫(yī)療市場行情”
- 深圳地鐵建設跑出“加速度” 在建工地已有122個工點復工
- 小米想要高端化,定位專家顧均輝:難!
- “全民冰雪熱”正在到來 多家財險公司開發(fā)設計冰雪相關(guān)保險產(chǎn)品
- 去年日本國內(nèi)生產(chǎn)總值同比增長1.7% 商業(yè)活動逐漸復蘇
- 穆迪將融創(chuàng)高級無抵押評級調(diào)至“B2”
- 基于自身商業(yè)原因 穆迪撤銷四川交投“Baa1”發(fā)行人評級
- 小麥是中藥隊伍中不可缺少的一員,藥用功效有哪些?
- 長時間冷凍的視頻
- 長時間冷凍的食物存在變質(zhì)風險 避免反復冷凍、反復加熱
- 孩子居家上網(wǎng)課須注意用眼衛(wèi)生 控制電子產(chǎn)品的使用時間和頻率
- 牛奶蛋白質(zhì)的品質(zhì)極好,選購牛奶時需要關(guān)注些什么?
- 河北安國不斷推出中醫(yī)藥新應用 打造中藥材良種繁育基地
- 廊坊一季度重點項目集中開工 產(chǎn)業(yè)項目占167項
- 1月全國實際使用外資金額1022.8億元 服務業(yè)受外資青睞
- 農(nóng)業(yè)機械股票是什么?農(nóng)業(yè)機械相關(guān)龍頭股一覽
- 中鋼天源股票屬于什么概念股?哪些概念板塊包含中鋼天源?
- 王者榮耀概念股有哪些?王者榮耀概念龍頭股一覽
- 造船行業(yè)股票有哪些?造船概念股一覽
- 轉(zhuǎn)基因上市公司有哪些,轉(zhuǎn)基因上市公司名單
- 2021年鉍板塊上市公司有哪些?
今日要聞
- 機器學習:亟須糾正的4大類“偏差”
- 碳化硅(SiC)功率器件或在電動汽車領(lǐng)域一決勝負
- 英特爾楊敘:全新超極本是PC與平板二合一
- 朔州持續(xù)優(yōu)化投資結(jié)構(gòu) 去年固定資產(chǎn)投資同比增長13.7%
- 深圳鹽田區(qū)堅持“產(chǎn)業(yè)興鹽” 打造千億級海洋經(jīng)濟產(chǎn)業(yè)集群
- 傳化支付反詐宣傳丨年關(guān)將至,警惕各類詐騙手段
- 穆迪將融創(chuàng)高級無抵押評級調(diào)至“B2”
- 基于自身商業(yè)原因 穆迪撤銷四川交投“Baa1”發(fā)行人評級
- 1月全國實際使用外資金額1022.8億元 服務業(yè)受外資青睞
- 脈沖式電子圍欄工作原理及優(yōu)點分析