Predictive-Models

在模型構建中避免社會歧視

  • January 7, 2019

我的問題來自亞馬遜最近的招聘醜聞,他們被指控在招聘過程中歧視女性。更多信息在這裡

亞馬遜公司的機器學習專家發現了一個大問題:他們的新招聘引擎不喜歡女性。

該團隊自 2014 年以來一直在構建計算機程序,以審查求職者的簡歷,旨在機械化尋找頂尖人才……

該公司的實驗性招聘工具使用人工智能為求職者打分從 1 星到 5 星不等…

… 但是到 2015 年,該公司意識到其新系統並沒有以性別中立的方式對軟件開發人員職位和其他技術職位的候選人進行評級。

這是因為亞馬遜的計算機模型經過培訓,可以通過觀察提交給公司的 10 年簡歷中的模式來審查申請人。大多數來自男性,這反映了男性在整個科技行業的主導地位。(有關科技領域性別細分的圖表,請參見:此處)實際上,亞馬遜的系統告訴自己,男性候選人更受歡迎。它會懲罰包含“女性”一詞的簡歷,例如“女性國際象棋俱樂部隊長”。據知情人士透露,它還下調了兩所女子學院的畢業生等級。他們沒有具體說明學校的名稱。

亞馬遜對這些程序進行了編輯,使它們對這些特定條款保持中立。但這並不能保證機器不會設計出其他可能被證明具有歧視性的候選人分類方式,知情人士說。

這家西雅圖公司最終在去年初解散了該團隊,因為高管們對該項目失去了希望

……公司的實驗……提供了機器學習局限性的案例研究。

……計算機科學家,如在卡內基梅隆大學教授機器學習的 Nihar Shah 表示,還有很多工作要做。

“如何確保算法是公平的,如何確保算法是真正可解釋和可解釋的——這還很遙遠,”他說。

MASCULINE LANGUAGE

[亞馬遜] 在亞馬遜的愛丁堡工程中心成立了一個團隊,該團隊發展到大約十幾個人。知情人士說,他們的目標是開發能夠快速爬網並發現值得招聘的候選人的人工智能。

該小組創建了 500 個計算機模型,專注於特定的工作職能和位置。他們教每個人識別過去候選人簡歷中出現的大約 50,000 個術語。算法學會了對 IT 應聘者的共同技能(例如編寫各種計算機代碼的能力)賦予的重要性不高……

相反,該技術偏愛使用男性工程師簡歷中更常見的動詞來描述自己的應聘者,例如“處決”和“被捕”,一位人士說。

假設我想建立一個統計模型來預測個人數據的一些輸出,比如幫助招募新人的五星級排名。假設我也想避免性別歧視,作為一種道德約束。給定除了性別之外的兩個嚴格相等的配置文件,模型的輸出應該是相同的。

  1. 我應該使用性別(或與之相關的任何數據)作為輸入並嘗試糾正其影響,還是避免使用這些數據?
  2. 如何檢查是否存在性別歧視?
  3. 對於具有統計學差異但出於道德原因我不想這樣做的數據,我該如何糾正我的模型?

本文很好地概述瞭如何克服性別偏見,尤其是在基於語言的模型中:男人對計算機程序員就像女人對家庭主婦?去偏詞嵌入 - Bolukbasi 等。人。. 可以在這裡找到一個不錯的博客摘要:

https://developers.googleblog.com/2018/04/text-embedding-models-contain-bias.html

您可以在此處找到更大的資源彙編:

https://developers.google.com/machine-learning/fairness-overview/

您會在上述鏈接中找到一系列減輕性別偏見的技術。一般來說,它們分為三類:

1)對數據進行欠採樣/過採樣。這是為了對高質量的女性簡歷進行過度抽樣,而對男性簡歷進行抽樣。

2)減去“性別子空間”。如果您的模型存在性別偏見,那麼您可以通過使用簡歷嵌入來直接預測性別來證明這一點。在構建了這樣一個輔助模型之後(即使只是對屬於任一性別的常用術語進行抽樣,然後應用 PCA),您實際上可以從模型中減去這個維度,將簡歷標準化為性別中立。這是 Bolukbasi 論文中使用的主要技術。

3)對抗學習。在這種情況下,您嘗試通過生成更多版本的高質量女性簡歷來生成額外的數據,否則這些簡歷與真實簡歷無法區分。

引用自:https://stats.stackexchange.com/questions/386075

comments powered by Disqus