Machine-Learning
哪個是第一位的 - 領域專業知識或實驗方法?
在我的組織中,我們正在著手一項 AI 計劃,我們嘗試識別業務用例並使用傳統的ML算法解決它們。
然而,我們的業務用戶說,在他們參與頭腦風暴、選擇和縮減特徵空間之前,他們要求數據人員進行詳細的掃描和實驗,並通過實驗…
示例:假設我的數據有 200 個特徵和 30K 行。我們的業務團隊表示,他們將無法指導要查看的最相關功能是什麼,因為他們認為這可能會使結果產生偏差。因此,他們希望數據人員通過實驗找到重要的特徵。
之後,拿這些特性去業務團隊檢查它的相關性。基本上,在他們對算法輸出的內容(對於對目標變量有影響的相關特徵)有信心之前,沒有領域專家的輸入。
這是它在現實世界的 AI 項目中通常的工作方式嗎?這是開始 AI 項目的更好方法嗎?有什麼我們應該注意的嗎?
由於基於意見,這可能會很快關閉,但這是您可能需要考慮的一點。
200 個功能很多,30k 行比聽起來要少。尋找相關特徵的“釣魚探險”很可能會過度擬合併選擇虛假特徵。危險在於,當您使用您“發現”相關的這些功能去找您的領域專家時,他們可能不會退縮。相反,開始講述這些功能如何真正有用的故事是人類非常普遍的反應,因為我們人類非常擅長解釋東西,甚至是簡單的噪音。
首先與您的領域專家交談並不能完全避免這個問題,但它可能會減少追逐野鵝的次數。