Machine-Learning

哪個是第一位的 - 領域專業知識或實驗方法?

  • December 30, 2021

在我的組織中,我們正在著手一項 AI 計劃,我們嘗試識別業務用例並使用傳統的ML算法解決它們。

然而,我們的業務用戶說,在他們參與頭腦風暴、選擇和縮減特徵空間之前,他們要求數據人員進行詳細的掃描和實驗,並通過實驗…

示例:假設我的數據有 200 個特​​徵和 30K 行。我們的業務團隊表示,他們將無法指導要查看的最相關功能是什麼,因為他們認為這可能會使結果產生偏差。因此,他們希望數據人員通過實驗找到重要的特徵。

之後,拿這些特性去業務團隊檢查它的相關性。基本上,在他們對算法輸出的內容(對於對目標變量有影響的相關特徵)有信心之前,沒有領域專家的輸入。

這是它在現實世界的 AI 項目中通常的工作方式嗎?這是開始 AI 項目的更好方法嗎?有什麼我們應該注意的嗎?

由於基於意見,這可能會很快關閉,但這是您可能需要考慮的一點。

200 個功能很多,30k 行比聽起來要少。尋找相關特徵的“釣魚探險”很可能會過度擬合併選擇虛假特徵。危險在於,當您使用您“發現”相關的這些功能去找您的領域專家時,他們可能不會退縮。相反,開始講述這些功能如何真正有用的故事是人類非常普遍的反應,因為我們人類非常擅長解釋東西,甚至是簡單的噪音。

首先與您的領域專家交談並不能完全避免這個問題,但它可能會減少追逐野鵝的次數。

您可能對我對“如何知道您的機器學習問題毫無希望?”的回答感興趣。.

引用自:https://stats.stackexchange.com/questions/558754

comments powered by Disqus