Machine-Learning

哪個是第一位的 - 領域專業知識或實驗方法？

December 30, 2021

在我的組織中，我們正在著手一項 AI 計劃，我們嘗試識別業務用例並使用傳統的ML算法解決它們。

然而，我們的業務用戶說，在他們參與頭腦風暴、選擇和縮減特徵空間之前，他們要求數據人員進行詳細的掃描和實驗，並通過實驗…

示例：假設我的數據有 200 個特徵和 30K 行。我們的業務團隊表示，他們將無法指導要查看的最相關功能是什麼，因為他們認為這可能會使結果產生偏差。因此，他們希望數據人員通過實驗找到重要的特徵。

之後，拿這些特性去業務團隊檢查它的相關性。基本上，在他們對算法輸出的內容（對於對目標變量有影響的相關特徵）有信心之前，沒有領域專家的輸入。

這是它在現實世界的 AI 項目中通常的工作方式嗎？這是開始 AI 項目的更好方法嗎？有什麼我們應該注意的嗎？

由於基於意見，這可能會很快關閉，但這是您可能需要考慮的一點。

200 個功能很多，30k 行比聽起來要少。尋找相關特徵的“釣魚探險”很可能會過度擬合併選擇虛假特徵。危險在於，當您使用您“發現”相關的這些功能去找您的領域專家時，他們可能不會退縮。相反，開始講述這些功能如何真正有用的故事是人類非常普遍的反應，因為我們人類非常擅長解釋東西，甚至是簡單的噪音。

首先與您的領域專家交談並不能完全避免這個問題，但它可能會減少追逐野鵝的次數。

您可能對我對“如何知道您的機器學習問題毫無希望？”的回答感興趣。.

引用自：https://stats.stackexchange.com/questions/558754

comments powered by Disqus

相關問答

Machine-Learning

一個神經網絡可以只用111隱藏層解決了什麼問題？

February 8, 2022

Hypothesis-Testing

這是p-hacking嗎？

February 3, 2022

Machine-Learning

深度學習的模擬退火：為什麼無梯度統計學習不是主流？

January 5, 2022

Hypothesis-Testing

我可以對非常小的樣本使用 Mann-Whitney U 檢驗嗎？

December 24, 2021

Neural-Networks

神經網絡可以處理負輸入和零輸入嗎？

December 22, 2021

Hypothesis-Testing

統計測試“穩健”意味著什麼？

December 3, 2021