Careers
在工作環境中進行正確的統計?
我不確定這個問題屬於哪裡:Cross Validated 或 The Workplace。但是我的問題與統計數據模糊不清。
這個問題(或者我猜是問題)是在我作為“數據科學實習生”工作期間出現的。我正在構建這個線性回歸模型並檢查殘差圖。我看到了明顯的異方差跡象。我記得異方差會扭曲許多測試統計數據,例如置信區間和 t 檢驗。所以我使用加權最小二乘,遵循我在大學學到的東西。我的經理看到了這一點,並建議我不要這樣做,因為“我讓事情變得複雜”,這對我來說根本不是一個很有說服力的理由。
另一個例子是“刪除一個解釋變量,因為它的 p 值不顯著”。要成為,從邏輯的角度來看,這個建議是沒有意義的。根據我所了解到的,p 值不顯著可能是由於不同的原因:機會、使用錯誤的模型、違反假設等。
另一個例子是,我使用 k 折交叉驗證來評估我的模型。根據結果,只是比. 但我們確實有一個較低的對於模型 1,原因與攔截有關。不過,我的主管似乎更喜歡模型 2,因為它具有更高的. 他的理由(例如是健壯的,或者交叉驗證是機器學習方法,而不是統計方法)似乎不足以說服我改變主意。
作為一個剛大學畢業的人,我很困惑。我非常熱衷於應用正確的統計數據來解決現實世界的問題,但我不知道以下哪項是正確的:
- 我自己學習的統計數據是錯誤的,所以我只是在犯錯誤。
- 公司的理論統計和構建模型之間存在巨大差異。儘管統計理論是正確的,但人們只是不遵循它。
- 經理沒有正確使用統計數據。
**2017 年 4 月 17 日更新:**我決定攻讀博士學位。在統計中。謝謝大家的回复。
簡而言之,你是對的,他是錯的。數據分析的悲劇在於很多人會做,但只有少數人能做好,部分原因是數據分析教育薄弱,部分原因是冷漠。對大多數作者名單上沒有統計學家或機器學習專家的已發表研究文章持批評態度,你會很快發現諸如解釋等基本錯誤- 值作為原假設為真的概率。
我認為,當遇到這種情況時,唯一要做的就是用一兩個例子仔細解釋錯誤的做法的錯誤之處。