什麼是數據科學家?
最近從統計學博士課程畢業後,我在過去幾個月開始尋找統計學領域的工作。我考慮過的幾乎每家公司都有一個職位名稱為“數據科學家”的職位。事實上,感覺看到Statistical Scientist或Statistician職稱的日子已經一去不復返了。作為一名數據科學家真的取代了作為一名統計學家的身份,或者我想知道的頭銜是同義詞嗎?
好吧,大多數工作資格都感覺像是統計學家頭銜下的資格。大多數工作都希望獲得統計學博士學位(),最需要理解實驗設計()、線性回歸和方差分析 (), 廣義線性模型 (),以及其他多元方法,例如 PCA (),以及統計計算環境中的知識,例如 R 或 SAS ()。聽起來數據科學家實際上只是統計學家的代號。
然而,我參加的每一次面試都是從一個問題開始的:“那麼你熟悉機器學習算法嗎?” 很多時候,我發現自己不得不嘗試回答有關大數據、高性能計算以及神經網絡、CART、支持向量機、增強樹、無監督模型等主題的問題。當然,我說服自己這些都是本質上是統計問題,但在每次採訪結束時,我都情不自禁地感覺自己對數據科學家的了解越來越少。
我是統計學家,但我是數據科學家嗎?我致力於科學問題,所以我必須成為一名科學家!我也處理數據,所以我必須是一名數據科學家!根據維基百科,大多數學者都會同意我的觀點(https://en.wikipedia.org/wiki/Data_science等)
儘管“數據科學”一詞在商業環境中的使用呈爆炸式增長,但許多學者和記者認為數據科學和統計學之間沒有區別。
但是,如果我要為數據科學家職位進行所有這些工作面試,為什麼感覺他們從來沒有問過我統計問題?
在我上次採訪之後,我確實希望任何優秀的科學家都能做到,我尋找數據來解決這個問題(嘿,我畢竟是一名數據科學家)。然而,經過無數次谷歌搜索之後,我終於找到了我開始感覺好像我又一次在為數據科學家的定義而苦苦掙扎的地方。我不知道數據科學家到底是什麼,因為它有很多定義,(http://blog.udacity.com/2014/11/data-science-job-skills.html,http://www -01.ibm.com/software/data/infosphere/data-scientist/)但似乎每個人都在告訴我我想成為其中之一:
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/
- http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL
- 等等……名單還在繼續。
歸根結底,我發現“什麼是數據科學家”是一個很難回答的問題。哎呀,他們在 Amstat 花了整整兩個月的時間來試圖回答這個問題:
- http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/
- http://magazine.amstat.org/blog/2015/11/01/statnews2015/
好吧,就目前而言,我必須成為一名性感的統計學家才能成為一名數據科學家,但希望經過交叉驗證的社區能夠提供一些啟示並幫助我理解成為一名數據科學家意味著什麼。統計學家不都是數據科學家嗎?
(編輯/更新)
我想這可能會增加談話的趣味性。我剛收到一封來自美國統計協會的電子郵件,內容是關於在微軟尋找數據科學家的工作。這是鏈接:數據科學家職位。我認為這很有趣,因為職位的作用涉及我們一直在談論的許多特定特徵,但我認為其中很多都需要非常嚴格的統計背景,並且與下面發布的許多答案相矛盾。如果鏈接失效,以下是微軟在數據科學家身上尋求的品質:
核心工作要求和技能:
使用分析的業務領域體驗
- 必須具有跨多個相關業務領域的經驗,能夠利用批判性思維技能來概念化複雜的業務問題及其解決方案,並在大規模現實世界業務數據集中使用高級分析
- 候選人必須能夠獨立運行分析項目並幫助我們的內部客戶了解調查結果並將其轉化為行動以使他們的業務受益。
預測建模
- 跨行業的預測建模經驗
- 與客戶進行業務問題定義和概念建模,以引出重要關係並定義系統範圍
統計學/計量經濟學
- 連續和分類數據的探索性數據分析
- 根據需要對企業和消費者行為、生產成本、要素需求、離散選擇和其他技術關係的結構模型方程進行規範和估計
- 用於分析連續和分類數據的高級統計技術
- 預測模型的時間序列分析與實現
- 處理多變量問題的知識和經驗
- 評估模型正確性和進行診斷測試的能力
- 解釋統計數據或經濟模型的能力
- 在構建離散事件仿真和動態仿真模型方面的知識和經驗
數據管理
- 熟悉使用 T-SQL 和分析進行數據轉換以及將探索性數據分析技術應用於非常大的真實世界數據集
- 注意數據完整性,包括數據冗餘、數據準確性、異常或極值、數據交互和缺失值。
溝通與協作技巧
- 獨立工作並能夠與虛擬項目團隊合作,研究創新解決方案以解決具有挑戰性的業務問題
- 與合作夥伴合作,運用批判性思維技能,並推動端到端的分析項目
- 出色的口頭和書面溝通技巧
- 分析結果的可視化形式可供不同的利益相關者使用
軟件包
- 高級統計/計量經濟學軟件包:Python、R、JMP、SAS、Eviews、SAS Enterprise Miner
- 數據探索、可視化和管理:T-SQL、Excel、PowerBI 和等效工具
資格:
- 要求至少5年以上相關經驗
- 定量領域的研究生學位是可取的。
有一些幽默的定義尚未給出:
我喜歡這個,因為它在炒作多於實質的角度上表現得很好。
同樣,這一切都是西海岸風味的即興演奏。
就個人而言,我發現討論(一般來說,這裡)有些無聊和重複。當我在思考我想要做什麼時——也許是四分之一世紀或更長時間——我的目標是量化分析師。這仍然是我所做的(並且喜歡!),它主要重疊並涵蓋了各種答案中給出的內容。
(注意:引用二有一個較舊的來源,但我現在找不到。)