Dataset

如何讓人們更好地保護數據?

  • October 21, 2010

我的工作場所擁有來自非常廣泛的學科的員工,因此我們以許多不同的形式生成數據。因此,每個團隊都開發了自己的數據存儲系統。有些使用 Access 或 SQL 數據庫;一些團隊(令我恐懼)幾乎完全依賴 Excel 電子表格。通常,數據格式會因項目而異。在某些情況下,稱它為“系統”太客氣了。

這帶來的問題是我必須編寫新代碼來清理每個項目的數據,這很昂貴;人們手動編輯電子表格使數據的可重複性和審計幾乎不可能;更糟糕的是,數據有可能丟失或不正確。

我有機會與公司的一位董事會成員討論這些問題,我需要弄清楚該告訴他什麼。我想我已經說服他我們有一個問題,並且把它做好將有助於更好的科學和省錢。問題是:我們應該瞄準什麼,我們如何到達那裡?

進一步來說:

我們應該如何存儲數據,以便我們跟踪從創建到在論文中發表的過程?(存儲在中央服務器上的數據庫?)

您如何標準化數據庫格式?

有沒有什麼好的資源來教育人們如何關心數據?(作為一般規則,職業衛生師和爆炸物工程師不是數據書呆子;因此首選非技術內容。)

值得考慮來自軟件世界的想法。特別是您可能會考慮設置:版本控制存儲庫和中央數據庫服務器。

版本控制可能會幫助您處理其他自由浮動文件,例如 Excel 和文本文件等。但這也可能包括與數據相關的文件,例如 R、SAS 等。這個想法是有一個系統可以跟踪更改您的文件使您可以知道何時發生了什麼,並在需要時回滾到過去的某個時間點。

如果您已經擁有 SQL 數據庫,那麼您能做的最好的事情就是設置一個中央服務器並聘請有能力的DBA。DBA 是負責確保和維護數據完整性的人員。部分工作描述涉及備份和調整等內容。但另一部分在這裡更相關——控制數據如何進入系統,確保滿足約束條件,制定訪問策略以防止對數據造成損害,設置視圖以公開自定義或簡化的數據格式等。簡而言之,圍繞數據處理實施方法論。即使您沒有聘請真正的 DBA(優秀的 DBA 很難招聘),擁有中央服務器仍然可以讓您開始考慮圍繞數據建立某種方法。

引用自:https://stats.stackexchange.com/questions/3857

comments powered by Disqus