Dataset
用於數據挖掘的水印數據
我在一個分析醫療數據的工作組中。不幸的是,如果測量數據到達競爭對手或被操縱,就會有很多不信任。
所以我想知道是否有一種方法可以在測量數據離開房子之前以一種不會影響某些選定統計數據的方式“加水印”測量數據。搜索它發現大多數用於標記音頻或視頻的商業解決方案 - 這不適用於我們。
標準方法是將其放在最低有效位或數字中;例如,您可以計算以 10 為模的數字總和並將其附加到數字的末尾,如果該總和大於 5,則將最後一位數字減一,以使所有統計信息幾乎完好無損,如下所示:
294.090842 -> sum of digits is 38, thus mark is 8 and we add it like this: 294.0908418 294.121120 -> sum of digits is 22, thus mark is 2 and we add it like this: 294.1211202 ...
這種痕跡很難注意到(除非您以正確的方式存儲數據,即精確編碼為有效數字的數量),即使在數據的子集中也可見,而且幾乎不可能隨機出現。
個性化標記可以通過使用用戶特定的鹽和一些更好的校驗和算法來完成。
但是,請注意,此標記僅在原始數據中可見,您的競爭對手也可以通過添加小噪聲或舍入數字同樣輕鬆地將其刪除。