Large-Data
估計數據集的維度
應用統計學的一位同事給我發了這個:
“我想知道你是否知道有什麼方法可以找出函數域的真實維度。例如,圓是二維空間中的一維函數。如果我不會畫,有沒有我可以計算的統計數據告訴我它是二維空間中的一維對象?我必須在高維情況下這樣做,所以不能畫圖。任何幫助將不勝感激。
這裡的維度概念顯然是不明確的。我的意思是,我可以在高維空間中的任何有限點集合中運行一條曲線,並說我的數據是一維的。但是,根據配置,可能有一種更簡單或更有效的方式將數據描述為更高維度的集合。
統計文獻中肯定已經考慮過這些問題,但我並不熟悉。任何指示或建議?謝謝!
看
Levina, E. 和 Bickel, P. (2004) “內在維度的最大似然估計”。神經信息處理系統的進展 17
http://books.nips.cc/papers/files/nips17/NIPS2004_0094.pdf
他們的想法是,如果數據是從嵌入和,然後是局部小半徑球中的數據點數行為大致類似於泊松過程。該過程的速率與球的體積有關,而球的體積又與內在尺寸有關。