Normalization
歸一化:除以平均值
我正在閱讀各種論文,但我不明白所使用的三種規範化的含義。假設我有電話號碼在地區有時. 我看到它通過以下方式標準化:
- Z分數:. 這以某種方式採用了調用時間序列的“形狀”。
- 除以平均值: 參考。這是我不知道的^^
- 減去平均值:.
2和3有什麼區別?我為什麼要除以平均值,它的“含義”是什麼?
減去均值和除以均值的差值就是減法和除法的差值;大概你並不是真的在問數學。這裡沒有什麼神秘之處,因為它只不過是一個統計類似物
- 比爾比貝蒂高 5 厘米(減法)
- 比爾的體重是他兒子鮑勃的兩倍(師)
不同之處在於均值用作參考水平,而不是另一個值。我們應該強調的是
- (賬單 $ - $ 貝蒂)或(價值 $ - $ mean) 保留測量單位
儘管
- (Bill / Bob) 或 (value / mean) 與計量單位無關。
並且總是可以減去平均值,而除以平均值通常只有在保證平均值為正的情況下才有意義(或更廣泛地說,沒有兩個值具有不同的符號並且平均值不能為零)。
再進一步(價值 $ - $ mean) / SD 是按標準差縮放的,因此再次產生獨立於測量單位的測量,也獨立於變量的可變性。只要 SD 是積極的,它總是有可能的,它不會咬人。(如果 SD 為零,那麼每個值都是相同的,並且在沒有任何這些設備的情況下很容易進行詳細總結。)這種重新縮放通常稱為標準化,儘管該術語也確實是超載的。
請注意,均值的減法(沒有或沒有除以 SD)只是單位的變化,所以分佈圖和時間序列圖(你問的)在前後看起來是一樣的;數字軸標籤會有所不同,但形狀會保留。
選擇通常是實質性的而不是嚴格統計的,因此問題在於哪種調整是一種有用的簡化,或者實際上是否如此。
我要補充一點,您的問題反過來指出了這個論壇上經常提出的觀點,即除非提供精確的定義,否則詢問**標準化是徒勞的;**實際上,這比您提到的含義更多。
OP 的時空數據上下文在這裡無關緊要。無論您是否擁有時間、空間或時空數據,這些原則都適用。