Nonparametric
密度估計在哪裡有用?
在經歷了一些稍微簡潔的數學之後,我想我對核密度估計有了一點直覺。但我也知道,就估計量的統計特性而言,估計三個以上變量的多元密度可能不是一個好主意。
那麼,在什麼樣的情況下,我應該使用非參數方法來估計二元密度?是否值得開始擔心對兩個以上的變量進行估計?
如果您可以指出一些有關多元密度估計應用的有用鏈接,那就太好了。
密度估計應用的一個典型案例是新奇檢測,也就是離群值檢測,其想法是您只有(或大部分)擁有一種類型的數據,但您對非常罕見的、定性的不同數據感興趣,這些數據顯著偏離那些常見的情況。
例如欺詐檢測、系統故障檢測等。在這些情況下,收集您感興趣的類型的數據非常困難和/或昂貴。這些罕見的情況,即發生概率低的情況。
大多數時候,您對準確估計確切分佈不感興趣,而是對相對機率(給定樣本成為實際異常值與不是異常值的可能性有多大)感興趣。
關於這個主題有幾十個教程和評論。這可能是一個很好的開始。
編輯:對於某些人來說,使用密度估計進行異常值檢測似乎很奇怪。讓我們首先就一件事達成一致:當有人將混合模型擬合到他的數據時,他實際上是在進行密度估計。混合模型表示概率分佈。
kNN 和 GMM 實際上是相關的:它們是估計這種概率密度的兩種方法。這是許多新穎性檢測方法的基本思想。例如,這個基於 kNN,另一個基於 Parzen 窗口(在本文開頭強調了這個想法),還有許多其他的。
在我看來(但這只是我個人的看法)大多數(如果不是全部)都在這個想法上工作。你會如何表達異常/罕見事件的想法?