密度估計在哪裡有用？

January 17, 2014

在經歷了一些稍微簡潔的數學之後，我想我對核密度估計有了一點直覺。但我也知道，就估計量的統計特性而言，估計三個以上變量的多元密度可能不是一個好主意。

那麼，在什麼樣的情況下，我應該使用非參數方法來估計二元密度？是否值得開始擔心對兩個以上的變量進行估計？

如果您可以指出一些有關多元密度估計應用的有用鏈接，那就太好了。

密度估計應用的一個典型案例是新奇檢測，也就是離群值檢測，其想法是您只有（或大部分）擁有一種類型的數據，但您對非常罕見的、定性的不同數據感興趣，這些數據顯著偏離那些常見的情況。

例如欺詐檢測、系統故障檢測等。在這些情況下，收集您感興趣的類型的數據非常困難和/或昂貴。這些罕見的情況，即發生概率低的情況。

大多數時候，您對準確估計確切分佈不感興趣，而是對相對機率（給定樣本成為實際異常值與不是異常值的可能性有多大）感興趣。

關於這個主題有幾十個教程和評論。這可能是一個很好的開始。

編輯：對於某些人來說，使用密度估計進行異常值檢測似乎很奇怪。讓我們首先就一件事達成一致：當有人將混合模型擬合到他的數據時，他實際上是在進行密度估計。混合模型表示概率分佈。

kNN 和 GMM 實際上是相關的：它們是估計這種概率密度的兩種方法。這是許多新穎性檢測方法的基本思想。例如，這個基於 kNN，另一個基於 Parzen 窗口（在本文開頭強調了這個想法），還有許多其他的。

在我看來（但這只是我個人的看法）大多數（如果不是全部）都在這個想法上工作。你會如何表達異常/罕見事件的想法？

引用自：https://stats.stackexchange.com/questions/82583

comments powered by Disqus

密度估計在哪裡有用？

相關問答

所有對數似然函數都可二次微分嗎？

為什麼密度函數有時用條件表示法編寫？

如果我知道我估計的密度關於 0 對稱，如何在我的核密度估計器中施加這個限制？

Wolfram Mathworld 是否會錯誤地描述具有概率密度函數的離散概率分佈？

符號：期望下面的波浪號是什麼意思？[複製]

鑑於單個樣本的概率為 0，為什麼 MLE 有意義？