如何使用 CDF 和 PDF 統計數據進行分析
這可能是一個太籠統的問題,但我希望我能在這裡找到幫助。我正在我的大學開始一份 RA 工作,我的主題將與 Internet 流量分析有關。我對分析領域相當陌生,但我想在研究領域這是我必須做的很多事情。
我瀏覽了幾篇論文,其中很多我發現他們使用概率密度 (PDF)、CDF、CCDF 等來解釋他們獲得的結果。例如,用戶會話持續時間的 PDF、每天傳輸的字節數的 CDF 等。我參加了概率和統計課程,所以我了解它們是什麼,但我仍然對選擇這種表示的情況感到困惑。
所以,如果有人做這樣的圖表和分析(在任何其他一般主題或這個主題中)你能簡單地告訴我在什麼情況下我會使用這些表示中的一種或另一種
這部分是品味和慣例的問題,但理論、對目標的關注以及一點點認知神經科學 [參見參考資料] 可以提供一些指導。
因為 pdf 和 cdf 傳達相同的信息,所以它們之間的區別在於它們是如何做到的:pdf 表示具有面積的概率,而 cdf 表示具有(垂直)距離的概率。研究表明,人們比較距離比比較區域更快、更準確,而且他們系統地錯誤估計了區域。因此,如果您的目的是提供一個用於讀取概率的圖形工具,您應該傾向於使用 cdf。
Pdfs 和 cdfs 也表示概率密度:前者用高度表示,而後者用斜率表示密度。現在情況發生了逆轉,因為人們對坡度的估計不佳(這是角度的正切;我們傾向於看到角度本身)。密度擅長傳達有關模式、尾部重量和間隙的信息。在這種情況下以及需要強調概率分佈的局部細節的任何其他地方,都傾向於使用 pdf。
有時 pdf 或 cdf 會提供有用的理論信息。它的值(或更確切地說是其倒數)涉及分位數、極值和等級統計的標準誤差公式。在這種情況下顯示 pdf 而不是 cdf。當研究非參數設置中的多元相關性時,例如使用copulas,cdf 被證明更有用(可能是因為它是將連續概率定律轉換為統一概率定律的函數)。
pdf 或 cdf 可以與特定的統計測試密切相關。Kolmogorov-Smirnov 檢驗(和 KS 統計量)在cdf 周圍的垂直緩衝區方面具有簡單的圖形表示;就pdf(我知道的)而言,它沒有簡單的圖形表示。
ccdf(互補 cdf)用於關注倖存者和罕見事件的特殊應用程序。它的使用往往是按慣例確定的。
參考
WS 克利夫蘭 (1994)。圖形數據的元素。美國新澤西州薩米特:霍巴特出版社。國際標準書號 0-9634884-1-4
BD 凹痕 (1999)。製圖:專題地圖設計第 5 版。美國馬薩諸塞州波士頓:WCB McGraw-Hill。
AM MacEachren (2004)。地圖的工作原理。美國紐約州紐約:吉爾福德出版社。國際標準書號 1-57230-040-X