Correlation

如何找到不同類型事件之間的關係(由它們的 2D 位置定義)?

  • March 13, 2011

我有一個在同一時間段內發生的事件的數據集。每個事件都有一個類型(有幾種不同的類型,少於十個)和一個位置,表示為 2D 點。

我想檢查事件類型之間或類型和位置之間是否存在任何關聯。例如,也許 A 類型的事件通常不會在 B 類型的事件發生的地方發生。或者,也許在某些地區,主要是 C 類事件。

我可以使用什麼樣的工具來執行此操作?作為統計分析的新手,我的第一個想法是在這個數據集上使用某種 PCA(主成分分析)來查看每種類型的事件是否有自己的成分,或者是否有一些共享相同(即相關)?

我不得不提到我的數據集大約是 500'000 點,從而使事情變得更難處理。

編輯:正如下面的答案和評論中所指出的,要走的路是將其建模為一個標記點過程,然後使用 R 來完成所有繁重的工作,如本研討會報告中的詳細說明:http:/ /www.csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html

您描述的數據類型通常稱為“標記點模式”,R 有一個用於空間統計的任務視圖,它為這種類型的分析提供了許多很好的包,其中大多數可能無法處理您所描述的那種巨大數據有 :(

例如,也許 A 類型的事件通常不會在 B 類型的事件發生的地方發生。或者,也許在某些地區,主要是 C 類事件。

這是兩個完全不同類型的問題:第二個問題是關於一種標記/事件的定位。如果您有興趣發現聚類(一種事件傾向於組合在一起)或排斥(一種事件傾向於分離)的模式,那麼在這種情況下要尋找的流行語是 fe 強度估計或 K 函數估計。第一個詢問不同類型事件之間的相關性。這通常使用標記相關函數來測量。

我認為對數據進行二次採樣以獲得更易於處理的數據大小是危險的(請參閱@hamner 回复的評論),但也許您可以匯總您的數據:將觀察窗口劃分為可管理數量的相同大小的單元格並將事件計數製成表格每個。然後通過其中心位置和 10 種標記類型的 10 個計數向量來描述每個單元格。您應該能夠在此聚合過程上使用標記點過程的標準方法。

引用自:https://stats.stackexchange.com/questions/8236

comments powered by Disqus