Sample

檢測樣本中是否實際存在兩個總體

  • June 9, 2020

我一直在計算化石葉片材料上的氣孔,以應用氣孔指數和二氧化碳之間的已知關係。我認為這些材料都來自一個種群(給定地點的一個物種)。然而,對數據的探索表明可能有兩個人群。我將這些解釋為我所針對的物種和雜交種,它們很難通過葉子形態來區分(由於地層學的原因,我們可以排除這些實際上是兩個不同的時間,因此是不同的“真實”二氧化碳值)。

我已經能夠找到有關如何確定兩個樣本是否來自不同人群的信息,但如果您抽取一個樣本並且似乎有兩個不同的人群,則無法找到。劃分分佈(比如將其劃分為 6.5)並使用 Wilcoxon-Mann-Whitney 檢驗來確定兩個樣本是否顯著不同是否可以接受?

確定這些是否真的是兩個群體的公正方法是什麼?

這些是 41 片葉子的氣孔指數結果。

[1] 5.172414 5.246914 5.276382 5.278592 5.288462 5.306122 5.323194 5.325444 5.357143 5.366726 [11] 5.367232 5.376344 5.384615 5.504587 6.053269 6.854839 6.910569 7.006369 7.036247 7.112069 [21] 7.156673 7.231920 7.311828 7.416268 7.440476 7.448494 7.491857 7.526882 7.526882 7.534247 [31] 7.547170 7.559395 7.605634 7.671233 7.749077 7.925408 7.964602 8.064520 8.247423 8.252427 [41] 8.436214

氣孔指數的頻率直方圖

讓我們從術語開始。統計中的人口是“研究中的實體集合”。在設計研究時,我們定義了感興趣的人群,然後從該人群中抽取樣本。所以樣本不能“由”多個群體“組成”。更合適的措辭是談論“群體”、“集群”或“亞群”。

要在數據中查找集群,您可以使用聚類算法,它將嘗試將您的數據分成預定義數量的組,給定這樣的標準。通常我們的目標是每個集群內的樣本彼此最相似,而集群最不相似。請注意這裡的邏輯問題:如果您首先以組彼此不同的方式對內容進行分組,然後測試它們是否不同,那麼這就是循環的。如果您的測試失敗,可能是聚類算法不夠好,或者測試不夠靈敏?它打開了許多“折磨數據直到它承認”的方法,通常是一個壞主意。

一種合理的方法是使用基於模型的聚類(即混合物模型,如Stephan Kolassa的另一個答案中所述)具有一個或兩個集群,然後進行似然比檢驗以比較兩個模型。如果在給定雙集群模型的情況下數據更“可能”,那麼您可以說雙集群解決方案“更適合”數據,儘管它不能證明存在實際的亞群。這種方法需要您能夠定義描述數據的統計模型,因此它比使用“黑盒”聚類算法更複雜。

引用自:https://stats.stackexchange.com/questions/471173

comments powered by Disqus