如何討論具有多條新興線的散點圖?
我們測量了兩個變量,散點圖似乎暗示了多個“線性”模型。有沒有辦法嘗試提煉這些模型?識別其他自變量已被證明是困難的。
這兩個變量都嚴重左偏(偏向小數),這是我們領域中的預期分佈。點的強度表示數據點的數量(在規模)在這.
或者,有沒有辦法對點進行聚類?
在我們的領域,據稱這兩個變量線性相關。我們試圖理解/解釋為什麼我們的數據不是這樣。
(注意,我們有 17M 數據點)
*更新:*感謝您的所有回答,以下是一些要求的澄清:
- 這兩個變量都只是整數,這解釋了對數散點圖中的一些模式。
- 幸運的是,根據定義,這兩個變量的最小值都是 1。
- 7M 點在(由數據的左偏度“解釋”)
以下是要求的地塊:
對數散點圖:
(空格是由整數值引起的)
對數對數極性:
比率直方圖:
頻率是對數刻度,因為bar是7M點,會隱藏其他bar。
您可能會因對物理上可能的內容或記錄的內容(最簡單,僅整數)的限製而產生偽影。完全匿名和不建議對它是如何產生的任何有把握的猜測,但看起來好像有些受到青睞,我當然會看看這個比例的分佈。此外,如果是這樣,根據我的經驗,尋找單獨的模型沒有用,除非你真的在混合完全不同的情況。(對於“物理上”,讀作“生物學上”或任何有意義的副詞。)
我越看這個,我就越猜想像這樣的行或者對整數很明顯,因為值本身是整數。
一個不同但可能相關的觀點是,對我來說,這些數據迫切需要轉換。如果它們都是正數,則表示對數。我擔心你有零,在這種情況下該怎麼做有待討論。例如,一行在可以從你的圖表中猜到。如果有零,有些人發誓或立方根應該有幫助。任何能幫助你更清楚地看到模式的東西都是可以辯護的。
術語的一點:統計中的偏度是參考更加伸展的尾巴來描述的。您可以隨意將此術語視為倒退。在這裡,兩個變量都偏向高值或正偏或右偏。
更新:感謝額外的圖表,這是最有幫助的。幾乎所有的猜測都得到了證實。(可以說,底線是, 不是.) 條紋是使用整數的偽影或次要效果,這很可能是唯一的,或者至少是最實用的測量你正在測量的東西的方法(關於這個問題仍然是謹慎的)。對數對數和其他圖暴露了離散性。因此,儘管有自由裁量權,但離散性得到了證實。對於比率 1/4、1/2、1/1 和 2/1,存在明顯的模式(分佈峰值)。
和以前一樣,我不建議在沒有科學理由的情況下對不同的條紋進行不同的建模以區分它們或單獨對待它們。你應該平均你所擁有的。(可能有已知的方法可以使用這種數據來抑制離散性。如果您所在領域的人經常為每個圖測量數百萬個點,很難相信這是以前沒有見過的。)
相關性當然應該是正的。除了正式的顯著性檢驗(這在此完全沒用,因為在這個樣本量下微小的相關性將被認為是顯著的)之外,它是否被宣佈為強是您所在領域的期望和標準的問題。將您的相關性與其他人的結果進行定量比較是一種方法。
細節:根據統計慣例,偏度仍然被錯誤地描述。這些變量是右傾的;當查看具有水平幅度軸的直方圖並註意到偏度以較長的尾部命名時,該行話適合,而不是具有更多值的濃度。