之間有什麼關係𝑌是Y和𝑋XX在這個情節?
之間有什麼關係和在下面的情節中?在我看來,存在負線性關係,但是因為我們有很多異常值,所以這種關係很弱。我對嗎?我想了解如何解釋散點圖。
該問題涉及幾個概念:如何評估僅以散點圖形式給出的數據,如何總結散點圖,以及關係是否(以及在何種程度上)看起來是線性的。讓我們按順序排列它們。
評估圖形數據
使用探索性數據分析 (EDA) 的原則。 這些(至少最初是為鉛筆和紙使用而開發的)強調簡單、易於計算、可靠的數據摘要。一種最簡單的匯總是基於*一組數字中的位置,*例如描述“典型”值的中間值。 中間值很容易從圖形中可靠地估計出來。
散點圖顯示成對的數字。每對中的第一個(繪製在水平軸上)給出了一組單獨的數字,我們可以單獨總結。
在這個特定的散點圖中,y 值似乎位於兩個幾乎完全獨立的組中:上面的值 $ 60 $ 在頂部和那些等於或小於 $ 60 $ 在底部。(這種印象通過繪製 y 值的直方圖得到證實,該直方圖是雙峰的,但在現階段這將是很多工作。)我邀請懷疑者瞇著眼睛看散點圖。當我這樣做時——使用散點圖中的點的大半徑、伽馬校正的高斯模糊(即標準的快速圖像處理結果),我看到了這一點:
兩組——上層和下層——非常明顯。(上組比下組輕得多,因為它包含的點要少得多。)
因此,讓我們分別總結 y 值組。我將通過在兩組的中間畫水平線來做到這一點。為了強調數據的印象並表明我們沒有進行任何類型的計算,我已經 (a) 刪除了所有裝飾,如軸和網格線,並且 (b) 模糊了點。因此,“瞇著眼”看圖形會丟失有關數據模式的少量信息:
同樣,我試圖用垂直線段標記 x 值的中值。在上面的組(紅線)中,您可以檢查 - 通過計算斑點 - 這些線確實將組分成兩個相等的兩半,水平和垂直。在較低的組(藍線)中,我只是在視覺上估計了位置,而沒有實際進行任何計數。
評估關係:回歸
交點是兩組的中心。 x 和 y 值之間關係的一個很好的總結是報告這些中心位置。 然後,人們會希望通過描述數據在每個組中分佈的程度來補充此摘要 - 向左和向右,在上方和下方 - 圍繞它們的中心。為簡潔起見,我不會在這裡這樣做,但請注意(大致)我繪製的線段的長度反映了每個組的整體分佈。
最後,我畫了一條連接兩個中心的(虛線)線。 這是一條合理的回歸線。 它是對數據的良好描述嗎?當然不是:看看這條線周圍的數據有多分散。它甚至是線性的證據嗎?這幾乎無關緊要,因為線性描述太差了。儘管如此,因為這是擺在我們面前的問題,所以讓我們來解決它。
評估線性度
當y 值圍繞一條線以平衡隨機方式變化或x 值被視為圍繞一條線以平衡隨機方式變化(或兩者)時*,關係在統計意義上是線性的。*
前者在這裡似乎不是這樣:因為 y 值似乎分為兩組,從大致對稱分佈在線上方或下方的意義上說,它們的變化永遠不會看起來平衡。(這立即排除了將數據轉儲到線性回歸包中並執行 y 與 x 的最小二乘擬合的可能性:答案將不相關。)
x 的變化呢?這更合理:在圖上的每個高度,點在虛線周圍的水平分佈非常平衡。在較低的高度(低 y 值),這種散佈中的散佈似乎更大一些,但這可能是因為那裡有更多的點。(您擁有的隨機數據越多,它們的極值之間的距離就會越寬。)
此外,當我們從上到下掃描時,回歸線周圍的水平散射沒有嚴重不平衡的地方:這將是非線性的證據。(嗯,可能在 y=50 左右可能有太多的大 x 值。這種微妙的影響可以作為進一步的證據,將數據分成 y=60 值附近的兩組。)
結論
我們已經看到
- 將 x 視為 y 的線性函數加上一些“不錯的”隨機變化是有意義的。
- 將y 視為 x 加上隨機變化的線性函數是沒有意義的。
- 回歸線可以通過將數據分成一組高 y 值和一組低 y 值,使用中位數找到兩組的中心,然後連接這些中心來估計。
- 結果線有一個向下的斜率,表示負線性關係。
- 沒有明顯偏離線性。
- 然而,由於線周圍的 x 值的分佈仍然很大(與開始時 x 值的整體分佈相比),我們必須將這種負線性關係描述為“非常弱”。
- 將數據描述為形成兩個橢圓形的雲可能更有用(一個表示 y 高於 60,另一個表示 y 值較低)。在每個雲中,x 和 y 之間幾乎沒有可檢測到的關係。雲的中心在 (0.29, 90) 和 (0.38, 30) 附近。雲具有可比的分佈,但上層雲的數據遠少於下層(可能少 20%)。
其中兩個結論證實了問題本身的結論,即存在弱負關係。其他人補充並支持這些結論。
在這個問題中得出的一個似乎站不住腳的結論是斷言存在“異常值”。更仔細的檢查(如下圖所示)將無法發現任何可能被認為是異常的單獨點,甚至是小組點。經過足夠長的分析,一個人的注意力可能會被吸引到靠近右中的兩個點或左下角的一個點,但即使這些也不會改變一個人對數據的評估,無論是否考慮它們邊遠。
進一步的方向
可以說的更多。 下一步將是評估這些雲的擴散。可以使用此處顯示的相同技術分別評估兩個雲中每個雲中 x 和 y 之間的關係。下層雲的輕微不對稱(更多數據似乎出現在最小的 y 值處)可以通過重新表達 y 值來評估甚至調整(平方根可能效果很好)。在這個階段,尋找異常數據是有意義的,因為此時描述將包括有關典型數據值及其分佈的信息;離群值(根據定義)離中間太遠,無法用觀察到的傳播量來解釋。
這項工作(相當定量)只需要找到數據組的中間並用它們進行一些簡單的計算,因此即使數據僅以圖形形式可用,也可以快速準確地完成。此處報告的每個結果(包括定量值)都可以使用顯示系統(例如硬拷貝和鉛筆:-))在幾秒鐘內輕鬆找到,該系統允許在圖形頂部製作淺色標記。