Data-Visualization

表示實驗數據

  • February 6, 2013

我和我的顧問就數據可視化發生了爭執。他聲稱,在表示實驗結果時,應僅使用“標記”繪製值,如下圖所示。而曲線應該只代表一個“模型

標記.png

另一方面,我認為在許多情況下,為了便於閱讀,曲線是不必要的,如下圖第二張所示:

線條.png

我錯了還是我的教授?如果是後一種情況,我該如何去向他解釋這件事。

我喜歡這個經驗法則:

如果您需要線來引導眼睛(即顯示沒有線將無法清晰可見的趨勢),則不應放置線。

人類非常擅長識別模式(我們寧願看到不存在的趨勢,也不願錯過現有的趨勢)。如果我們無法在沒有線條的情況下獲得趨勢,我們可以非常確定在數據集中沒有任何趨勢可以最終顯示。

談到第二張圖,測量點不確定性的唯一指示是 700 °C 時 C:O 1.2 的兩個紅色方塊。這兩個的傳播意味著我不會接受例如

  • C:O 1.2 完全有趨勢
  • 2.0和3.6之間有區別
  • 並且可以肯定的是,彎曲模型過度擬合了數據。

沒有很好的理由。然而,這將再次成為一個模型。


編輯:回答伊万的評論:

我是化學家,我會說沒有沒有錯誤的測量 - 可以接受的將取決於實驗和儀器。

這個答案不是反對顯示實驗錯誤,而是為了顯示和考慮它。

我的推理背後的想法是,該圖恰好顯示了一次重複測量,因此當討論模型應該擬合的複雜程度(即水平線、直線、二次……)時,這可以讓我們對測量有所了解錯誤。在您的情況下,這意味著您將無法擬合有意義的二次(樣條),即使您有一個硬模型(例如熱力學或動力學方程)表明它應該是二次的 - 您只是沒有足夠的數據.

為了說明這一點:

df <-data.frame (T      =         c ( 700,  700,  800, 900,  700, 800, 900, 700, 800, 900), 
                C.to.O = factor (c ( 1.2,  1.2,  1.2, 1.2,  2  , 2  , 2  , 3.6, 3.6, 3.6)),
                tar    =         c (21.5, 18.5, 19.5, 19,  15.5, 15 , 6  , 16.5, 9, 9))

這是每個 C:O 比率的線性擬合及其 95% 置信區間:

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
   stat_smooth (method = "lm") + 
   facet_wrap (~C.to.O)

線性模型

請注意,對於較高的 C:O 比率,置信區間的範圍遠低於 0。這意味著線性模型的隱含假設是錯誤的。但是,您可以得出結論,較高 C:O 含量的線性模型已經過擬合。

因此,退後一步並僅擬合一個常數值(即沒有 T 依賴性):

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
   stat_smooth (method = "lm", formula = y ~ 1) + 
   facet_wrap (~C.to.O) 

無 T 依賴

補充是對不依賴於 C:O 的建模:

ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) + 
   stat_smooth (method = "lm", formula = y ~ x) 

無 C:O 依賴性

儘管如此,置信區間仍將覆蓋水平線或什至略微上升的線。

您可以繼續嘗試,例如允許三個 C:O 比率的不同偏移量,但使用相等的斜率。

但是,已經很少有更多的測量值會大大改善這種情況 - 請注意 C:O = 1 : 1 的置信區間有多窄,您有 4 個測量值而不是只有 3 個。

結論:如果你比較我對哪些結論持懷疑態度的觀點,他們對少數可用觀點的解讀太多了!

引用自:https://stats.stackexchange.com/questions/49395

comments powered by Disqus