表示實驗數據
我和我的顧問就數據可視化發生了爭執。他聲稱,在表示實驗結果時,應僅使用“標記”繪製值,如下圖所示。而曲線應該只代表一個“模型”
另一方面,我認為在許多情況下,為了便於閱讀,曲線是不必要的,如下圖第二張所示:
我錯了還是我的教授?如果是後一種情況,我該如何去向他解釋這件事。
我喜歡這個經驗法則:
如果您需要線來引導眼睛(即顯示沒有線將無法清晰可見的趨勢),則不應放置線。
人類非常擅長識別模式(我們寧願看到不存在的趨勢,也不願錯過現有的趨勢)。如果我們無法在沒有線條的情況下獲得趨勢,我們可以非常確定在數據集中沒有任何趨勢可以最終顯示。
談到第二張圖,測量點不確定性的唯一指示是 700 °C 時 C:O 1.2 的兩個紅色方塊。這兩個的傳播意味著我不會接受例如
- C:O 1.2 完全有趨勢
- 2.0和3.6之間有區別
- 並且可以肯定的是,彎曲模型過度擬合了數據。
沒有很好的理由。然而,這將再次成為一個模型。
編輯:回答伊万的評論:
我是化學家,我會說沒有沒有錯誤的測量 - 可以接受的將取決於實驗和儀器。
這個答案不是反對顯示實驗錯誤,而是為了顯示和考慮它。
我的推理背後的想法是,該圖恰好顯示了一次重複測量,因此當討論模型應該擬合的複雜程度(即水平線、直線、二次……)時,這可以讓我們對測量有所了解錯誤。在您的情況下,這意味著您將無法擬合有意義的二次(樣條),即使您有一個硬模型(例如熱力學或動力學方程)表明它應該是二次的 - 您只是沒有足夠的數據.
為了說明這一點:
df <-data.frame (T = c ( 700, 700, 800, 900, 700, 800, 900, 700, 800, 900), C.to.O = factor (c ( 1.2, 1.2, 1.2, 1.2, 2 , 2 , 2 , 3.6, 3.6, 3.6)), tar = c (21.5, 18.5, 19.5, 19, 15.5, 15 , 6 , 16.5, 9, 9))
這是每個 C:O 比率的線性擬合及其 95% 置信區間:
ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + stat_smooth (method = "lm") + facet_wrap (~C.to.O)
請注意,對於較高的 C:O 比率,置信區間的範圍遠低於 0。這意味著線性模型的隱含假設是錯誤的。但是,您可以得出結論,較高 C:O 含量的線性模型已經過擬合。
因此,退後一步並僅擬合一個常數值(即沒有 T 依賴性):
ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + stat_smooth (method = "lm", formula = y ~ 1) + facet_wrap (~C.to.O)
補充是對不依賴於 C:O 的建模:
ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) + stat_smooth (method = "lm", formula = y ~ x)
儘管如此,置信區間仍將覆蓋水平線或什至略微上升的線。
您可以繼續嘗試,例如允許三個 C:O 比率的不同偏移量,但使用相等的斜率。
但是,已經很少有更多的測量值會大大改善這種情況 - 請注意 C:O = 1 : 1 的置信區間有多窄,您有 4 個測量值而不是只有 3 個。
結論:如果你比較我對哪些結論持懷疑態度的觀點,他們對少數可用觀點的解讀太多了!