從多個變量創建質量指數以實現排名排序
我有四個數字變量。所有這些都是衡量土壤質量的指標。變量越高,質量越高。它們的範圍是不同的:
Var1 從 1 到 10
Var2 從 1000 到 2000
Var3 從 150 到 300
Var4 從 0 到 5
我需要將四個變量組合成單個土壤質量得分,這將成功排序。
我的想法很簡單。標準化所有四個變量,將它們加起來,得到的就是應該排序的分數。您是否發現應用這種方法有任何問題。您還有其他(更好的)方法可以推薦嗎?
謝謝
編輯:
多謝你們。很多討論都涉及“領域專業知識”……農業的東西……而我期待更多的統計談話。就我將使用的技術而言……它可能是簡單的 z 分數求和 + 邏輯回歸作為實驗。因為絕大多數樣本質量較差 90%,我將把 3 個質量類別合併為一個,基本上存在二元問題(一些質量與無質量)。我用一塊石頭殺死兩隻鳥。我在事件率方面增加了我的樣本,並通過讓他們對我的樣本進行分類來利用專家。然後,專家分類樣本將用於擬合 log-reg 模型,以最大限度地提高與專家的一致性/不一致程度……你覺得這聽起來如何?
建議的方法可能會給出合理的結果,但只是偶然的。在這個距離上——也就是說,從表面上看問題,隱藏變量的含義——一些問題是顯而易見的:
- 每個變量都與“質量”正相關,這甚至不是很明顯。 例如,如果“Var1”的 10 表示“質量”比 Var1 為 1 時的質量差怎麼辦?然後將其添加到總和中幾乎是一件錯誤的事情。它需要被減去。
- 標準化意味著“質量”取決於數據集本身。因此,定義將隨著不同的數據集或對這些數據的添加和刪除而改變。 這可以使“質量”成為任意的、瞬態的、非客觀的結構,並排除數據集之間的比較。
- 沒有“質量”的定義。 它應該是什麼意思?阻止受污染水的遷移的能力?支持有機流程的能力?促進某些化學反應的能力?對其中一種目的有益的土壤可能對其他目的特別貧瘠。
- 所說的問題沒有目的: 為什麼需要對“質量”進行排名?排名將用於什麼 - 輸入更多分析、選擇“最佳”土壤、確定科學假設、發展理論、推廣產品?
- 排名的後果並不明顯。 如果排名不正確或劣勢,會發生什麼?世界會更飢餓,環境會更受污染,科學家會更受誤導,園丁會更失望嗎?
- 為什麼變量的線性組合應該是合適的? 為什麼不應該將它們相乘或取冪或組合為多項式或更深奧的東西?
- 原始土壤質量測量值通常被重新表達。例如,對數滲透率通常比滲透率本身更有用,對數氫離子活度 (pH) 比活度更有用。 確定“質量”的變量的適當重新表達是什麼?
人們希望土壤科學能夠回答大多數這些問題,並指出對於任何客觀的“質量”意義而言,變量的適當組合可能是什麼。如果不是,那麼您將面臨多屬性估值問題。Wikipedia 文章列出了解決此問題的數十種方法。恕我直言,其中大多數不適合解決科學問題。Keeney & Raiffa 的多屬性估值理論是少數具有紮實理論和潛在適用於經驗問題的理論之一(小牛)。它要求您能夠確定,對於變量的任何兩個特定組合,這兩者中的哪一個應該排名更高。此類比較的結構化序列揭示了 (a) 重新表達價值觀的適當方式;(b) 重新表達值的線性組合是否會產生正確的排名;(c) 如果可以進行線性組合,它將讓您計算係數。簡而言之,只要您已經知道如何比較特定案例,MAVT 就會提供解決您問題的算法。