如何總結分類數據？

August 19, 2010

我一直在努力解決以下問題，希望對統計學家來說是一個簡單的問題（我是一名接觸過統計學的程序員）。

我需要總結對調查的回應（用於管理）。該調查有 100 多個問題，按不同領域分組（每個領域大約 5 到 10 個問題）。所有答案都是分類的（在序數範圍內，它們就像“根本沒有”、“很少”……“每天或更頻繁地”）。

管理層希望獲得每個領域的摘要，這是我的問題：如何在相關問題中匯總分類答案？. 問題太多了，無法為每個區域製作圖表甚至格子圖。如果可能的話，我更喜歡視覺方法，例如，與帶有數字的表格相比（唉，他們不會閱讀它們）。

我唯一能想到的就是計算每個區域的答案數量，然後繪製直方圖。

還有其他可用於分類數據的東西嗎？

我使用 R，但不確定它是否相關，我覺得這更像是一個一般的統計問題。

您確實需要弄清楚您要回答的問題是什麼，或者管理層最感興趣的問題是什麼。然後您可以選擇與您的問題最相關的調查問題。

在不了解您的問題或數據集的情況下，以下是一些通用解決方案：

直觀地將答案表示為集群。我最喜歡的是使用樹狀圖或僅在 xy 軸上繪圖（谷歌“cluster analysis r”並通過 statmethods.net 轉到第一個結果）

將問題從“每天或更頻繁”的回答從大到小排列。這是一個可能不完全適合您的示例，但也許它會啟發您http://www.programmingr.com/content/building-scoring-and-ranking-systems-r

交叉表：例如，如果您有一個問題“您上班遲到的頻率如何？” 和“你使用 Facebook 的頻率？”通過對這兩個問題進行交叉製表，您可以找出很少同時使用這兩種方法或每天都使用兩種方法的人的百分比。（谷歌“r 頻率交叉表”或訪問上述 statmethods.net )

相關圖。我對這些沒有任何經驗，但我也在 statmethods.net 網站上看到過。基本上，您會找到哪些問題具有最高的相關性，然後創建一個表格。儘管它看起來有點“忙”，但您可能會發現這很有用。

引用自：https://stats.stackexchange.com/questions/1862

comments powered by Disqus

如何總結分類數據？

相關問答

指數分佈的隨機變量的指數分佈？

為什麼我們說貝葉斯統計適合一次性事件的概率？

當我們計算均值和方差時，我們是否假設數據是正態分佈的？

為什麼對數概率有用？

使用跨越負標度的標準偏差構建誤差線，而變量本身不應該是負數，這是不是很糟糕？

Box-Cox 變換背後的直覺