Correlation

為什麼使用記錄變量?

  • August 2, 2012

可能,這是一個非常基本的問題,但我似乎無法找到可靠的答案。我希望在這裡,我可以。

我目前正在閱讀論文,為我自己的碩士論文做準備。目前,我正在閱讀一篇研究推文與股市特徵之間關係的論文。

在他們的一個假設中,他們提出“增加的推文量與交易量的增加有關”。

我希望它們在成對相關中與 相關tweetVolumetradingVolume但他們使用記錄的版本進行報告:LN(tweetVolume)LN(tradingVolume)

對於我的論文,我複制了他們論文的這一點。我收集了超過 6 個月(tweetVolume)和同一時間段內的股票交易量的大約 100 家公司的推文。如果我關聯絕對變量,我會發現,r=.282, p.000但是當我使用記錄的版本時,我會發現r=.488, p=.000.

我不明白為什麼研究人員有時會使用他們變量的日誌版本,以及為什麼如果你這樣做,相關性似乎會高得多。這裡的推理是什麼,為什麼可以使用記錄的變量?

非常感謝您的幫助:-)

使用記錄變量的原因分為兩類:統計和實質性。

從統計上講,如果你的變量是右偏的(也就是說,它們在高端有一條長尾),那麼相關性或回歸等度量可能會受到一個或幾個高端案例的很大影響變量(異常值、槓桿點、影響點)。記錄日誌可以通過減少或消除偏差來幫助實現這一點。

實質上,一些概念在比率方面比在差異方面更好。採取你討論的兩個體積測量。現在,比較兩家公司:一家是在納斯達克交易但很少有人聽說過的小公司,另一家是大型公司。前者每天會收到很少的推文。後者會得到很多;交易量也是如此。假設(只是為了選擇數字)A 公司通常每天收到 100 條推文,而後者則獲得 100,000 條。

如果 A 公司的推文從 100 條增加到 500 條(相差 400 條,比率為 5),那將是一個巨大的新聞——一定是發生了什麼事。但如果 B 公司從 100,000 上升到 100,400(相差 400,比率非常接近 1),沒人會在意。如果它從 100,000 增加到 500,000,則大致相當於。

引用自:https://stats.stackexchange.com/questions/33538

comments powered by Disqus