Text-Mining

檢查字符串是否不是隨機的

  • October 10, 2018

背景

假設我們有一個字母表A,B, C, D,然後我們查看一些數據並找到一個“單詞”,DDDDDDDDCDDDDDD在我看來,找到這個隨機的機會似乎很低,而發現BABDCABCDACDBACD似乎不太隨機。

問題

我應該如何檢查我遇到的字符串是否不是隨機的?

我在 R 中嘗試了一些東西,例如,對字母進行數字編碼,然後將它們與排列進行比較。但是預先編碼是相當麻煩的。可能有更直接的方法嗎?

找到這個隨機的機會對我來說似乎很低,而找到 BABDCABCDACDBACD 似乎不太隨機。

為什麼會這樣?如果每個字母 A…D 的總比例等於 0.25,並且每個字母獨立於另一個,那麼這兩個詞的概率完全相同。如果字母的分佈不同,那么生成兩個單詞的概率當然可能不同。

您可以嘗試找到“低複雜度”的單詞,例如一個字母比例特別高的單詞(您可以使用其他響應中建議的香農信息,在生物序列分析中還有許多其他方法),但是不是對“隨機性”的測試,因為沒有進一步的假設或對您實際分析的內容的了解,“隨機性”一詞毫無意義。

引用自:https://stats.stackexchange.com/questions/371150

comments powered by Disqus