Self-Study

混沌理論在數據挖掘中的已知實際應用有哪些?

  • March 15, 2016

在過去幾年隨便閱讀一些關於混沌理論的大眾市場著作時,我開始想知道它的各個方面如何應用於數據挖掘和相關領域,如神經網絡、模式識別、不確定性管理等。迄今為止,我在已發表的研究中遇到此類應用的示例如此之少,我想知道是否 a) 它們實際上已在已知、已發表的實驗和項目中付諸實踐;b) 如果沒有,為什麼它們在這些相互關聯的領域中使用如此之少領域?

迄今為止,我看到的大多數關於混沌理論的討論都圍繞著完全有用的科學應用,但與數據挖掘和模式識別等相關領域幾乎沒有關係。典型的例子之一是物理學中的三體問題。我想放棄對此類普通科學應用的討論,並將問題僅限於那些與數據挖掘和相關領域明顯相關的應用,這些應用在文獻中似乎很少見。下面的潛在應用程序列表可以用作搜索已發表研究的起點,但我只對那些實際已付諸實踐的應用程序感興趣,如果有的話。我正在尋找的是數據挖掘中混沌理論的已知實現,與更廣泛的潛在應用程序列表不同。這是我在閱讀時想到的關於數據挖掘應用程序的即興想法的一小部分;也許它們都不是務實的,也許在我們說話時有些正在實際使用,但請按照我還不熟悉的術語:

  1. 在模式識別中識別自相似結構,就像幾十年前 Mandelbrot 在模擬電話線中的錯誤突發情況下以實際方式所做的那樣。
  2. 在採礦結果中遇到費根鮑姆常數(可能類似於弦理論家在他們的研究過程中看到麥克斯韋方程在意想不到的地方突然出現的方式)。
  3. 確定神經網絡權重和各種挖掘測試的最佳位深度。我想知道這個是因為對初始條件的敏感性發揮作用的數值尺度非常小,這部分是導致混沌相關函數的不可預測性的原因。
  4. 以其他方式使用分數維的概念不一定與迷人的分形好奇心相關,例如門格爾海綿、科赫曲線或謝爾賓斯基地毯。也許這個概念可以以某種有益的方式應用於挖掘模型的維度,將它們視為分數?
  5. 導出冪律,例如在分形中發揮作用的冪律。
  6. 由於分形中遇到的函數是非線性的,我想知道非線性回歸是否有一些實際應用。
  7. 混沌理論與熵有一些切線(有時被誇大)的關係,所以我想知道是否有某種方法可以從混沌理論中使用的函數計算香農的熵(或對其及其親屬的限制),反之亦然。
  8. 識別數據中的倍週期行為。
  9. 通過智能地選擇最有可能以有用的方式“自組織”的結構來識別神經網絡的最佳結構。
  10. 混沌和分形等也與計算複雜度相關,所以我想知道是否可以使用複雜度來識別混沌結構,反之亦然。
  11. 我第一次聽說混沌理論中的李雅普諾夫指數,從那以後在特定神經網絡的配方和熵的討論中註意到它幾次。

可能還有很多其他的關係我沒有在這裡列出;所有這一切都從我的腦海中浮現。我對這些特定猜測的具體答案並沒有狹隘的興趣,而只是將它們作為可能存在於野外的應用程序類型的示例扔在那裡。只要這些應用程序特別適用於數據挖掘,我希望看到回復中包含當前研究的示例和此類想法的現有實現。

可能還有其他我不知道的現存實現,即使在我更熟悉的領域(如信息論、模糊集和神經網絡)和其他我更不擅長的領域,如回歸,所以更多的輸入很受歡迎。我在這裡的實際目的是確定是否在學習混沌理論的特定方面進行更多投資,如果我找不到一些明顯的實用性,我將把它放在次要位置。

我搜索了 CrossValidated,但沒有看到任何直接解決混沌理論在數據挖掘等方面的實用應用的主題。我能找到的最接近的主題是Chaos theory, equation-free modeling and non-parametric statistics,它涉及具有特定子集。

作為一種實用方法的數據挖掘 (DM) 似乎與數學建模 (MM) 方法幾乎是互補的,甚至與混沌理論 (CT) 相矛盾。我先說DM和一般MM,然後重點說CT。

數學建模

直到最近,在經濟建模中,DM 幾乎被認為是一種禁忌,一種尋找相關性而不是學習因果關係的黑客,請參閱SAS 博客中的這篇文章。態度正在改變,但存在許多與虛假關係數據挖掘p-hacking等相關的陷阱。

在某些情況下,即使在已建立 MM 實踐的領域,DM 似乎也是一種合法的方法。例如,DM 可用於在產生大量數據的物理實驗中搜索粒子相互作用,例如粒子粉碎機。在這種情況下,物理學家可能會了解粒子的外觀,並在數據集中搜索模式。

混沌理論

混沌系統可能特別難以使用 DM 技術進行分析。考慮一種常見的偽隨機數生成器中使用的熟悉的線性同餘方法 ( LCG ) 。它本質上是一個混沌系統。這就是為什麼它被用來“偽造”隨機數的原因。一個好的生成器將無法與隨機數序列區分開來。這意味著您將無法通過使用統計方法來確定它是否是隨機的。我也會在這裡包括數據挖掘。嘗試通過數據挖掘在 RAND() 生成的序列中找到模式!然而,正如你所知,它又是一個完全確定的序列,它的方程也非常簡單。

混沌理論不是隨機尋找相似性模式。混沌理論涉及學習過程和動態關係,使得系統中的小擾動放大,產生不穩定的行為,而在這種混沌中,穩定的模式會以某種方式出現。所有這些很酷的東西都是由於方程本身的特性而發生的。然後研究人員研究這些方程及其係統。這與應用數據挖掘的思維方式非常不同。

例如,您可以在研究混沌系統時談論自相似模式,並註意到數據挖掘者也談論模式搜索。但是,這些處理“模式”概念的方式非常不同。混沌系統將從方程中生成這些模式。他們可能會嘗試通過觀察實際系統等來提出他們的方程組,但他們總是在某個時候處理方程。數據挖掘者來自另一邊,對系統的內部結構不太了解或猜測,他們會嘗試尋找模式。我不認為這兩個小組曾經查看過相同的實際系統或數據集。

另一個例子是費根鮑姆用來創建他著名的周期倍增分岔的最簡單的邏輯圖。

在此處輸入圖像描述

這個等式非常簡單:$$ x_{n+1} = r x_n (1 - x_n) $$ 然而,我不知道如何使用數據挖掘技術發現它。

引用自:https://stats.stackexchange.com/questions/201737

comments powered by Disqus