Clustering

雙聚類入門

  • February 20, 2011

我一直在對雙集群進行一些隨意的互聯網研究。(我已經多次閱讀 Wiki 文章。)到目前為止,似乎沒有什麼定義或標準術語。

  1. 我想知道是否有任何對查找雙聚類算法感興趣的人應該閱讀的標準論文或書籍。
  2. 是否可以說該領域的最新技術是什麼?我對使用遺傳算法找到雙聚類的概念很感興趣,所以我希望能對這種方法發表評論,特別是在其他方法的背景下。
  3. 通常在聚類中,目標是將數據集劃分為組,其中每個元素都在某個組中。雙聚類算法是否也試圖將所有元素放在一個特定的組中?

我從來沒有直接使用過它,所以我只能分享我的一些論文和關於該技術的一般想法(主要解決你的問題 1 和 3)。

我對雙聚類的一般理解主要來自基因研究 (2-6),我們試圖解釋基因簇和個體分組:簡而言之,我們正在尋找具有相似基因表達譜的樣本組(這可能與例如,疾病狀態)促成這種基因分析模式的基因。Pardalos 的幻燈片Biclustering中提供了對生物“大規模”數據集的最新技術水平的調查。請注意,有一個 R 包biclust,用於微陣列數據。

事實上,我最初的想法是將這種方法應用於臨床診斷,因為它允許將特徵或變量放在多個集群中,這從符號學的角度來看很有趣,因為聚集在一起的症狀可以定義綜合徵,但有些症狀可以不同疾病重疊。Cramer et al., Comorbidity: A network perspective (Behavioral and Brain Sciences 2010, 33, 137-193) 中有很好的討論。

一個有點相關的技術是*協同過濾*。Su 和 Khoshgoftaar 提供了一篇很好的評論(人工智能進展,2009 年):協作過濾技術調查。其他參考文獻在最後列出。也許頻繁項集的分析,如市場籃子問題中的例子,也與它有關,但我從未對此進行過調查。另一個共同聚類的例子是當我們想要同時聚類單詞和文檔時,例如在文本挖掘中,例如 Dhillon (2001)。使用二分譜圖分區對文檔和單詞進行共聚類過程。KDD,第 269-274 頁。

關於一些一般參考,這裡有一個不是很詳盡的列表,我希望你會覺得有用:

  1. 耆那教,AK(2010)。數據聚類:超越 K-means 的 50 年模式識別字母, 31 , 651–666
  2. Carmona-Saez 等人。(2006 年)。通過非平滑非負矩陣分解對基因表達數據進行雙聚類BMC 生物信息學7,78
  3. Prelic 等人。(2006 年)。基因表達數據雙聚類方法的系統比較和評估生物信息學22(9),1122-1129。www.tik.ee.ethz.ch/sop/bimax
  4. 迪馬喬等人。(2008 年)。通過系統生物學中數據矩陣的優化重新排序進行雙聚類:嚴格的方法和比較研究BMC 生物信息學9,458
  5. 聖瑪麗亞等人。(2008 年)。BicOverlapper:雙簇可視化工具生物信息學24(9),1212-1213。
  6. Madeira, SC 和 Oliveira, AL (2004) Bicluster 生物數據分析算法:一項調查IEEE Trans。計算。生物學。生物信息。, 1 , 24-45。
  7. Badea, L. (2009)。用於重疊雙聚類的廣義聚類圖。IJCAI
  8. Symeonidis, P. (2006)。最近的雙聚類協同過濾。WEBKDD

引用自:https://stats.stackexchange.com/questions/7419

comments powered by Disqus