資料介紹
鑒于目前傳統(tǒng)文本聚類方法中利用文檔間的相似度進(jìn)行聚類存在的問題,在傳統(tǒng)的文本挖掘基礎(chǔ)上提出了一種新的文本聚類算法—— 利用單詞超團(tuán)的二分圖文本聚類算法。該算法用文檔中單詞的關(guān)聯(lián)模式來評估文檔間的相似度及主題類別預(yù)測,并利用圖劃分策略來大大降低文檔相似度比較算法的復(fù)雜度,同時將超團(tuán)作為特征結(jié)構(gòu)的擴(kuò)展,可以在一定范圍內(nèi)減少語言信息的丟失,提高聚類效果。經(jīng)實驗證明該算法具有較高的有效性。
關(guān) 鍵 詞 二分圖劃分; 文本聚類; 單詞超團(tuán)
Abstract This paper proposes a new algorithm for document-word co-clustering. After mining semantics with word hyperclique patterns, the document dataset with a bipartite graph is described. Then, the efficient graph partitioning algorithm is employed to partition this graph, so that the high computational overhead of traditional clustering algorithms over huge document datasests can be avoided. During clustering, word hyperclique patterns that are full of document semantics are preserved. In this way, our algorithm partially circumvents the problem of loosing document semantics, which happens a lot in traditional clustering algorithms based on document pairwise similarity alone. Finally, the extensive experimental results demonstrated the effectiveness of this algorithm in document clustering accuracy and cluster topic detection.
Key words bipartite partition; documents clustering; word hyperclique
掃碼添加小助手
加入工程師交流群
- 一種基于分塊集成的圖像聚類算法 3次下載
- 基于最優(yōu)傳輸距離和聚類的WSN分簇算法 2次下載
- 基于主題相似度聚類的文本分類算法綜述 6次下載
- 一種融合語義模型的二分網(wǎng)絡(luò)推薦算法 4次下載
- 一種頭腦風(fēng)暴算法優(yōu)化的乳腺MR圖像軟子空間聚類算法 7次下載
- 一種自適應(yīng)的關(guān)聯(lián)融合聚類算法 13次下載
- 利用k-prototype聚類的差分隱私混合數(shù)據(jù)發(fā)布算法 4次下載
- 基于距離和密度的并行二分K-means算法 17次下載
- 一種改進(jìn)的聚類聯(lián)合相似度推薦算法 10次下載
- 基于加權(quán)核非負(fù)矩陣分解的短文本聚類算法的資料說明 11次下載
- 如何使用差分隱私保護(hù)進(jìn)行譜聚類算法 11次下載
- 基于用戶行為特征的多維度文本聚類 1次下載
- 蟻群算法在文本聚類中的應(yīng)用研究 0次下載
- 聚類算法及聚類融合算法研究 33次下載
- 優(yōu)化初始值的K均值中文文本聚類
- 如何在 Python 中安裝和使用頂級聚類算法 1.2k次閱讀
- 10種頂流聚類算法Python實現(xiàn)(附完整代碼) 2.5k次閱讀
- 基于距離的聚類算法K-means的設(shè)計實現(xiàn) 3k次閱讀
- 詳解C語言二分查找算法細(xì)節(jié) 3.3k次閱讀
- 二分頻電路及代碼 2.6w次閱讀
- 基于源級耦合結(jié)構(gòu)的正交二分頻電路 3.6k次閱讀
- 解決二分類問題的算法——AdaBoost算法 1.2w次閱讀
- 傳統(tǒng)方法和深度學(xué)習(xí)的情感分析 4.4k次閱讀
- Python無監(jiān)督學(xué)習(xí)的幾種聚類算法包括K-Means聚類,分層聚類等詳細(xì)概述 3.2w次閱讀
- 汽車音響選擇二分頻還是三分頻改裝_汽車音響分頻器安裝方法 4.7w次閱讀
- 淺談Matlab中的聚類分析 Matlab聚類程序的設(shè)計 7.7k次閱讀
- 基于密度DBSCAN的聚類算法 2.3w次閱讀
- 圖像處理算法之二分查找 5.4k次閱讀
- k means聚類算法實例 1.6w次閱讀
- 實現(xiàn)精密二分壓電路功能的放大器 6k次閱讀
下載排行
本周
- 1MDD品牌三極管MMBT3906數(shù)據(jù)手冊
- 2.33 MB | 次下載 | 免費
- 2MDD品牌三極管S9012數(shù)據(jù)手冊
- 2.62 MB | 次下載 | 免費
- 3聯(lián)想flex2-14D/15D說明書
- 4.92 MB | 次下載 | 免費
- 4收音環(huán)繞擴(kuò)音機(jī) AVR-1507手冊
- 2.50 MB | 次下載 | 免費
- 524Pin Type-C連接器設(shè)計報告
- 1.06 MB | 次下載 | 免費
- 6新一代網(wǎng)絡(luò)可視化(NPB 2.0)
- 3.40 MB | 次下載 | 免費
- 7MS1000TA 超聲波測量模擬前端芯片技術(shù)手冊
- 0.60 MB | 次下載 | 免費
- 8MS1022高精度時間測量(TDC)電路數(shù)據(jù)手冊
- 1.81 MB | 次下載 | 免費
本月
- 1愛華AIWA HS-J202維修手冊
- 3.34 MB | 37次下載 | 免費
- 2PC5502負(fù)載均流控制電路數(shù)據(jù)手冊
- 1.63 MB | 23次下載 | 免費
- 3NB-IoT芯片廠商的資料說明
- 0.31 MB | 22次下載 | 1 積分
- 4H110主板CPU PWM芯片ISL95858HRZ-T核心供電電路圖資料
- 0.63 MB | 6次下載 | 1 積分
- 5UWB653Pro USB口測距通信定位模塊規(guī)格書
- 838.47 KB | 5次下載 | 免費
- 6技嘉H110主板IT8628E_BX IO電路圖資料
- 2.61 MB | 4次下載 | 1 積分
- 7蘇泊爾DCL6907(即CHK-S007)單芯片電磁爐原理圖資料
- 0.04 MB | 4次下載 | 1 積分
- 8100W準(zhǔn)諧振反激式恒流電源電路圖資料
- 0.09 MB | 2次下載 | 1 積分
總榜
- 1matlab軟件下載入口
- 未知 | 935137次下載 | 10 積分
- 2開源硬件-PMP21529.1-4 開關(guān)降壓/升壓雙向直流/直流轉(zhuǎn)換器 PCB layout 設(shè)計
- 1.48MB | 420064次下載 | 10 積分
- 3Altium DXP2002下載入口
- 未知 | 233089次下載 | 10 積分
- 4電路仿真軟件multisim 10.0免費下載
- 340992 | 191439次下載 | 10 積分
- 5十天學(xué)會AVR單片機(jī)與C語言視頻教程 下載
- 158M | 183353次下載 | 10 積分
- 6labview8.5下載
- 未知 | 81602次下載 | 10 積分
- 7Keil工具M(jìn)DK-Arm免費下載
- 0.02 MB | 73822次下載 | 10 積分
- 8LabVIEW 8.6下載
- 未知 | 65991次下載 | 10 積分
電子發(fā)燒友App





創(chuàng)作
發(fā)文章
發(fā)帖
提問
發(fā)資料
發(fā)視頻
上傳資料賺積分
評論