靈玖軟件NLPIRParser智能文本聚類


  隨着互聯網的迅猛發展,信息的爆炸式增加,信息超載問題變的越來越嚴重,信息的更新率也越來越高,用戶在信息海洋里查找信息就像大海撈針一樣。搜索引擎服務應運而生,在一定程度上滿足了用戶查找信息的需要。然而互聯網的深入發展和搜索引擎日趨龐大,進一步凸現出海量信息和人們獲取所需信息能力的矛盾。那么,如何從中獲取特定內容的信息和知識成為擺在人們面前的一道難題。面對互聯網時代龐雜無序的海量信息,智能高效地處理和深層次綜合利用信息離不開文本挖掘技術。

  聚類作為一種只是發現的重要方法,是數據挖掘中一項重要的研究課題,它廣泛地與中文信息處理技術相結合,應用於網絡信息處理中以滿足用戶快捷地從互聯網獲得自己需要的信息資源,文本聚類則是聚類問題在文本挖掘中的有效應用,是文本挖掘的重要內容之一。

  靈玖軟件NLPIRParser智能文本聚類主要是依據著名的聚類假設:同類的文檔相似度較大,而不同類的文檔相似度較小。作為一種無監督的機器學習方法,聚類由於不 需要訓練過程,以及不需要預先對文檔手工標注類別,因此具有一定的靈活性和較高的自動化處理能力,已經成為對文本信息進行有效地組織、摘要和導航的重要手段。

  靈玖軟件NLPIRParser智能文本聚類主要手法:

  1基於划分的方法

  基於划分的聚類算法(Partitioning Method)是文本聚類應用中最為普遍的算法。方法將數據集合分成若干個子集,它根據設定的划分數目k選出k個初始聚類中心,得到一個初始划分,然后采用迭代重定位技術,反復在k個簇之間重新計算每個簇的聚類中心,並重新分配每個簇中的對象,以改進划分的質量。

  2基於層次的方法

  基於層次的聚類算法(Hierarchical Method)又叫“分級聚類算法”或“樹聚類”,它通過分解給定的數據對象集來創建一個層次。這種聚類方法有兩種基本的技術途徑:一是先把每個對象看作一個簇,然后逐步對簇進行合並,直到所有對象合為一個簇,或滿足一定條件為止;二是把所有對象看成一類,根據一些規則不斷選擇一個簇進行分解,直到滿足一些預定的條件,如類的數目達到了預定值,或兩個最近簇的距離達到閾值等。

  3基於密度的方法

  基於密度的聚類算法(Density-Based Clustering Method),其主要思想是:只要鄰近區域的對象或數據點的數目超過某個閾值,就繼續聚類。即對給定類中的每個數據點,在一個給定范圍的區域中至少包含某個數目的點,這樣就能很好的過濾掉“噪聲”數據,發現任意形狀的簇。其基本出發點是,尋找低密度區域分離的高密度區域。

  4基於網格的方法

  基於網格的算法(Grid-Based Clustering Method)把對象空間量化為有限數目的單元,形成了一個網絡結構。所用的聚類操作都在整個網絡結構即量化的空間上進行。

  5基於模型的方法

  基於模型的算法(Model-Based Clustering Method)試圖優化給定的數據和某些數學模型之間的適應性。這樣的算法經常是基於這樣的假設,數據是根據潛在的概率分布生成的。它通過為每個聚類假設一個模型來發現符合相應模型的數據對象。根據標准統計方法並綜合考慮“噪聲”或異常數據,該方法可以自動確定聚類個數,從而得到魯棒性較好的聚類方法。

  靈玖軟件NLPIRParser智能文本聚類結合了以上的各種算法,大大提高了文本的聚合速度和精度,提高了產品用戶體驗度,得到了客戶的高度認可。


注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
粤ICP备14056181号  © 2014-2021 ITdaan.com