sphinx系列之中文分詞LibMMSeg安裝(三)


        sphinx不支持中文分詞,國內也有人寫了好多個分詞組件,本文就講安裝LibMMSeg,它是Coreseek.com為 Sphinx 全文搜索引擎設計的中文分詞軟件包,其在GPL協議下發行的中文分詞法,采用Chih-Hao Tsai的MMSEG算法。

        先從http://www.coreseek.cn/news/7/99/    上下載到LibMMSeg的安裝包,如下:

cd  / usr / local / src /
wget http:
// www.coreseek.cn / uploads / csft / 3.2 / coreseek - 3.2 . 13 .tar.gz  - c

       然后解壓縮:

tar  - zxv  - f coreseek - 3.2 . 13 .tar.gz

       進入到mmseg所在文件夾,然后編譯:

cd coreseek - 3.2 . 13 / mmseg - 3.2 . 13 /
.
/ configure  -- prefix =/ usr / local / mmseg

       編譯過程中報了一個config.status: error: cannot find input file: src/Makefile.in這個的錯誤,然后運行下列指令再次編譯就能通過了:

aclocal
libtoolize 
-- force
automake 
-- add - missing
autoconf
autoheader
make clean

       然后再進行編譯和安裝:

. / configure  -- prefix =/ usr / local / mmseg
make 
&&  make install

       把mmseg的命令加到環境變量中,然后運行mmseg,就能輸入安裝成功的信息了:

ln  - / usr / local / mmseg / bin / mmseg  / bin / mmseg
mmseg

Coreseek COS(tm) MM Segment 
1.0
Copyright By Coreseek.com All Right Reserved.
Usage: mmseg 
< option >   < file >
- < unidict >            Unigram Dictionary
- r           Combine with  - u, used a plain text build Unigram Dictionary, default Off
- < Synonyms >            Synonyms Dictionary
- < thesaurus >           Thesaurus Dictionary
- h             print  this help  and  exit


 

 

 

 

 

 


注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
粤ICP备14056181号  © 2014-2021 ITdaan.com