雷火电竞官网-中国知名电竞赛事平台

當下軟件園 / 匯聚當下最新最酷的軟件下載站!
當下軟件園

您的位置: 首頁 > 應用軟件 > 編程工具 > Jcseg(Java中文分詞器) V2.6.2 官方版

  Jcseg官方版官方版是一款簡單實用的輕量級Java分詞工具,能夠幫助用戶輕松提取關鍵詞、關鍵短語,為Java的使用提供了幫助。軟件還提供了一個基于Jetty的web服務器,滿足用戶的各種Java編程功能需求。

Jcseg

【軟件功能】

  中文分詞:mmseg算法 + Jcseg 獨創的優化算法,七種切分模式。

  關鍵字提?。夯趖extRank算法。

  關鍵短語提?。夯趖extRank算法。

  關鍵句子提取:基于textRank算法。

  文章自動摘要:基于BM25+textRank算法。

  自動詞性標注:基于詞庫+(統計歧義去除計劃),目前效果不是很理想,對詞性標注結果要求較高的應用不建議使用。

  命名實體標注:基于詞庫+(統計歧義去除計劃),電子郵件,網址,大陸手機號碼,地名,人名,貨幣,datetime時間,長度,面積,距離單位等。

  Restful api:嵌入jetty提供了一個絕對高性能的server模塊,包含全部功能的http接口,標準化json輸出格式,方便各種語言客戶端直接調用。

Jcseg

【軟件特色】

  支持自定義詞庫。在lexicon文件夾下,可以隨便添加/刪除/更改詞庫和詞庫內容,并且對詞庫進行了分類。

  支持詞庫多目錄加載. 配置lexicon.path中使用';'隔開多個詞庫目錄.

  詞庫分為簡體/繁體/簡繁體混合詞庫: 可以專門適用于簡體切分, 繁體切分, 簡繁體混合切分, 并且可以利用下面提到的同義詞實現,簡繁體的相互檢索, Jcseg同時提供了詞庫兩個簡單的詞庫管理工具來進行簡繁體的轉換和詞庫的合并。

  中英文同義詞追加/同義詞匹配 + 中文詞條拼音追加.詞庫整合了《現代漢語詞典》和cc-cedict辭典中的詞條,并且依據cc-cedict詞典為詞條標上了拼音,依據《中華同義詞詞典》為詞條標上了同義詞(尚未完成)。更改jcseg.properties配置文檔可以在分詞的時候加入拼音和同義詞到分詞結果中。

  中文數字和中文分數識別,例如:"一百五十個人都來了,四十分之一的人。"中的"一百五十"和"四十分之一"。并且 Jcseg會自動將其轉換為阿拉伯數字加入到分詞結果中。如:150, 1/40。

  支持中英混合詞和英中混合詞的識別(維護詞庫可以識別任何一種組合)。例如:B超, x射線, 卡拉ok, 奇都KTV, 哆啦a夢。

  支持英文的類中文切分,同樣使用mmseg算法來消除歧義,例如:“openarkcompiler”會被切分成:“open ark compiler”,該功能也可以被關閉。

軟件特別說明

標簽: Jcseg Jcseg分詞器 Java分詞

其他版本下載
網友評論
回頂部 去下載

關于本站|下載幫助|下載聲明|軟件發布|聯系我們

Copyright ? 2005-2024 m.obymc.com.All rights reserved.

浙ICP備2024132706號-1 浙公網安備33038102330474號