廈門IT培訓
美國上市IT培訓機構

13429669395

熱門課程

如何在java中去除中文文本的停用詞

  • 時間:2020-03-03 16:40
  • 發布:廈門達內IT培訓
  • 來源:知識入門

  1. 整體思路

第一步:先將中文文本進行分詞,這里使用的HanLP-漢語言處理包進行中文文本分詞。

第二步:使用停用詞表,去除分好的詞中的停用詞。

2. 中文文本分詞環境配置

使用的HanLP-漢語言處理包進行中文文本分詞。

·HanLP-漢語言處理包下載,可以去github上下載

·HanLP 的環境配置有兩種方式:方式一、Maven;方式二、下載jar、data、hanlp.properties。

·官方環境配置步驟也可以在github上查詢到。

·環境配置好后,java使用HanLP進行中文分詞文檔如下:hanlp.linrunsoft.com/doc.html

3. 下載停用詞表

停用詞表可以去百度或者其他搜索引擎檢索一份,很容易就找到!

4. 去除停用詞工具類

使用這個工具類的之前,請先完成中文文本分詞環境配置,并測試一下。停用詞 .txt 文件路徑請修改為自己的本地路徑。

5. 工具類測試

5.1 測試代碼

public class test {

public static void main(String args[]) {

try {

System.out.println(FormatUtil.RemovalOfStopWords("床前明月光,疑是地上霜。舉頭望明月,低頭思故鄉。"));

} catch (IOException e) {

e.printStackTrace();

}

}

5.2 測試結果 

預約申請免費試聽課

怕錢不夠?就業掙錢后再付學費!    怕學不會?從入學起,達內定制課程!     擔心就業?達內多家實踐企業供你挑選!

上一篇:七點建議助您寫出優雅的Java代碼
下一篇:如果你打算在2020年學習Java,千萬不能錯過這幾本書

普及Java學習中的常量有哪些?

如果你打算在2020年學習Java,千萬不能錯過這幾本書

如何在java中去除中文文本的停用詞

七點建議助您寫出優雅的Java代碼

選擇城市和中心
江西省

貴州省

廣西省

海南省

深夜办公室完整版在线观看