亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

java中文分詞之正向最大匹配法實(shí)例代碼

 更新時(shí)間:2017年11月02日 10:57:26   作者:xiaoyeyopulei  
中文分詞應(yīng)用很廣泛,網(wǎng)上也有很多開源項(xiàng)目,下面這篇文章主要給大家介紹了關(guān)于java中文分詞之正向最大匹配法的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),需要的朋友可以參考借鑒,下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧。

前言

基于詞典的正向最大匹配算法(最長詞優(yōu)先匹配),算法會(huì)根據(jù)詞典文件自動(dòng)調(diào)整最大長度,分詞的好壞完全取決于詞典。

所謂詞典正向最大匹配就是將一段字符串進(jìn)行分隔,其中分隔 的長度有限制,然后將分隔的子字符串與字典中的詞進(jìn)行匹配,如果匹配成功則進(jìn)行下一輪匹配,直到所有字符串處理完畢,否則將子字符串從末尾去除一個(gè)字,再進(jìn)行匹配,如此反復(fù)。

算法流程圖如下:

下面給大家主要講一下中文分詞里面算法的簡單實(shí)現(xiàn),廢話不多說了,現(xiàn)在先上代碼

示例代碼

package com; 
 
 
import java.util.ArrayList; 
import java.util.List; 
 
 
public class Segmentation1 { 
 private List<String> dictionary = new ArrayList<String>(); 
 private String request = "北京大學(xué)生前來應(yīng)聘"; 
 
 public void setDictionary() { 
 dictionary.add("北京"); 
 dictionary.add("北京大學(xué)"); 
 dictionary.add("大學(xué)"); 
 dictionary.add("大學(xué)生"); 
 dictionary.add("生前"); 
 dictionary.add("前來"); 
 dictionary.add("應(yīng)聘"); 
 } 
 
 public String leftMax() { 
 String response = ""; 
 String s = ""; 
 for(int i=0; i<request.length(); i++) { 
  s += request.charAt(i); 
  if(isIn(s, dictionary) && aheadCount(s, dictionary)==1) { 
  response += (s + "/"); 
  s = ""; 
  } else if(aheadCount(s, dictionary) > 0) { 
   
  } else { 
  response += (s + "/"); 
  s = ""; 
  } 
 } 
 return response; 
 } 
 
 private boolean isIn(String s, List<String> list) { 
 for(int i=0; i<list.size(); i++) { 
  if(s.equals(list.get(i))) return true; 
 } 
 return false; 
 } 
 
 private int aheadCount(String s, List<String> list) { 
 int count = 0; 
 for(int i=0; i<list.size(); i++) { 
  if((s.length()<=list.get(i).length()) && (s.equals(list.get(i).substring(0, s.length())))) count ++; 
 } 
 return count; 
 } 
 
 public static void main(String[] args) { 
 Segmentation1 seg = new Segmentation1(); 
 seg.setDictionary(); 
 String response1 = seg.leftMax(); 
 System.out.println(response1); 
 } 
} 

可以看到運(yùn)行結(jié)果是:北京大學(xué)/生前/來/應(yīng)聘/

算法的核心就是從前往后搜索,然后找到最長的字典分詞。

總結(jié)

以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,如果有疑問大家可以留言交流,謝謝大家對腳本之家的支持。

相關(guān)文章

最新評論