亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Java實(shí)現(xiàn)的最大匹配分詞算法詳解

 更新時(shí)間:2017年09月19日 10:08:53   作者:送人玫瑰手留余香  
這篇文章主要介紹了Java實(shí)現(xiàn)的最大匹配分詞算法,簡(jiǎn)單說(shuō)明了最大匹配分詞算法的原理并結(jié)合具體實(shí)例形式最大匹配分詞算法的實(shí)現(xiàn)方法與相關(guān)注意事項(xiàng),需要的朋友可以參考下

本文實(shí)例講述了Java實(shí)現(xiàn)的最大匹配分詞算法。分享給大家供大家參考,具體如下:

全文檢索有兩個(gè)重要的過(guò)程:

1分詞

2倒排索引

我們先看分詞算法

目前對(duì)中文分詞有兩個(gè)方向,其中一個(gè)是利用概率的思想對(duì)文章分詞。 也就是如果兩個(gè)字,一起出現(xiàn)的頻率很高的話,我們可以假設(shè)這兩個(gè)字是一個(gè)詞。這里可以用一個(gè)公式衡量:M(A,B)=P(AB)/P(A)P(B),其中 A表示一個(gè)字,B表示一個(gè)字,P(AB)表示AB相鄰出現(xiàn)的概率,P(A)表示A在這篇文章中的頻度,P(B)表示B在這篇文章中的頻度。用概率分詞的好 處是不需要借助詞典的幫助,壞處是算法比較麻煩,效率不高,也存在一定的出錯(cuò)率。

另外的一個(gè)方向是使用詞典分詞。就是事先為程序準(zhǔn)備一個(gè)詞典,然后通過(guò)這個(gè)詞典對(duì)文章分詞。目前較流行的方式有正向最大匹配算法和逆向最大匹配算法。逆向最大匹配算法在準(zhǔn)確性上要更好一些。

以 “我是一個(gè)壞人” 為例,并最大詞長(zhǎng)為3,詞庫(kù)包含有 我、是、一、個(gè)、一個(gè)、壞人、大壞人

正向的順序?yàn)?/strong>

我是一
我是
我 ===> 得到一個(gè)詞
是一個(gè)
是一
是 ===>得到一個(gè)詞
一個(gè)壞
一個(gè)===> 得到一個(gè)詞
壞人===>得到一個(gè)詞

結(jié)果 我、是、一個(gè)、壞人

反向算法

個(gè)壞人
壞人==> 壞人
是一個(gè)
一個(gè)==> 一個(gè)
我是
是==> 是
我==> 我

結(jié)果 我、是、一個(gè)、壞人

java代碼如下

package data;
import java.util.Arrays;
import java.util.HashSet;
import java.util.Set;
/**
 * 最大匹配分詞算法
 *
 * @author JYC506
 *
 */
public class SplitString {
 private Set<String> set = new HashSet<String>();
 private int positiveOver = 0;
 private int reverseOver = 0;
 /**
  * 正向最大匹配
  *
  * @param str 要分詞的句子
  * @param num 詞的最大長(zhǎng)度
  * @return
  */
 public String[] positiveSplit(String str, int maxSize) {
  int tem = 0;
  int length = str.length();
  String[] ss = new String[length];
  char[] cc = str.toCharArray();
  for (int i = 0; i < length; i++) {
   positiveOver = 0;
   String sb = this.toStr(cc, i, maxSize);
   ss[tem++] = sb;
   i = i + positiveOver;
  }
  String[] ss2 = new String[tem];
  System.arraycopy(ss, 0, ss2, 0, tem);
  return ss2;
 }
 /**
  * 添加詞庫(kù)
  *
  * @param words
  */
 public void addWord(String[] words) {
  for (String st : words) {
   this.set.add(st);
  }
 }
 /**
  * 逆向最大匹配
  *
  * @param str
  * @param num
  * @return
  */
 public String[] reverseSplit(String str, int num) {
  int tem = 0;
  int length = str.length();
  String[] ss = new String[length];
  char[] cc = str.toCharArray();
  for (int i = str.length() - 1; i > -1; i--) {
   reverseOver = 0;
   String sb = this.toStr2(cc, i, num);
   tem++;
   ss[--length] = sb;
   i = i - reverseOver;
  }
  String[] ss2 = new String[tem];
  System.arraycopy(ss, str.length() - tem, ss2, 0, tem);
  return ss2;
 }
 private String toStr(char[] cs, int start, int num) {
  int num2 = num;
  out: for (int j = 0; j < num; j++) {
   StringBuffer sb = new StringBuffer();
   for (int i = 0; i < num2; i++) {
    if (start + i < cs.length) {
     sb.append(cs[start + i]);
    } else {
     num2--;
     j--;
     continue out;
    }
   }
   if (set.contains(sb.toString())) {
    positiveOver = num2 - 1;
    return sb.toString();
   }
   num2--;
  }
  return String.valueOf(cs[start]);
 }
 private String toStr2(char[] cs, int start, int num) {
  int num2 = num;
  for (int j = 0; j < num; j++) {
   StringBuffer sb = new StringBuffer();
   for (int i = 0; i < num2; i++) {
    int index = start - num2 + i + 1;
    if (index > -1) {
     sb.append(cs[index]);
    } else {
     num2--;
    }
   }
   if (set.contains(sb.toString())) {
    reverseOver = num2 - 1;
    return sb.toString();
   }
   num2--;
  }
  return String.valueOf(cs[start]);
 }
 public static void main(String[] args) {
  String[] words = new String[] { "我們", "我們五人", "五人一組", "一組" };
  SplitString ss = new SplitString();
  /*添加詞到詞庫(kù)*/
  ss.addWord(words);
  String st = "我們五人一組";
  System.out.println("腳本之家測(cè)試結(jié)果:");
  System.out.println("要分詞的句子:" + st);
  /*使用兩種方式分詞,下面我指定最大詞長(zhǎng)度為4*/
  String[] ss2 = ss.reverseSplit(st, 4);
  String[] ss1 = ss.positiveSplit(st, 4);
  System.out.println("正向最大匹配分詞算法分詞結(jié)果:" + Arrays.toString(ss1));
  System.out.println("逆向最大匹配分詞算法分詞結(jié)果:" + Arrays.toString(ss2));
 }
}

更多關(guān)于java算法相關(guān)內(nèi)容感興趣的讀者可查看本站專題:《Java數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Java字符與字符串操作技巧總結(jié)》、《Java操作DOM節(jié)點(diǎn)技巧總結(jié)》、《Java文件與目錄操作技巧匯總》和《Java緩存操作技巧匯總

希望本文所述對(duì)大家java程序設(shè)計(jì)有所幫助。

相關(guān)文章

  • Google Guava 緩存工具使用詳解

    Google Guava 緩存工具使用詳解

    這篇文章主要介紹了Guava自加載緩存LoadingCache使用指南,通過(guò)這些內(nèi)容介紹,了解了LoadingCache的基本原理和用法,包括如何創(chuàng)建和配置緩存,以及如何結(jié)合Java?8的特性來(lái)優(yōu)化代碼,需要的朋友可以參考下
    2023-12-12
  • 使用Java 實(shí)現(xiàn)一個(gè)“你畫手機(jī)猜”的小游戲

    使用Java 實(shí)現(xiàn)一個(gè)“你畫手機(jī)猜”的小游戲

    這篇文章主要介紹了使用Java 實(shí)現(xiàn)一個(gè)“你畫手機(jī)猜”的小游戲,本文通過(guò)示例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-09-09
  • 一文搞懂spring boot本地事務(wù)@Transactional參數(shù)

    一文搞懂spring boot本地事務(wù)@Transactional參數(shù)

    這篇文章主要介紹了spring boot本地事務(wù)@Transactional參數(shù)詳解,本文通過(guò)示例代碼圖文相結(jié)合給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2021-10-10
  • SpringBoot實(shí)現(xiàn)版本升級(jí)到2.7.18

    SpringBoot實(shí)現(xiàn)版本升級(jí)到2.7.18

    這篇文章主要介紹了SpringBoot實(shí)現(xiàn)版本升級(jí)到2.7.18全過(guò)程,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2024-08-08
  • Java中使用patchca生成超炫的驗(yàn)證碼

    Java中使用patchca生成超炫的驗(yàn)證碼

    這篇文章主要介紹了Java中使用patchca生成超炫的驗(yàn)證碼 的相關(guān)資料,需要的朋友可以參考下
    2017-06-06
  • Java Character類對(duì)單個(gè)字符操作原理解析

    Java Character類對(duì)單個(gè)字符操作原理解析

    這篇文章主要介紹了Java Character類對(duì)單個(gè)字符操作原理解析,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-03-03
  • SpringSecurity 默認(rèn)表單登錄頁(yè)展示流程源碼

    SpringSecurity 默認(rèn)表單登錄頁(yè)展示流程源碼

    本篇主要講解 SpringSecurity提供的默認(rèn)表單登錄頁(yè) 它是如何展示流程,本文圖文并茂給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友參考下吧
    2020-01-01
  • Java編程二項(xiàng)分布的遞歸和非遞歸實(shí)現(xiàn)代碼實(shí)例

    Java編程二項(xiàng)分布的遞歸和非遞歸實(shí)現(xiàn)代碼實(shí)例

    這篇文章主要介紹了Java編程二項(xiàng)分布的遞歸和非遞歸實(shí)現(xiàn)代碼實(shí)例,小編覺(jué)得還是挺不錯(cuò)的,具有一定借鑒價(jià)值,需要的朋友可以參考下
    2018-01-01
  • springboot]logback日志框架配置教程

    springboot]logback日志框架配置教程

    這篇文章主要介紹了springboot]logback日志框架配置,logback既可以通過(guò)application配置文件進(jìn)行日志的配置,又可以通過(guò)logback-spring.xml進(jìn)行日志的配置,本文給大家介紹的非常詳細(xì),需要的朋友參考下吧
    2022-04-04
  • Springboot工具類FileCopyUtils使用教程

    Springboot工具類FileCopyUtils使用教程

    這篇文章主要介紹了Springboot內(nèi)置的工具類之FileCopyUtils的使用,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)吧
    2022-12-12

最新評(píng)論