亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

使用java編寫一個字符串詞頻統(tǒng)計工具

 更新時間:2025年06月12日 11:01:43   作者:風輕云淡的開發(fā)  
許多培訓機構都會出幾本高頻詞匯的書,主要內(nèi)容是統(tǒng)計近幾年來各類考試中屢次出現(xiàn)的高頻詞匯,幫助考生減少需要背的生詞的數(shù)量,下面我們來看看如何使用java編寫一個字符串詞頻統(tǒng)計工具吧

許多英語培訓機構(如新東方)都會出幾本“高頻詞匯”的書,主要內(nèi)容是統(tǒng)計近幾年來各類外語考試中屢次出現(xiàn)的高頻詞匯,幫助考生減少需要背的生詞的數(shù)量。但這些高頻是如何被統(tǒng)計出來的呢?顯然不會用手工去計算。

假如我們已經(jīng)將一篇文章存在一字符串(String)對象中,為了統(tǒng)計詞匯出現(xiàn)頻率,最簡單直接的做法是另外建一個Map:key是單詞,value是 次數(shù)。將文章從頭讀到尾,讀到一個單詞就到Map里查一下,如果查到了則次數(shù)加一,沒查到則往Map里一扔。

/**
 * Java中提供一個非常棒的HashMap函數(shù),只需要一步就可以統(tǒng)計單詞的頻率
 */


import java.util.HashMap;

public class WordMap {

	public static void main(String[] args) {
		String input = "a1,b2,3c,d4d,a1,b2,a1";
		String[] ws = input.split(",");
		// 做的單詞分割,
		// 如果你要空格分割 String[] ws = input.split(" ");
		HashMap<String, Integer> hm = new HashMap<String, Integer>();
		// 初始化HashMap
		for (String s : ws) {
			if (s.matches("[a-zA-Z]\\w+"))
			// 這里是一個正則表達式,
			// 判斷的是第一個必須是字母,
			// 后面的是一個字母或多個字母,
			// 一個數(shù)字或多個數(shù)字
			{
				Integer cou = hm.get(s);
				// get()方法將產(chǎn)生一個與鍵相關聯(lián)的Integer值,
				// 然后這個值被遞增,為的是記錄標識符的個數(shù)
				hm.put(s, cou == null ? 1 : cou + 1);
				// 保存到HashMap中以單詞做key,判斷單詞是否為空,空為1,或則加1
			}
		}
		System.out.println(hm);
		// 打印HashMap
	}
}

這樣做雖然代碼寫起來簡單,但性能卻非常差。首先查詢Map的代價是O(logn),假設文章的字母數(shù)為m,則整個統(tǒng)計程序的時間復雜度為O(mlogn)不說,如果要拿高頻詞可能還需要對統(tǒng)計結果進行排序。即便對結構上進行優(yōu)化性能仍然不高。如果能夠將時間復雜度從O(mlogn)減少到O(m)的話不是更好?

為了改進算法我們首先引進單詞樹。與單詞前綴樹不同,單詞樹的結構相當簡單,結構如圖所示:

從圖中我們可以看出,樹中每個結點保存屬性值cnt與指向其26個子結點的指針(每一條路徑代表一個英文字母),其中cnt為到達該結點經(jīng)過路 徑所對應的英文單詞在文章中出現(xiàn)的次數(shù)。也就是說,我們開始讀文章時讓一個指針指向單詞數(shù)的根結點,之后每讀一個字母就讓該指針指向當前結點對應路徑上的子結點(若子結點為空則新建一個),一個單詞讀完后讓當前結點的cnt值加一,并讓指針重新指向根結點。而當一篇文章讀完之后我們的單詞樹也就已經(jīng)建立完 畢了。之后只要去遍歷它并把取到的單詞根據(jù)次數(shù)進行排序就行了(時間復雜度為O(nlogn))。

程序代碼如下,

首先是存放單詞及出現(xiàn)次數(shù)的JavaBean

public class WordCount {
    private String word;
    
    private int count;
    public int getCount() {
        return count;
    }
    public void setCount(int count) {
        this.count = count;
    }
    public String getWord() {
        return word;
    }
    public void setWord(String word) {
        this.word = word;
    }
}

其次是實現(xiàn)詞頻表生成算法的類:

public class WordCountService {
    
    /**
     * 根據(jù)文章生成單詞樹
     * @param text
     * @return
     */
    private static CharTreeNode geneCharTree(String text){
        CharTreeNode root = new CharTreeNode();
        CharTreeNode p = root;
        char c = ' ';
        for(int i = 0; i < text.length(); ++i){
            c = text.charAt(i);
            if(c >= 'A' && c <= 'Z')
                c = (char)(c + 'a' - 'A');
            if(c >= 'a' && c <= 'z'){
                if(p.children[c-'a'] == null)
                    p.children[c-'a'] = new CharTreeNode();
                p = p.children[c-'a'];
            }
            else{
                p.cnt ++;
                p = root;
            }
        }
        if(c >= 'a' && c <= 'z')
            p.cnt ++;
        return root;
    }
    
    /**
     * 使用深度優(yōu)先搜索遍歷單詞樹并將對應單詞放入結果集中
     * @param result
     * @param p
     * @param buffer
     * @param length
     */
    private static void getWordCountFromCharTree(List result,CharTreeNode p, char[] buffer, int length){
        for(int i = 0; i < 26; ++i){
            if(p.children[i] != null){
                buffer[length] = (char)(i + 'a');
                if(p.children[i].cnt > 0){
                    WordCount wc = new WordCount();
                    wc.setCount(p.children[i].cnt);
                    wc.setWord(String.valueOf(buffer, 0, length+1));
                    result.add(wc);
                }
                getWordCountFromCharTree(result,p.children[i],buffer,length+1);
            }
        }
    }
    
    private static void getWordCountFromCharTree(List result,CharTreeNode p){
        getWordCountFromCharTree(result,p,new char[100],0);
    }
    
    /**
     * 得到詞頻表的主算法,供外部調用
     * @param article
     * @return
     */
    public static List getWordCount(String article){
        CharTreeNode root = geneCharTree(article);
        List result = new ArrayList();//此處也可用LinkedList鏈表,以避免數(shù)組滿了擴容導致的性能損失
        getWordCountFromCharTree(result,root);
        Collections.sort(result, new Comparator(){
            public int compare(Object o1, Object o2) {
                WordCount wc1 = (WordCount)o1;
                WordCount wc2 = (WordCount)o2;
                return wc2.getCount() - wc1.getCount();
            }
        });
        return result;
    }
}
/**
 * 單詞樹結點的定義
 * @author FlameLiu
 *
 */
class CharTreeNode{
    int cnt = 0;
    CharTreeNode[] children = new CharTreeNode[26];
}

到此這篇關于使用java編寫一個字符串詞頻統(tǒng)計工具的文章就介紹到這了,更多相關java詞頻統(tǒng)計內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

相關文章

  • Java實現(xiàn)刪除排序鏈表中的重復元素的方法

    Java實現(xiàn)刪除排序鏈表中的重復元素的方法

    這篇文章主要介紹了Java實現(xiàn)刪除排序鏈表中的重復元素的方法,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2020-02-02
  • Java數(shù)據(jù)結構之鏈表的增刪查改詳解

    Java數(shù)據(jù)結構之鏈表的增刪查改詳解

    今天帶大家來學習Java鏈表的增刪改查的相關知識,文中有非常詳細的代碼示例,對正在學習Java的小伙伴們有很好的幫助,需要的朋友可以參考下
    2021-05-05
  • Java解析xml的四種方法匯總

    Java解析xml的四種方法匯總

    XML在不同的語言里解析方式都是一樣的,只不過實現(xiàn)的語法不同而已。java中基本的解析方式有四種,DOM解析、sax解析、JDOM解析和DOM4J解析,下面我們就來詳細探討下這四種方式
    2016-05-05
  • 2020 IDEA安裝教程與激活(idea2020激活碼)

    2020 IDEA安裝教程與激活(idea2020激活碼)

    這篇文章主要介紹了2020 IDEA安裝教程與激活(idea2020激活碼),本文通過圖文并茂的形式給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2020-11-11
  • 詳解設計模式在Spring中的應用(9種)

    詳解設計模式在Spring中的應用(9種)

    這篇文章主要介紹了詳解設計模式在Spring中的應用(9種),詳細的介紹了這9種模式在項目中的應用,具有一定的參考價值,感興趣的可以了解一下
    2019-04-04
  • JAVA使用DBUtils操作數(shù)據(jù)庫

    JAVA使用DBUtils操作數(shù)據(jù)庫

    這篇文章主要介紹了JAVA使用DBUtils操作數(shù)據(jù)庫的相關資料,文中示例代碼非常詳細,幫助大家學習JAVA,感興趣的朋友可以了解下
    2020-07-07
  • Spring Boot項目中結合MyBatis實現(xiàn)MySQL的自動主從切換功能

    Spring Boot項目中結合MyBatis實現(xiàn)MySQL的自動主從切換功能

    這篇文章主要介紹了Spring Boot項目中結合MyBatis實現(xiàn)MySQL的自動主從切換功能,本文分步驟給大家介紹的非常詳細,感興趣的朋友一起看看吧
    2025-04-04
  • 關于Spring中@Transactional事務回滾的注意事項

    關于Spring中@Transactional事務回滾的注意事項

    這篇文章主要介紹了關于Spring中@Transactional事務回滾的注意事項,回滾(Rollback)指的是程序或數(shù)據(jù)處理錯誤,將程序或數(shù)據(jù)恢復到上一次正確狀態(tài)的行為?;貪L包括程序回滾和數(shù)據(jù)回滾等類型,需要的朋友可以參考下
    2023-05-05
  • maven國內(nèi)鏡像配置的方法步驟

    maven國內(nèi)鏡像配置的方法步驟

    這篇文章主要介紹了maven國內(nèi)鏡像配置的方法步驟,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2020-07-07
  • Java之如何截取視頻第一幀

    Java之如何截取視頻第一幀

    這篇文章主要介紹了Java之如何截取視頻第一幀問題,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2023-06-06

最新評論