java文本處理之計(jì)算文本句子數(shù)

更新時(shí)間：2019年08月06日 08:29:38 作者：羅思洋

這篇文章主要為大家詳細(xì)介紹了java文本處理之計(jì)算文本句子數(shù)，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下

本文實(shí)例為大家分享了java計(jì)算文本句子數(shù)的具體代碼，供大家參考，具體內(nèi)容如下

1、任務(wù)簡(jiǎn)介

本節(jié)任務(wù)是計(jì)算文本中的句子數(shù)，并且對(duì)于句子數(shù)的劃分標(biāo)準(zhǔn)為“?！?“！”和“？”三種符號(hào)。

2、基本任務(wù)和代碼

1）具體思路

（1）首先需要使用InputStreamReader類和BufferedReader類實(shí)現(xiàn)文本的讀取，由于我使用的文本文檔均為utf-8編碼，所以還需要指定編碼格式為utf-8；

（2）然后需要定義一個(gè)空的字符串變量，在對(duì)文本逐行讀出后將讀出的內(nèi)容追加到該空字符串后；

（3）逐行讀出文檔，然后使用for循環(huán)對(duì)該行中的每一個(gè)字符進(jìn)行遍歷，使用toString（）方法得到每一個(gè)字符，再使用if語句和equals（）方法字符是否為“。” “！”和“？”三種符號(hào)之一，若為其中之一則句子數(shù)+1；

（4）將計(jì)算得出的句子長(zhǎng)度打印出來；

2）任務(wù)代碼

程序保存為juzi1.java，代碼如下：

import java.io.*;//導(dǎo)入java.io包中的所有類
import java.util.Scanner;//導(dǎo)入java.util包中的Scanner類
public class juzi1 {//類名
 public static void main(String[] args) {//程序主函數(shù)
  try {//try代碼塊，當(dāng)發(fā)生異常時(shí)會(huì)轉(zhuǎn)到catch代碼塊中
   //讀取指定的文件
   Scanner s = new Scanner(System.in);//創(chuàng)建scanner，控制臺(tái)會(huì)一直等待輸入，直到敲回車結(jié)束
   System.out.println("請(qǐng)輸入想要打開的文本文檔：");//輸入提示信息
   String a = s.nextLine();//定義字符串變量，并賦值為用戶輸入的信息
   //創(chuàng)建類進(jìn)行文件的讀取，并指定編碼格式為utf-8
   InputStreamReader read = new InputStreamReader(new FileInputStream(a),"utf-8"); 
   BufferedReader in = new BufferedReader(read);//可用于讀取指定文件  
 StringBuffer b = new StringBuffer();//定義一個(gè)字符串變量b，便于后續(xù)進(jìn)行內(nèi)容追加的操作
 String str = null;//定義一個(gè)字符串類型變量str
 String d = null;//定義一個(gè)字符串類型變量c
 int e = 0;//定義一個(gè)int型變量，用于統(tǒng)計(jì)句子數(shù)
 while((str = in.readLine()) != null) {//readLine()方法, 用于讀取一行,只要讀取內(nèi)容不為空就一直執(zhí)行
 b.append(str);//將該行內(nèi)容追加到字符串b的后面
 for (int j = 0; j < str.length(); j++) {//for循環(huán)的條件，當(dāng)j小于該行長(zhǎng)度時(shí)就一直循環(huán)并自增
    d = Character.toString(str.charAt(j));//返回一個(gè)字符串對(duì)象
    if (d.equals("。")||d.equals("？")||d.equals("！")) {//if語句的條件，判斷是否為句子
      e++;//若為一句則e自增一次
     }
  }
 }
   in.close();//關(guān)閉流
   System.out.println("該文本共有"+e+"個(gè)句子");//輸出總的句子數(shù)
  } catch (IOException e) {//當(dāng)try代碼塊有異常時(shí)轉(zhuǎn)到catch代碼塊
   e.printStackTrace();//printStackTrace()方法是打印異常信息在程序中出錯(cuò)的位置及原因
  }
 }
}

3）運(yùn)行結(jié)果

（1）所有文件均保存在路徑D:\demo7下，首先對(duì)一個(gè)簡(jiǎn)單的文本文檔（格式為utf-8）的句子數(shù)進(jìn)行計(jì)算，該文本文檔命名為 lsy.txt，內(nèi)容如下：