java文本處理之計算文本句子數(shù)
本文實例為大家分享了java計算文本句子數(shù)的具體代碼,供大家參考,具體內(nèi)容如下
1、任務簡介
本節(jié)任務是計算文本中的句子數(shù),并且對于句子數(shù)的劃分標準為“?!?“!”和“?”三種符號。
2、基本任務和代碼
1)具體思路
(1)首先需要使用InputStreamReader類和BufferedReader類實現(xiàn)文本的讀取,由于我使用的文本文檔均為utf-8編碼,所以還需要指定編碼格式為utf-8;
(2)然后需要定義一個空的字符串變量,在對文本逐行讀出后將讀出的內(nèi)容追加到該空字符串后;
(3)逐行讀出文檔,然后使用for循環(huán)對該行中的每一個字符進行遍歷,使用toString()方法得到每一個字符,再使用if語句和equals()方法字符是否為“。” “!”和“?”三種符號之一,若為其中之一則句子數(shù)+1;
(4)將計算得出的句子長度打印出來;
2)任務代碼
程序保存為juzi1.java,代碼如下:
import java.io.*;//導入java.io包中的所有類 import java.util.Scanner;//導入java.util包中的Scanner類 public class juzi1 {//類名 public static void main(String[] args) {//程序主函數(shù) try {//try代碼塊,當發(fā)生異常時會轉(zhuǎn)到catch代碼塊中 //讀取指定的文件 Scanner s = new Scanner(System.in);//創(chuàng)建scanner,控制臺會一直等待輸入,直到敲回車結(jié)束 System.out.println("請輸入想要打開的文本文檔:");//輸入提示信息 String a = s.nextLine();//定義字符串變量,并賦值為用戶輸入的信息 //創(chuàng)建類進行文件的讀取,并指定編碼格式為utf-8 InputStreamReader read = new InputStreamReader(new FileInputStream(a),"utf-8"); BufferedReader in = new BufferedReader(read);//可用于讀取指定文件 StringBuffer b = new StringBuffer();//定義一個字符串變量b,便于后續(xù)進行內(nèi)容追加的操作 String str = null;//定義一個字符串類型變量str String d = null;//定義一個字符串類型變量c int e = 0;//定義一個int型變量,用于統(tǒng)計句子數(shù) while((str = in.readLine()) != null) {//readLine()方法, 用于讀取一行,只要讀取內(nèi)容不為空就一直執(zhí)行 b.append(str);//將該行內(nèi)容追加到字符串b的后面 for (int j = 0; j < str.length(); j++) {//for循環(huán)的條件,當j小于該行長度時就一直循環(huán)并自增 d = Character.toString(str.charAt(j));//返回一個字符串對象 if (d.equals("。")||d.equals("?")||d.equals("!")) {//if語句的條件,判斷是否為句子 e++;//若為一句則e自增一次 } } } in.close();//關閉流 System.out.println("該文本共有"+e+"個句子");//輸出總的句子數(shù) } catch (IOException e) {//當try代碼塊有異常時轉(zhuǎn)到catch代碼塊 e.printStackTrace();//printStackTrace()方法是打印異常信息在程序中出錯的位置及原因 } } }
3)運行結(jié)果
(1)所有文件均保存在路徑D:\demo7下,首先對一個簡單的文本文檔(格式為utf-8)的句子數(shù)進行計算,該文本文檔命名為 lsy.txt,內(nèi)容如下:
從中可以看出該文本文檔中共有4句話,然后在命令行中對程序進行編譯,并運行程序讀取該txt文檔,計算結(jié)果如下:
(2)最后在命令行下使用該程序?qū)υ妗段饔斡洝穞xt文檔進行計算,計算結(jié)果如下:
由此可以計算得出我使用的《西游記》文檔共含有30804個句子。
3、總結(jié)
通過該程序可以計算出文本的總句子數(shù),對于文本的的處理具有重要的意義,由于博主水平有限,故文章中的錯誤之處懇請各位讀者指正,博主對此不勝感激。
以上就是本文的全部內(nèi)容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。
相關文章
hutool實戰(zhàn):IoUtil 流操作工具類(將內(nèi)容寫到流中)
這篇文章主要介紹了Go語言的io.ioutil標準庫使用,是Golang入門學習中的基礎知識,需要的朋友可以參考下,如果能給你帶來幫助,請多多關注腳本之家的其他內(nèi)容2021-06-06maven如何動態(tài)統(tǒng)一修改版本號的方法步驟
這篇文章主要介紹了maven如何動態(tài)統(tǒng)一修改版本號的方法步驟,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2020-12-12IDEA項目啟動時Flyway數(shù)據(jù)庫遷移中的checksum不匹配問題及最新解決方案
面對IDEA項目啟動時報出的Flyway遷移校驗和不匹配問題,核心在于保持遷移腳本的一致性、正確管理和理解Flyway的工作機制,本文介紹IDEA項目啟動時Flyway數(shù)據(jù)庫遷移中的checksum不匹配問題及最新解決方案,感興趣的朋友一起看看吧2024-01-01SpringCloud gateway request的body驗證或修改方式
這篇文章主要介紹了SpringCloud gateway request的body驗證或修改方式,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2021-07-07MyBatis映射文件中parameterType與resultType的用法詳解
MyBatis中的ParameterType指的是SQL語句中的參數(shù)類型,即傳入SQL語句中的參數(shù)的類型,下面這篇文章主要給大家介紹了關于MyBatis映射文件中parameterType與resultType用法的相關資料,需要的朋友可以參考下2023-04-04SpringCloud-Gateway轉(zhuǎn)發(fā)WebSocket失敗問題及解決
這篇文章主要介紹了SpringCloud-Gateway轉(zhuǎn)發(fā)WebSocket失敗問題及解決方案,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2023-09-09