欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Java實(shí)現(xiàn)讀取html文本內(nèi)容并按照格式導(dǎo)出到excel中

 更新時(shí)間:2024年02月03日 11:16:52   作者:醬學(xué)編程  
這篇文章主要為大家詳細(xì)介紹了如何使用Java實(shí)現(xiàn)讀取html文本提取相應(yīng)內(nèi)容按照格式導(dǎo)出到excel中,文中的示例代碼講解詳細(xì),需要的可以參考下

最近在做一個(gè)需求,需要將html文本中的內(nèi)容提取出來(lái),然后導(dǎo)出到excel里面,實(shí)現(xiàn)交代情景,html文本中存在許多標(biāo)簽,且很亂,因此需要之間將標(biāo)簽里面的文本提取出來(lái),再進(jìn)行處理。

            ............
        String text = Jsoup.parse(content).wholeText();
        // 解析字符串并將數(shù)據(jù)添加到表格
        String[] dataArray = text.split("\n");
        // 創(chuàng)建Excel工作簿和工作表
        Workbook workbook = new XSSFWorkbook();
        Sheet sheet = workbook.createSheet("Sheet");

        int rowNum = 0;
        Row row = null;

        for (String data : dataArray) {
        //對(duì)每一行數(shù)據(jù)進(jìn)行處理,插入到Sheet中
               ............
                row = sheet.createRow(rowNum++);
                // 創(chuàng)建新行并填充數(shù)據(jù)
                row.createCell(0).setCellValue(entry[0].trim());
                row.createCell(1).setCellValue(entry[1].trim());
        }

        // 導(dǎo)出Excel
             ............ 
    }

1.利用Jsoup解析HTML文檔

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.3</version> <!-- 版本號(hào)可能需要根據(jù)實(shí)際情況調(diào)整 -->
</dependency>

Jsoup(發(fā)音為 “jay-soup”)是一款用于解析HTML文檔、從HTML中提取數(shù)據(jù)和操作HTML的Java庫(kù)。它提供了簡(jiǎn)單而直觀的API,使得在Java中處理HTML變得非常容易。

Jsoup.parse(content).wholeText(); 這行代碼是使用Jsoup庫(kù)解析HTML內(nèi)容并提取其中的純文本信息。

1.Jsoup.parse(content): 這部分代碼使用Jsoup的parse方法,將傳入的content字符串解析為一個(gè)Jsoup的Document對(duì)象。Document對(duì)象表示整個(gè)HTML文檔。

2.wholeText(): 一旦解析為Document對(duì)象,然后調(diào)用wholeText()方法。這個(gè)方法用于獲取整個(gè)文檔的純文本內(nèi)容,即去除HTML標(biāo)簽后的文本信息。

解析出來(lái)的文檔里面包含了 /n 等轉(zhuǎn)義字符,可用于后續(xù)的字符處理

2.使用 Apache POI 庫(kù)創(chuàng)建Excel 文檔

<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi</artifactId>
    <version>5.2.0</version> <!-- 版本號(hào)可能需要根據(jù)實(shí)際情況調(diào)整 -->
</dependency>

<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-ooxml</artifactId>
    <version>5.2.0</version> <!-- 版本號(hào)可能需要根據(jù)實(shí)際情況調(diào)整 -->
</dependency>
   // 創(chuàng)建Excel工作簿和工作表
        Workbook workbook = new XSSFWorkbook();
        Sheet sheet = workbook.createSheet("Sheet");

Workbook 類:

Workbook 是 Apache POI 中表示 Excel 工作簿(Workbook)的接口。

在這里,通過(guò) new XSSFWorkbook() 創(chuàng)建了一個(gè) XSSFWorkbook 對(duì)象,XSSFWorkbook 是 Workbook 接口的一個(gè)實(shí)現(xiàn),用于處理基于 XML 格式的 .xlsx 文件(Excel 2007及以上版本)。

Sheet 類:

Sheet 是 Workbook 中的一個(gè)接口,表示 Excel 工作簿中的一個(gè)表單或工作表。

通過(guò) workbook.createSheet(“Sheet”) 創(chuàng)建了一個(gè)名為 “Sheet” 的工作表??梢酝ㄟ^(guò)不同的工作表名稱創(chuàng)建多個(gè)工作表,每個(gè)工作表包含一組行和列,用于組織和存儲(chǔ)數(shù)據(jù)。

這段代碼創(chuàng)建了一個(gè)空的 Excel 工作簿,其中包含一個(gè)名為 “Sheet” 的工作表。一旦創(chuàng)建了工作簿和工作表,你可以通過(guò) Apache POI 提供的 API 向工作表中添加數(shù)據(jù)、設(shè)置格式、創(chuàng)建圖表等。這樣你就能夠使用 Java 編程來(lái)生成、修改和操作 Excel 文檔。

3.按照一定規(guī)則插入表格數(shù)據(jù)

    row = sheet.createRow(rowNum++);
    // 創(chuàng)建新行并填充數(shù)據(jù)
    row.createCell(0).setCellValue(entry[0].trim());
    row.createCell(1).setCellValue(entry[1].trim());

4.導(dǎo)出excel

 /**
     * 將 Workbook 導(dǎo)出到 HttpServletResponse 輸出流
     *
     * @param workbook Excel Workbook 對(duì)象
     * @param fileName 導(dǎo)出文件名
     */
    public void exportToResponse(Workbook workbook, String fileName) {
        try {
            // 設(shè)置響應(yīng)頭
            httpServletResponse.setContentType("application/octet-stream");
            httpServletResponse.setHeader("Content-Disposition", "attachment; filename=" + fileName);

            // 將 Workbook 寫(xiě)入 HttpServletResponse 的輸出流
            workbook.write(httpServletResponse.getOutputStream());
            workbook.close();

            // 刷新響應(yīng)
            httpServletResponse.flushBuffer();
        } catch (IOException e) {
            // 處理異常
            log.error("導(dǎo)出文件{}失敗", fileName);
            throw new BusinessException(BusinessError.EXPORT_FILE_FAIL);
        }
    }

代碼解析:

httpServletResponse.setContentType(“application/octet-stream”);:

通過(guò) setContentType 方法設(shè)置響應(yīng)的內(nèi)容類型。在這里,設(shè)置為 application/octet-stream,表示二進(jìn)制流數(shù)據(jù)。這個(gè) MIME 類型通常用于下載文件,因?yàn)樗甘緸g覽器應(yīng)該處理響應(yīng)的數(shù)據(jù)作為二進(jìn)制流而不是嘗試解析它。

httpServletResponse.setHeader(“Content-Disposition”, “attachment; filename=” + fileName);:

通過(guò) setHeader 方法設(shè)置響應(yīng)頭的屬性。在這里,設(shè)置了 Content-Disposition 屬性。

Content-Disposition 屬性指示瀏覽器如何處理響應(yīng)體。在這個(gè)上下文中,attachment 表示要將響應(yīng)作為附件下載,而不是直接在瀏覽器中打開(kāi)。filename 參數(shù)用于指定下載的文件名。

filename= 后面的部分是具體的文件名,通常是服務(wù)器上的文件名或者用戶在下載時(shí)看到的文件名。

workbook.write(httpServletResponse.getOutputStream());:

使用 Excel Workbook 對(duì)象的 write 方法將 Workbook 寫(xiě)入 HttpServletResponse 的輸出流。這樣,Excel 數(shù)據(jù)就會(huì)以二進(jìn)制流的形式發(fā)送到客戶端。

workbook.close();

關(guān)閉 Workbook 對(duì)象,釋放資源。

httpServletResponse.flushBuffer();

刷新響應(yīng)的緩沖區(qū),確保所有的數(shù)據(jù)都被寫(xiě)入到輸出流。

以上就是Java實(shí)現(xiàn)讀取html文本內(nèi)容并按照格式導(dǎo)出到excel中的詳細(xì)內(nèi)容,更多關(guān)于Java讀取html文本內(nèi)容的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • Java下載Excel模板文件的簡(jiǎn)單實(shí)現(xiàn)方法

    Java下載Excel模板文件的簡(jiǎn)單實(shí)現(xiàn)方法

    這篇文章主要給大家介紹了關(guān)于Java下載Excel模板文件的簡(jiǎn)單實(shí)現(xiàn)方法,日常工作中可能經(jīng)常會(huì)涉及到用java開(kāi)發(fā)報(bào)表,需求比較多的就是表格類的報(bào)表導(dǎo)出,單元格合并,圖表的展現(xiàn),需要的朋友可以參考下
    2023-07-07
  • java使用電腦攝像頭識(shí)別二維碼

    java使用電腦攝像頭識(shí)別二維碼

    這篇文章主要為大家詳細(xì)介紹了java使用電腦攝像頭識(shí)別二維碼,從攝像頭獲取圖像,再根據(jù)圖片解析出二維碼信息,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2018-10-10
  • SpringBoot中實(shí)現(xiàn)訂單30分鐘自動(dòng)取消的項(xiàng)目實(shí)踐

    SpringBoot中實(shí)現(xiàn)訂單30分鐘自動(dòng)取消的項(xiàng)目實(shí)踐

    現(xiàn)在電子商務(wù)平臺(tái)上訂單創(chuàng)建成功,等待支付,一般會(huì)給30分鐘的時(shí)間,本文主要介紹了SpringBoot中實(shí)現(xiàn)訂單30分鐘自動(dòng)取消的項(xiàng)目實(shí)踐,具有一定的參考價(jià)值,感興趣的可以了解一下
    2023-10-10
  • 解析探秘fescar分布式事務(wù)實(shí)現(xiàn)原理

    解析探秘fescar分布式事務(wù)實(shí)現(xiàn)原理

    這篇文章主要為大家解析探秘fescar分布式事務(wù)的實(shí)現(xiàn)原理,fescar的txc模型實(shí)現(xiàn)非常有研究的價(jià)值,所以今天我們來(lái)好好翻一翻fescar項(xiàng)目的代碼
    2022-02-02
  • springboot2.0.0配置多數(shù)據(jù)源出現(xiàn)jdbcUrl is required with driverClassName的錯(cuò)誤

    springboot2.0.0配置多數(shù)據(jù)源出現(xiàn)jdbcUrl is required with driverClassN

    這篇文章主要介紹了springboot2.0.0配置多數(shù)據(jù)源出現(xiàn)jdbcUrl is required with driverClassName的錯(cuò)誤,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2020-11-11
  • Spring Boot加密配置文件特殊內(nèi)容的示例代碼詳解

    Spring Boot加密配置文件特殊內(nèi)容的示例代碼詳解

    這篇文章主要介紹了Spring Boot加密配置文件特殊內(nèi)容的相關(guān)知識(shí),本文通過(guò)圖文并茂的形式給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-05-05
  • java查詢mongodb中的objectid示例

    java查詢mongodb中的objectid示例

    這篇文章主要介紹了java查詢mongodb中的objectid示例,需要的朋友可以參考下
    2014-04-04
  • Java攔截過(guò)濾器模式 (Intercepting Filter )實(shí)現(xiàn)方法

    Java攔截過(guò)濾器模式 (Intercepting Filter )實(shí)現(xiàn)方法

    攔截過(guò)濾器模式(Intercepting Filter Pattern)用于對(duì)應(yīng)用程序的請(qǐng)求或響應(yīng)做一些預(yù)處理/后處理,本文通過(guò)實(shí)例代碼介紹Java攔截過(guò)濾器模式 (Intercepting Filter )的相關(guān)知識(shí),感興趣的朋友跟隨小編一起看看吧
    2024-03-03
  • Spring擴(kuò)展BeanFactoryPostProcessor使用技巧詳解

    Spring擴(kuò)展BeanFactoryPostProcessor使用技巧詳解

    這篇文章主要為大家介紹了Spring擴(kuò)展BeanFactoryPostProcessor使用技巧詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2022-09-09
  • Java為什么使用補(bǔ)碼進(jìn)行計(jì)算的原因分析

    Java為什么使用補(bǔ)碼進(jìn)行計(jì)算的原因分析

    這篇文章主要介紹了Java為什么使用補(bǔ)碼進(jìn)行計(jì)算的原因分析,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2020-08-08

最新評(píng)論