欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

java讀取html文件,并獲取body中所有的標簽及內容的案例

 更新時間:2020年08月19日 11:05:48   作者:磨人小妖精  
這篇文章主要介紹了java讀取html文件,并獲取body中所有的標簽及內容的案例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧

這里的獲取的是html文件中body中的所有標簽以及內容

package com.lmt.service.file;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.io.Reader;

import org.springframework.stereotype.Component;
import com.lmt.config.UrlConstants;

@Component
public class ParseFile {

  /**
   * 解析html文件
   * @param file
   * @return
   */
  public String readHtml(File file){
    String body = "";
    try {
      FileInputStream iStream = new FileInputStream(file);
      Reader reader = new InputStreamReader(iStream);
      BufferedReader htmlReader = new BufferedReader(reader);
            
      String line;
      boolean found = false;
      while (!found && (line = htmlReader.readLine()) != null) {
        if (line.toLowerCase().indexOf("<body") != -1) { // 在<body>的前面可能存在空格
          found = true;
        }
      }
      
      found = false;
      while (!found && (line = htmlReader.readLine()) != null) {
        if (line.toLowerCase().indexOf("</body") != -1) {
          found = true;
        } else {
          // 如果存在圖片,則將相對路徑轉換為絕對路徑
          String lowerCaseLine = line.toLowerCase();
          if (lowerCaseLine.contains("src")) {
            
            //這里是定義圖片的訪問路徑
            String directory = "D:/test";
            // 如果路徑名不以反斜杠結尾,則手動添加反斜杠
            /*if (!directory.endsWith("\\")) {
              directory = directory + "\\";
            }*/
          //  line = line.substring(0, lowerCaseLine.indexOf("src") + 5) + directory + line.substring(lowerCaseLine.indexOf("src") + 5);
            /*String filename = extractFilename(line);
            line = line.substring(0, lowerCaseLine.indexOf("src") + 5) + directory + filename + line.substring(line.indexOf(filename) + filename.length());
          */
            // 如果該行存在多個<img>元素,則分行進行替代
            String[] splitLines = line.split("<img\\s+"); // <img后帶一個或多個空格
            // 因為java中引用的問題不能使用for each
            for (int i = 0; i < splitLines.length; i++) {
              if (splitLines[i].toLowerCase().startsWith("src")) {
                splitLines[i] = splitLines[i].substring(0, splitLines[i].toLowerCase().indexOf("src") + 5)
                    + directory
                    + splitLines[i].substring(splitLines[i].toLowerCase().indexOf("src") + 5);
              }
            }
            
            // 最后進行拼接
            line = "";
            for (int i = 0; i < splitLines.length - 1; i++) { // 循環(huán)次數(shù)要-1,因為最后一個字符串后不需要添加<img
              line = line + splitLines[i] + "<img ";
            }
            line = line + splitLines[splitLines.length - 1];
          }
          
          body = body + line + "\n";
        }
      }
      htmlReader.close();
  //    System.out.println(body);
      
    } catch (Exception e) {
      e.printStackTrace();
    }
    return body;
  }
  
  /**
   * 
   * @param htmlLine 一行html片段,包含<img>元素
   * @return 文件名
   */
  public static String extractFilename(String htmlLine) {
    int srcIndex = htmlLine.toLowerCase().indexOf("src=");
    if (srcIndex == -1) { // 圖片不存在,返回空字符串
      return "";
    } else {
      String htmlSrc = htmlLine.substring(srcIndex + 4);
      char splitChar = '\"'; // 默認為雙引號,但也有可能為單引號
      if (htmlSrc.charAt(0) == '\'') {
        splitChar = '\'';
      } 
      String[] firstSplit = htmlSrc.split(String.valueOf(splitChar));
      String path = firstSplit[1]; // 第0位為空字符串
      String[] secondSplit = path.split("[/\\\\]"); // 匹配正斜杠或反斜杠
      return secondSplit[secondSplit.length - 1];
    }
  }
  
}

補充知識:StandardEngine[Catalina].StandardHost[localhost].StandardContext[]

jar包沒有正確導入

1、在 build path 中添加

2、如果這里不添加在編譯的時你的jar包將不會被導入

3、如果依然沒有成功請刪除user jar包重新導入

以上這篇java讀取html文件,并獲取body中所有的標簽及內容的案例就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持腳本之家。

相關文章

  • Java如何實現(xiàn)登錄token令牌

    Java如何實現(xiàn)登錄token令牌

    這篇文章主要介紹了Java如何實現(xiàn)登錄token令牌,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2022-05-05
  • Scala可變參數(shù)列表,命名參數(shù)和參數(shù)缺省詳解

    Scala可變參數(shù)列表,命名參數(shù)和參數(shù)缺省詳解

    這篇文章主要介紹了Scala可變參數(shù)列表,命名參數(shù)和參數(shù)缺省詳解,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2019-06-06
  • Java實現(xiàn)可配置換膚的方法示例

    Java實現(xiàn)可配置換膚的方法示例

    本文主要介紹了Java實現(xiàn)可配置換膚的方法示例,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2022-06-06
  • springboot實現(xiàn)發(fā)送郵件(QQ郵箱為例)

    springboot實現(xiàn)發(fā)送郵件(QQ郵箱為例)

    這篇文章主要為大家詳細介紹了springboot實現(xiàn)發(fā)送郵件,qq郵箱代碼實現(xiàn)郵件發(fā)送,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2020-06-06
  • JVM字符串常量池StringTable的具體使用

    JVM字符串常量池StringTable的具體使用

    字符串常量池是JVM中的一個重要結構,用于存儲JVM運行時產(chǎn)生的字符串,本文主要介紹了JVM字符串常量池StringTable的具體使用,感興趣的可以了解一下
    2024-04-04
  • Java 反射類型Type的用法說明

    Java 反射類型Type的用法說明

    這篇文章主要介紹了Java 反射類型Type的用法說明,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2021-05-05
  • Java如何獲取指定目錄文件列表

    Java如何獲取指定目錄文件列表

    這篇文章主要介紹了Java如何獲取指定目錄文件列表,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2020-08-08
  • Java內部類和異常類的概念以及使用

    Java內部類和異常類的概念以及使用

    這篇文章主要介紹了Java內部類和異常類的概念以及使用,文中有非常詳細的代碼以及注釋,適合正在學習java基礎的同學們使用,需要的朋友可以參考下
    2021-04-04
  • Java 實現(xiàn)聲音播放程序

    Java 實現(xiàn)聲音播放程序

    這篇文章主要介紹了Java 實現(xiàn)聲音播放程序的示例代碼,幫助大家更好的理解和使用Java,感興趣的朋友可以了解下
    2020-12-12
  • Java延時的3種實現(xiàn)方法舉例

    Java延時的3種實現(xiàn)方法舉例

    這篇文章主要給大家介紹了關于Java延時的3種實現(xiàn)方法舉例,java開發(fā)中常會用到延時任務,文中通過實例代碼介紹的非常詳細,對大家的學習具有一定參考借鑒價值,需要的朋友可以參考下
    2023-07-07

最新評論