欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Java使用itextpdf找出PDF中文字的坐標

 更新時間:2025年01月16日 10:37:41   作者:VipSoft  
這篇文章主要為大家詳細介紹了Java如果使用itextpdf找出PDF中文字的坐標,文中的示例代碼講解詳細,感興趣的小伙伴可以跟隨小編一起學習一下

前言

找到位置,簽名的話見:Java操作itextpdf實現(xiàn)PDF添加文字,圖片和簽名

新項目可以嘗試一下 iText 7 , 我這邊是老項目所以還是繼續(xù)使用 iText 5,主打夠用

iText 5 沒有直接提供獲取文本精確位置的功能。它只能提取文本內(nèi)容,而文本位置通常需要通過額外的解析和計算來確定。

思路:在同一行,且一些詞是連續(xù)的,前后沒有空白字符串,即認為是一個詞

需要特殊處理:

  • “姓 名:” 中間有空格
  • 讀取PDF時,有些肉眼看上去是一行的字,可能會被解析為多個,導致找不到滿足條件的關鍵字

效果如下

添加引用

<itextpdf.version>5.5.13</itextpdf.version>
<itext-asian.version>5.2.0</itext-asian.version>

<dependency>
    <groupId>com.itextpdf</groupId>
    <artifactId>itextpdf</artifactId>
    <version>${itextpdf.version}</version>
</dependency>
<!--沒有這個的話,添加文字會報錯-->
<dependency>
    <groupId>com.itextpdf</groupId>
    <artifactId>itext-asian</artifactId>
    <version>${itext-asian.version}</version>
</dependency>

添加工具類

package com.vipsoft.web;

import cn.hutool.core.util.StrUtil;
import com.itextpdf.text.pdf.parser.ImageRenderInfo;
import com.itextpdf.text.pdf.parser.RenderListener;
import com.itextpdf.text.pdf.parser.TextRenderInfo;
import com.itextpdf.awt.geom.Rectangle2D.Float;

import java.util.ArrayList;
import java.util.List;


public class KeyWordPositionListener implements RenderListener {

    /**
     * 用來存儲頁面上所有的詞
     * - 排除連續(xù)空格
     */
    private List<WordItem> allItems = new ArrayList<WordItem>();

    /**
     * 搜索關鍵詞
     */
    private String keyWord;
    /**
     * 是否是新的詞
     */
    private boolean newWord = false;
    /**
     * 記錄上一個字符 -- 用于判斷是否是一組詞
     */
    private WordItem prevItem = new WordItem();

    /**
     * 已找到的詞信息
     */
    private WordItem wordItem;

    public WordItem getWordItem() {
        return wordItem;
    }

    public void setKeyWord(String keyWord) {
        this.keyWord = keyWord;
    }

    @Override
    public void beginTextBlock() {
        // TODO Auto-generated method stub
    }

    /**
     * 方法會在解析文本時被調(diào)用,它檢查每個文本片段是否包含關鍵詞,并記錄其位置。
     *
     * @param renderInfo
     */
    @Override
    public void renderText(TextRenderInfo renderInfo) {
        if (wordItem != null || StrUtil.isEmpty(keyWord)) {
            return;
        }
        // 讀取PDF時,有些肉眼看上去是一行的字,可能會被解析為多個,導致找不到滿足條件的關鍵字,這里做了簡單的處理
        // 即如果一些詞是連續(xù)的,前后沒有空白字符串,即認為是一個詞
        String content = renderInfo.getText().trim();
        Float textRectangle = renderInfo.getBaseline().getBoundingRectange();
        if (StrUtil.isEmpty(content)) {
            // 當前掃出來的是空字符串,視新一個新的詞即將開始
            newWord = true;
//            System.out.println("掃出空的,跳過  x=" + textRectangle.getX() + " y=" + textRectangle.getY());
            return;
        }
        if (StrUtil.isEmpty(prevItem.getContent())) {
            // 這段可以不需要
            // prevItem 中還沒有存內(nèi)容的,當前文字也視為新的詞
            newWord = true;
//            System.out.println("prevItem 中還沒有存內(nèi)容的,視為新詞");
        }
        if (StrUtil.isNotEmpty(prevItem.getContent()) && (Math.abs((int) prevItem.getY() - (int) textRectangle.getY()) > 5)) {
            //Y 正負2內(nèi),視為同一行
            System.out.println("不在同一行:prevItem=" + prevItem.getContent() + " x=" + (int) prevItem.getX() + " y=" + (int) prevItem.getY());
            System.out.println("不在同一行:content=" + content + " x=" + (int) textRectangle.getX() + " y=" + (int) textRectangle.getY());
            System.out.println("當前內(nèi)容和prevItem 不在同一行,視為新詞");
            newWord = true;
        }
        if (newWord) {
            //重置
            System.out.println("重置 prevItem: " + prevItem.getContent());
            prevItem = new WordItem();
        }
        System.out.println("已掃到字:content=" + content + " x=" + textRectangle.getX() + " y=" + textRectangle.getY());
        String preContent = StrUtil.isNotEmpty(prevItem.getContent()) ? prevItem.getContent() : "";
        prevItem.setContent(preContent + content);
        prevItem.setX(textRectangle.getX());
        prevItem.setY(textRectangle.getY());
        if (prevItem.getContent().contains(keyWord)) {
            //System.out.println("找到了【" + keyWord + "】 " + prevItem.getContent() + " x= " + prevItem.getX() + " y= " + prevItem.getY());
            wordItem = prevItem;
        }
        newWord = false;
    }

    @Override
    public void endTextBlock() {
        // TODO Auto-generated method stub
    }

    @Override
    public void renderImage(ImageRenderInfo renderInfo) {
        // TODO Auto-generated method stub
    }

}

/**
 * 存儲一個詞的信息
 */
class WordItem {
    private String content;
    private double x;
    private double y;

   ... getters and setters ...
}

調(diào)用

@Test
void searchText() throws Exception {
    String filepath = "D:\\Report.pdf";
    String keyWord = "審核醫(yī)生";
    int page = 1;
    PdfReader pdfReader = new PdfReader(filepath);
    //int pageNum = pdfReader.getNumberOfPages(); //循環(huán)沒頁PDF查找
    PdfReaderContentParser pdfReaderContentParser = new PdfReaderContentParser(pdfReader);
    KeyWordPositionListener renderListener = new KeyWordPositionListener();
    renderListener.setKeyWord(keyWord);
    pdfReaderContentParser.processContent(page, renderListener);
    WordItem wordItem = renderListener.getWordItem();
    if (wordItem == null) {
        System.out.println("沒找到 " + keyWord);
        return;
    }
	pdfReader.close() //記得要關閉,否則文件想做其它操作會報被占用
    System.out.println("找到了【" + keyWord + "】 " + wordItem.getContent() + " x= " + wordItem.getX() + " y= " + wordItem.getY());
}

到此這篇關于Java使用itextpdf找出PDF中文字的坐標的文章就介紹到這了,更多相關Java itextpdf找出PDF文字坐標內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

相關文章

  • java實現(xiàn)Dijkstra算法

    java實現(xiàn)Dijkstra算法

    這篇文章主要為大家詳細介紹了java實現(xiàn)Dijkstra算法,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2020-05-05
  • java并發(fā)編程之cas詳解

    java并發(fā)編程之cas詳解

    這篇文章主要介紹了java并發(fā)編程之cas詳解,涉及cas使用場景和cas用作原子操作等內(nèi)容,具有一定參考價值,需要的朋友可以了解下。
    2017-11-11
  • Java文件與IO流操作原理詳細分析

    Java文件與IO流操作原理詳細分析

    在java中提供有對于文件操作系統(tǒng)的支持,這個支持在java.io.File類中進行了定義,也就是說在整個java.io包中File類是唯一一個與文件本身操作有關的類(創(chuàng)建,刪除,重命名)有關的類,而如果想要進行File類的操作,我們需要提供有完整的路徑支持,而后可以調(diào)用相應的方法進行處理
    2022-09-09
  • 使用Java實現(xiàn)在PDF插入頁眉頁腳

    使用Java實現(xiàn)在PDF插入頁眉頁腳

    在處理PDF文檔時,有時需要為文檔中的每一頁添加頁眉和頁腳,這篇文章主要為大家詳細介紹了如何使用Java為PDF文件添加頁眉、頁腳,感興趣的可以了解下
    2024-03-03
  • Java實戰(zhàn)之基于swing的QQ郵件收發(fā)功能實現(xiàn)

    Java實戰(zhàn)之基于swing的QQ郵件收發(fā)功能實現(xiàn)

    這篇文章主要介紹了Java實戰(zhàn)之基于swing的QQ郵件收發(fā)功能實現(xiàn),文中有非常詳細的代碼示例,對正在學習java的小伙伴們有非常好的幫助,需要的朋友可以參考下
    2021-04-04
  • Java如何實現(xiàn)單鏈表的增刪改查

    Java如何實現(xiàn)單鏈表的增刪改查

    這篇文章主要給大家介紹了關于Java如何實現(xiàn)單鏈表的增刪改查的相關資料,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2021-04-04
  • Springboot如何利用攔截器攔截請求信息收集到日志詳解

    Springboot如何利用攔截器攔截請求信息收集到日志詳解

    一些系統(tǒng)經(jīng)常需要關注用戶請求的具體信息,如用戶信息、請求參數(shù)、響應結(jié)果等等,在SpringBoot應用中可通過攔截器的方式統(tǒng)一處理,下面這篇文章主要給大家介紹了關于Springboot如何利用攔截器攔截請求信息收集到日志的相關資料,需要的朋友可以參考下
    2021-08-08
  • SpringBoot整合WebSocket實現(xiàn)后端向前端發(fā)送消息的實例代碼

    SpringBoot整合WebSocket實現(xiàn)后端向前端發(fā)送消息的實例代碼

    WebSocket使得客戶端和服務器之間的數(shù)據(jù)交換變得更加簡單,允許服務端主動向客戶端推送數(shù)據(jù),下面這篇文章主要給大家介紹了關于SpringBoot整合WebSocket實現(xiàn)后端向前端發(fā)送消息的相關資料,需要的朋友可以參考下
    2023-03-03
  • java實現(xiàn)百度坐標的摩卡托坐標與火星坐標轉(zhuǎn)換的示例

    java實現(xiàn)百度坐標的摩卡托坐標與火星坐標轉(zhuǎn)換的示例

    這篇文章主要介紹了java實現(xiàn)百度坐標的摩卡托坐標與火星坐標轉(zhuǎn)換的示例,需要的朋友可以參考下
    2014-03-03
  • 史上最全的IDEA快捷鍵總結(jié)

    史上最全的IDEA快捷鍵總結(jié)

    這篇文章主要介紹了史上最全的IDEA快捷鍵總結(jié),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2020-01-01

最新評論