Java使用itextpdf找出PDF中文字的坐標(biāo)
前言
找到位置,簽名的話見:Java操作itextpdf實(shí)現(xiàn)PDF添加文字,圖片和簽名
新項目可以嘗試一下 iText 7 , 我這邊是老項目所以還是繼續(xù)使用 iText 5,主打夠用
iText 5 沒有直接提供獲取文本精確位置的功能。它只能提取文本內(nèi)容,而文本位置通常需要通過額外的解析和計算來確定。
思路:在同一行,且一些詞是連續(xù)的,前后沒有空白字符串,即認(rèn)為是一個詞
需要特殊處理:
- “姓 名:” 中間有空格
- 讀取PDF時,有些肉眼看上去是一行的字,可能會被解析為多個,導(dǎo)致找不到滿足條件的關(guān)鍵字
效果如下

添加引用
<itextpdf.version>5.5.13</itextpdf.version>
<itext-asian.version>5.2.0</itext-asian.version>
<dependency>
<groupId>com.itextpdf</groupId>
<artifactId>itextpdf</artifactId>
<version>${itextpdf.version}</version>
</dependency>
<!--沒有這個的話,添加文字會報錯-->
<dependency>
<groupId>com.itextpdf</groupId>
<artifactId>itext-asian</artifactId>
<version>${itext-asian.version}</version>
</dependency>
添加工具類
package com.vipsoft.web;
import cn.hutool.core.util.StrUtil;
import com.itextpdf.text.pdf.parser.ImageRenderInfo;
import com.itextpdf.text.pdf.parser.RenderListener;
import com.itextpdf.text.pdf.parser.TextRenderInfo;
import com.itextpdf.awt.geom.Rectangle2D.Float;
import java.util.ArrayList;
import java.util.List;
public class KeyWordPositionListener implements RenderListener {
/**
* 用來存儲頁面上所有的詞
* - 排除連續(xù)空格
*/
private List<WordItem> allItems = new ArrayList<WordItem>();
/**
* 搜索關(guān)鍵詞
*/
private String keyWord;
/**
* 是否是新的詞
*/
private boolean newWord = false;
/**
* 記錄上一個字符 -- 用于判斷是否是一組詞
*/
private WordItem prevItem = new WordItem();
/**
* 已找到的詞信息
*/
private WordItem wordItem;
public WordItem getWordItem() {
return wordItem;
}
public void setKeyWord(String keyWord) {
this.keyWord = keyWord;
}
@Override
public void beginTextBlock() {
// TODO Auto-generated method stub
}
/**
* 方法會在解析文本時被調(diào)用,它檢查每個文本片段是否包含關(guān)鍵詞,并記錄其位置。
*
* @param renderInfo
*/
@Override
public void renderText(TextRenderInfo renderInfo) {
if (wordItem != null || StrUtil.isEmpty(keyWord)) {
return;
}
// 讀取PDF時,有些肉眼看上去是一行的字,可能會被解析為多個,導(dǎo)致找不到滿足條件的關(guān)鍵字,這里做了簡單的處理
// 即如果一些詞是連續(xù)的,前后沒有空白字符串,即認(rèn)為是一個詞
String content = renderInfo.getText().trim();
Float textRectangle = renderInfo.getBaseline().getBoundingRectange();
if (StrUtil.isEmpty(content)) {
// 當(dāng)前掃出來的是空字符串,視新一個新的詞即將開始
newWord = true;
// System.out.println("掃出空的,跳過 x=" + textRectangle.getX() + " y=" + textRectangle.getY());
return;
}
if (StrUtil.isEmpty(prevItem.getContent())) {
// 這段可以不需要
// prevItem 中還沒有存內(nèi)容的,當(dāng)前文字也視為新的詞
newWord = true;
// System.out.println("prevItem 中還沒有存內(nèi)容的,視為新詞");
}
if (StrUtil.isNotEmpty(prevItem.getContent()) && (Math.abs((int) prevItem.getY() - (int) textRectangle.getY()) > 5)) {
//Y 正負(fù)2內(nèi),視為同一行
System.out.println("不在同一行:prevItem=" + prevItem.getContent() + " x=" + (int) prevItem.getX() + " y=" + (int) prevItem.getY());
System.out.println("不在同一行:content=" + content + " x=" + (int) textRectangle.getX() + " y=" + (int) textRectangle.getY());
System.out.println("當(dāng)前內(nèi)容和prevItem 不在同一行,視為新詞");
newWord = true;
}
if (newWord) {
//重置
System.out.println("重置 prevItem: " + prevItem.getContent());
prevItem = new WordItem();
}
System.out.println("已掃到字:content=" + content + " x=" + textRectangle.getX() + " y=" + textRectangle.getY());
String preContent = StrUtil.isNotEmpty(prevItem.getContent()) ? prevItem.getContent() : "";
prevItem.setContent(preContent + content);
prevItem.setX(textRectangle.getX());
prevItem.setY(textRectangle.getY());
if (prevItem.getContent().contains(keyWord)) {
//System.out.println("找到了【" + keyWord + "】 " + prevItem.getContent() + " x= " + prevItem.getX() + " y= " + prevItem.getY());
wordItem = prevItem;
}
newWord = false;
}
@Override
public void endTextBlock() {
// TODO Auto-generated method stub
}
@Override
public void renderImage(ImageRenderInfo renderInfo) {
// TODO Auto-generated method stub
}
}
/**
* 存儲一個詞的信息
*/
class WordItem {
private String content;
private double x;
private double y;
... getters and setters ...
}
調(diào)用
@Test
void searchText() throws Exception {
String filepath = "D:\\Report.pdf";
String keyWord = "審核醫(yī)生";
int page = 1;
PdfReader pdfReader = new PdfReader(filepath);
//int pageNum = pdfReader.getNumberOfPages(); //循環(huán)沒頁P(yáng)DF查找
PdfReaderContentParser pdfReaderContentParser = new PdfReaderContentParser(pdfReader);
KeyWordPositionListener renderListener = new KeyWordPositionListener();
renderListener.setKeyWord(keyWord);
pdfReaderContentParser.processContent(page, renderListener);
WordItem wordItem = renderListener.getWordItem();
if (wordItem == null) {
System.out.println("沒找到 " + keyWord);
return;
}
pdfReader.close() //記得要關(guān)閉,否則文件想做其它操作會報被占用
System.out.println("找到了【" + keyWord + "】 " + wordItem.getContent() + " x= " + wordItem.getX() + " y= " + wordItem.getY());
}到此這篇關(guān)于Java使用itextpdf找出PDF中文字的坐標(biāo)的文章就介紹到這了,更多相關(guān)Java itextpdf找出PDF文字坐標(biāo)內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Java實(shí)戰(zhàn)之基于swing的QQ郵件收發(fā)功能實(shí)現(xiàn)
這篇文章主要介紹了Java實(shí)戰(zhàn)之基于swing的QQ郵件收發(fā)功能實(shí)現(xiàn),文中有非常詳細(xì)的代碼示例,對正在學(xué)習(xí)java的小伙伴們有非常好的幫助,需要的朋友可以參考下2021-04-04
Springboot如何利用攔截器攔截請求信息收集到日志詳解
一些系統(tǒng)經(jīng)常需要關(guān)注用戶請求的具體信息,如用戶信息、請求參數(shù)、響應(yīng)結(jié)果等等,在SpringBoot應(yīng)用中可通過攔截器的方式統(tǒng)一處理,下面這篇文章主要給大家介紹了關(guān)于Springboot如何利用攔截器攔截請求信息收集到日志的相關(guān)資料,需要的朋友可以參考下2021-08-08
SpringBoot整合WebSocket實(shí)現(xiàn)后端向前端發(fā)送消息的實(shí)例代碼
WebSocket使得客戶端和服務(wù)器之間的數(shù)據(jù)交換變得更加簡單,允許服務(wù)端主動向客戶端推送數(shù)據(jù),下面這篇文章主要給大家介紹了關(guān)于SpringBoot整合WebSocket實(shí)現(xiàn)后端向前端發(fā)送消息的相關(guān)資料,需要的朋友可以參考下2023-03-03
java實(shí)現(xiàn)百度坐標(biāo)的摩卡托坐標(biāo)與火星坐標(biāo)轉(zhuǎn)換的示例
這篇文章主要介紹了java實(shí)現(xiàn)百度坐標(biāo)的摩卡托坐標(biāo)與火星坐標(biāo)轉(zhuǎn)換的示例,需要的朋友可以參考下2014-03-03

