c#實(shí)現(xiàn)將pdf轉(zhuǎn)文本的示例分享
如何解析PDF文件
在.NET中從PDF文件里提取文本的幾種主要方法有:
1、Microsoft 的 IFilter 接口 和 Adobe 的 IFilter 實(shí)現(xiàn);
2、iTextSharp;
3、PDFBox。
不幸的是這些 PDF 解析方案都不完美。我們將在下面討論這些方法。
Adobe PDF IFilter
為了使用 IFilter 接口來(lái)解析 PDF 文件,你需要:
Windows 2000 或者后續(xù)版本
Adobe Acrobat 或 Reader 7.0.5+ (或單獨(dú)的 Adobe PDF IFilter [adobe.com])
IFilter COM 封裝類(lèi) [dotlucene.net]
樣例代碼:
using IFilter;
public static string ExtractTextFromPdf(string path) {
return DefaultParser.Extract(path);
}
缺點(diǎn):
使用了不可靠的 COM 互操作來(lái)處理 IFilter 接口 (并且組合 IFilter COM、 Adobe PDF IFilter 特別麻煩)。
需要在目標(biāo)系統(tǒng)上單獨(dú)安裝 Adobe IFilter。如果你需要對(duì)其它人發(fā)布可索引的解決方案,會(huì)很痛苦。
iTextSharp
iTextSharp(http://sourceforge.net/projects/itextsharp/) 是一個(gè) Java 的PDF 操作庫(kù)iText(http://itextpdf.com/) 的.NET輸出。它主要著眼于編輯PDF而不是閱讀,但它當(dāng)然也支持從PDF中提取文本(盡管有點(diǎn)大材小用)。
例程:
using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
public static string ExtractTextFromPdf(string path)
{
using (PdfReader reader = new PdfReader(path))
{
StringBuilder text = new StringBuilder();
for (int i = 1; i <= reader.NumberOfPages; i++)
{
text.Append(PdfTextExtractor.GetTextFromPage(reader, i));
}
return text.ToString();
}
}
信用證: 成員號(hào) 10364982
缺點(diǎn):
需要許可證(如果你不喜歡 AGPL許可證 的話(huà))
PDFBox
PDFBox是另一個(gè)Java PDF類(lèi)庫(kù)。它同時(shí)也可以與原來(lái)的Java Lucene一同使用(參見(jiàn)LucenePDFDocument)。
幸運(yùn)的是,PDFBox有一個(gè)使用IKVM.NET開(kāi)發(fā)的.NET版本 (只需訪問(wèn)PDFBox下載頁(yè))。
在.NET中使用PDFBox需要引用:
IKVM.OpenJDK.Core.dll
IKVM.OpenJDK.SwingAWT.dll
pdfbox-1.8.4.dll
并將下列文件復(fù)制到bin文件夾下:
commons-logging.dll
fontbox-1.8.4.dll
IKVM.OpenJDK.Util.dll
IKVM.Runtime.dll
使用PDFBox解析PDF十分簡(jiǎn)單:
using org.apache.pdfbox.pdmodel;
using org.apache.pdfbox.util;
private static string ExtractTextFromPdf(string path)
{
PDDocument doc = null;
try {
doc = PDDocument.load(path)
PDFTextStripper stripper = new PDFTextStripper();
return stripper.getText(doc);
}
finally {
if (doc != null) {
doc.close();
}
}
}
編譯后的大小加起來(lái)差不多有18MB:
IKVM.OpenJDK.Core.dll (4 MB)
IKVM.OpenJDK.SwingAWT.dll (6 MB)
pdfbox-1.8.4.dll (4 MB)
commons-logging.dll (82 kB)
fontbox-1.8.4.dll (180 kB)
IKVM.OpenJDK.Util.dll (2 MB)
IKVM.Runtime.dll (1 MB)
速度還可以:解析U.S. Copyright Act PDF (5.1 MB)文件用了13秒。
感謝bobrien100提供的改進(jìn)建議。
缺點(diǎn):
IKVM.NET依賴(lài) (18 MB)
速度(尤其是IKVM.NET的啟動(dòng)時(shí)間)
- C#使用iTextSharp將PDF轉(zhuǎn)成文本的方法
- 利用C#如何給PDF文檔添加文本與圖片頁(yè)眉
- C# 生轉(zhuǎn)換網(wǎng)頁(yè)為pdf
- C# 中使用iTextSharp組件創(chuàng)建PDF的簡(jiǎn)單方法
- C#將jpg轉(zhuǎn)換為pdf的方法
- C#實(shí)現(xiàn)pdf導(dǎo)出 .Net導(dǎo)出pdf文件
- 用C#來(lái)解析PDF文件
- c#開(kāi)發(fā)word批量轉(zhuǎn)pdf源碼分享
- c#實(shí)現(xiàn)pdf的另存為功能
- C#在PDF中繪制不同風(fēng)格類(lèi)型的文本方法實(shí)例
相關(guān)文章
c# 使用計(jì)時(shí)器和觀察者模式實(shí)現(xiàn)報(bào)警推送需求
這篇文章主要介紹了c# 使用計(jì)時(shí)器和觀察者模式實(shí)現(xiàn)報(bào)警推送需求,文中示例代碼非常詳細(xì),幫助大家更好的理解和學(xué)習(xí),感興趣的朋友可以了解下2020-07-07