Java實(shí)現(xiàn)word/pdf轉(zhuǎn)html并在線預(yù)覽
實(shí)現(xiàn)文檔在線預(yù)覽的方式除了上篇文章《文檔在線預(yù)覽(一)通過將txt、word、pdf轉(zhuǎn)成圖片實(shí)現(xiàn)在線預(yù)覽功能》說的將文檔轉(zhuǎn)成圖片的實(shí)現(xiàn)方式外,還有轉(zhuǎn)成pdf,前端通過pdf.js、pdfobject.js等插件來實(shí)現(xiàn)在線預(yù)覽,以及本文將要說到的將文檔轉(zhuǎn)成html的方式來實(shí)現(xiàn)在線預(yù)覽。代碼基于 aspose-words(用于word轉(zhuǎn)html),pdfbox(用于pdf轉(zhuǎn)html),所以事先需要在項目里下面兩個依賴:
<dependency> <groupId>com.luhuiguo</groupId> <artifactId>aspose-words</artifactId> <version>23.1</version></dependency> <dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>pdfbox</artifactId> <version>2.0.4</version> </dependency>
一、將文件轉(zhuǎn)換成html字符串
1、將word文件轉(zhuǎn)成html字符串
public static String wordToHtmlStr(String wordPath) { try { Document doc = new Document(wordPath); // Address是將要被轉(zhuǎn)化的word文檔 String htmlStr = doc.toString(); return htmlStr; } catch (Exception e) { e.printStackTrace(); } return null; }
驗證結(jié)果:
2、將pdf文件轉(zhuǎn)成html字符串
public static String pdfToHtmlStr(String pdfPath) throws IOException, ParserConfigurationException { PDDocument document = PDDocument.load(new File(pdfPath)); Writer writer = new StringWriter(); new PDFDomTree().writeText(document, writer); writer.close(); document.close(); return writer.toString(); }
驗證結(jié)果:
二、將文件轉(zhuǎn)換成html,并生成html文件
有時我們是需要的不僅僅返回html字符串,而是需要生成一個html文件這時應(yīng)該怎么做呢?一個改動量小的做法就是使用org.apache.commons.io包下的FileUtils工具類寫入目標(biāo)地址:
1、FileUtils類將html字符串生成html文件示例
首先需要引入pom:
<dependency> <groupId>commons-io</groupId> <artifactId>commons-io</artifactId> <version>2.8.0</version> </dependency>
相關(guān)代碼:
String htmlStr = FileConvertUtil.pdfToHtmlStr("D:\\書籍\\電子書\\小說\\歷史小說\\最后的可汗.doc"); FileUtils.write(new File("D:\\test\\doc.html"), htmlStr, "utf-8");
除此之外,還可以對上面的代碼進(jìn)行一些調(diào)整,已實(shí)現(xiàn)生成html文件,代碼調(diào)整如下:
2、將word文件轉(zhuǎn)換成html文件
public static void wordToHtml(String wordPath, String htmlPath) { try { File sourceFile = new File(wordPath); String path = htmlPath + File.separator + sourceFile.getName().substring(0, sourceFile.getName().lastIndexOf(".")) + ".html"; File file = new File(path); // 新建一個空白pdf文檔 FileOutputStream os = new FileOutputStream(file); Document doc = new Document(wordPath); // Address是將要被轉(zhuǎn)化的word文檔 HtmlSaveOptions options = new HtmlSaveOptions(); options.setExportImagesAsBase64(true); options.setExportRelativeFontSize(true); doc.save(os, options); } catch (Exception e) { e.printStackTrace(); } }
驗證結(jié)果:
3、將pdf文件轉(zhuǎn)換成html文件
public static void pdfToHtml(String pdfPath, String htmlPath) throws IOException, ParserConfigurationException { File file = new File(pdfPath); String path = htmlPath + File.separator + file.getName().substring(0, file.getName().lastIndexOf(".")) + ".html"; PDDocument document = PDDocument.load(new File(pdfPath)); Writer writer = new PrintWriter(path, "UTF-8"); new PDFDomTree().writeText(document, writer); writer.close(); document.close(); }
圖片版PDF文件驗證結(jié)果:
文字版PDF文件驗證結(jié)果:
到此這篇關(guān)于Java實(shí)現(xiàn)word/pdf轉(zhuǎn)html并在線預(yù)覽的文章就介紹到這了,更多相關(guān)Java在線預(yù)覽內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
解決SpringBoot整合MybatisPlus分模塊管理遇到的bug
這篇文章主要介紹了解決SpringBoot整合MybatisPlus分模塊管理遇到的bug,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2021-07-07springboot集成Swagger的方法(讓你擁有屬于自己的api管理器)
在大型的項目中,如果你有非常多的接口需要統(tǒng)一管理,或者需要進(jìn)行接口測試,那么我們通常會在繁雜地api中找到需要進(jìn)行測試或者管理的接口,接下來通過本文給大家介紹springboot集成Swagger的方法讓你擁有屬于自己的api管理器,感興趣的朋友一起看看吧2021-11-11基于springboot設(shè)置Https請求過程解析
這篇文章主要介紹了基于springboot設(shè)置Https請求過程解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2020-08-08windows?java?-jar無法啟動jar包簡單的解決方法
這篇文章主要介紹了windows?java?-jar無法啟動jar包簡單的解決方法,文中通過代碼介紹的非常詳細(xì),對大家學(xué)習(xí)或者使用java具有一定的參考借鑒價值,需要的朋友可以參考下2024-12-12