JAVA過濾標簽實現(xiàn)將html內(nèi)容轉(zhuǎn)換為文本的方法示例
本文實例講述了JAVA過濾標簽實現(xiàn)將html內(nèi)容轉(zhuǎn)換為文本的方法。分享給大家供大家參考,具體如下:
/**
* 把html內(nèi)容轉(zhuǎn)為文本
* @param html 需要處理的html文本
* @param filterTags 需要保留的html標簽樣式
* @return
*/
public static String trimHtml2Txt(String html, String[] filterTags){
html = html.replaceAll("\\<head>[\\s\\S]*?</head>(?i)", "");//去掉head
html = html.replaceAll("\\<!--[\\s\\S]*?-->", "");//去掉注釋
html = html.replaceAll("\\<![\\s\\S]*?>", "");
html = html.replaceAll("\\<style[^>]*>[\\s\\S]*?</style>(?i)", "");//去掉樣式
html = html.replaceAll("\\<script[^>]*>[\\s\\S]*?</script>(?i)", "");//去掉js
html = html.replaceAll("\\<w:[^>]+>[\\s\\S]*?</w:[^>]+>(?i)", "");//去掉word標簽
html = html.replaceAll("\\<xml>[\\s\\S]*?</xml>(?i)", "");
html = html.replaceAll("\\<html[^>]*>|<body[^>]*>|</html>|</body>(?i)", "");
html = html.replaceAll("\\\r\n|\n|\r", " ");//去掉換行
html = html.replaceAll("\\<br[^>]*>(?i)", "\n\r");
List<String> tags = new ArrayList<String>();
List<String> s_tags = new ArrayList<String>();
List<String> halfTag = Arrays.asList(new String[]{"img","table","thead","th","tr","td"});//
if(filterTags != null && filterTags.length > 0){
for (String tag : filterTags) {
tags.add("<"+tag+(halfTag.contains(tag)?"":">"));//開始標簽
if(!"img".equals(tag)) tags.add("</"+tag+">");//結(jié)束標簽
s_tags.add("#REPLACETAG"+tag+(halfTag.contains(tag)?"":"REPLACETAG#"));//盡量替換為復雜一點的標記,以免與顯示文本混合,如:文本中包含#td、#table等
if(!"img".equals(tag)) s_tags.add("#REPLACETAG/"+tag+"REPLACETAG#");
}
}
html = StringUtils.replaceEach(html, tags.toArray(new String[tags.size()]), s_tags.toArray(new String[s_tags.size()]));
html = html.replaceAll("\\</p>(?i)", "\n\r");
html = html.replaceAll("\\<[^>]+>", "");
html = StringUtils.replaceEach(html,s_tags.toArray(new String[s_tags.size()]),tags.toArray(new String[tags.size()]));
html = html.replaceAll("\\ ", " ");
return html.trim();
}
PS:這里再為大家推薦一款功能類似的在線工具供大家參考使用:
在線html/js/css代碼過濾工具
http://tools.jb51.net/code/htmlfilter
另外,關于正則操作,這里再為大家推薦兩款相關在線工具:
JavaScript正則表達式在線測試工具:
http://tools.jb51.net/regex/javascript
正則表達式在線生成工具:
http://tools.jb51.net/regex/create_reg
更多關于java算法相關內(nèi)容感興趣的讀者可查看本站專題:《Java數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Java字符與字符串操作技巧總結(jié)》、《Java操作DOM節(jié)點技巧總結(jié)》、《Java文件與目錄操作技巧匯總》和《Java緩存操作技巧匯總》
希望本文所述對大家java程序設計有所幫助。
相關文章
mybatis3.3+struts2.3.24+mysql5.1.22開發(fā)環(huán)境搭建圖文教程
這篇文章主要為大家詳細介紹了mybatis3.3+struts2.3.24+mysql5.1.22開發(fā)環(huán)境搭建圖文教程,感興趣的小伙伴們可以參考一下2016-06-06
SpringBoot動態(tài)導出word文檔實整教程(復制即可使用)
在我們做項目的時候會需要把數(shù)據(jù)庫中的數(shù)據(jù)導出到word當中,下面這篇文章主要給大家介紹了關于SpringBoot動態(tài)導出word文檔實整教程的相關資料,文中的代碼復制即可使用,需要的朋友可以參考下2023-06-06
SpringBoot入門實現(xiàn)第一個SpringBoot項目
今天我們一起來完成一個簡單的SpringBoot(Hello World)。就把他作為你的第一個SpringBoot項目。具有一定的參考價值,感興趣的可以了解一下2021-09-09
lombok注解@Data使用在繼承類上時出現(xiàn)警告的問題及解決
Lombok的@Data注解簡化了實體類代碼,但在子類中使用時會出現(xiàn)警告,指出equals和hashCode方法不會考慮父類屬性,解決方法有兩種:一是在父類上使用@EqualsAndHashCode(callSuper=true)注解;二是通過配置lombok.config文件,均能有效解決警告問題2024-10-10
Java實現(xiàn)經(jīng)典游戲打磚塊游戲的示例代碼
這篇文章主要介紹了如何利用Java實現(xiàn)經(jīng)典的游戲—打磚塊。玩家操作一根螢幕上水平的“棒子”,讓一顆不斷彈來彈去的“球”在撞擊作為過關目標消去的“磚塊”的途中不會落到螢幕底下。感興趣的小伙伴可以了解一下2022-02-02

