欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

解析得到除去標(biāo)簽的txt內(nèi)容

 更新時間:2008年09月24日 22:50:27   作者:  
一個網(wǎng)頁中可能含有很多段落,但同時也夾雜著不少的標(biāo)簽(tags),而這卻不是我們所需要的,所以必須去掉。那么怎么去掉呢?用Visitor,請看下面代碼
復(fù)制代碼 代碼如下:

NodeList body_nodes=this.getParser().parse(body_filter);
for(int i=0;i<body_nodes.size();i++)
{
Node node=body_nodes.elementAt(i);

Parser body_parser=new Parser(node.toHtml());
TextExtractingVisitor visitor=new TextExtractingVisitor();
body_parser.visitAllNodesWith(visitor);
body.append(visitor.getExtractedText());
}

TextExtractingVisitor,visitAllNodesWith等類及方法都是Visitor中比較很重要但也很少見的。
下面附源代碼:
復(fù)制代碼 代碼如下:

import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
import java.util.Date;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.HasChildFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.util.NodeList;
import org.htmlparser.visitors.TextExtractingVisitor;

import com.extractor.Extractor;

public class ExtractorHangdian extends Extractor{
public void extract()
{
BufferedWriter bw=null;
String indextime;
String title;
StringBuffer body=new StringBuffer();;
NodeFilter time_filter=new AndFilter(new TagNameFilter("font"),new HasAttributeFilter("color","#808080"));
NodeFilter title_filter1=new AndFilter(new TagNameFilter("td"),new HasChildFilter(new TagNameFilter("b")));
NodeFilter body_filter=new AndFilter(new TagNameFilter("td"),new HasChildFilter(new TagNameFilter("p")));

try
{
NodeList title_nodes=this.getParser().parse(title_filter1);
Node node=title_nodes.elementAt(0);
NodeList node2=node.getChildren();
//title=node2.elementAt(0).toHtml(); /* '\r\n' */
//title=node2.elementAt(1).toHtml(); /*font color="#000080" style="font-size:14.4px*/
//title=node2.elementAt(2).toHtml(); /* b */
title=node2.elementAt(3).toHtml(); /* 教材征訂及教師用書登記通知 */


bw=new BufferedWriter(new FileWriter(new File(this.getOutputPath()+title+".txt")));

String url_seg1=getInputFilePath().substring(3,30);
int end=getInputFilePath().lastIndexOf(".");
String url_seg2=getInputFilePath().substring(30, end);
String url_seg=url_seg1+".asp?"+url_seg2;
url_seg=url_seg.replaceAll("\\\\","/");
String url="http://"+url_seg;

bw.write(url+NEWLINE);
bw.write(title+NEWLINE);


}
catch(Exception e)
{
e.printStackTrace();
}

this.getParser().reset();
try
{
NodeList time_nodes=this.getParser().parse(time_filter);
Node time_node=time_nodes.elementAt(1);//這里的“1”表示符合time_filter的第二個元素
indextime=time_node.getNextSibling().toHtml();

bw.write(indextime+NEWLINE);
}
catch(Exception e)
{
e.printStackTrace();
}

this.getParser().reset();//得到除去標(biāo)簽的所有txt文本
try
{
NodeList body_nodes=this.getParser().parse(body_filter);
for(int i=0;i<body_nodes.size();i++)
{
Node node=body_nodes.elementAt(i);

Parser body_parser=new Parser(node.toHtml());
TextExtractingVisitor visitor=new TextExtractingVisitor();
body_parser.visitAllNodesWith(visitor);
body.append(visitor.getExtractedText());
}
bw.write(body+NEWLINE);

}
catch(Exception e)
{
e.printStackTrace();
}

try
{
if(bw!=null)
bw.close();
}catch(IOException e)
{
e.printStackTrace();
}
}
}

這里順便提一下,當(dāng)年bw沒有關(guān)掉,怎么讀不進(jìn)去,搞了我好幾天,郁悶死了,想起來就火大,注意?。?

相關(guān)文章

  • jsp與sql語句的混合使用示例

    jsp與sql語句的混合使用示例

    這篇文章主要介紹了jsp與sql語句的混合使用,需要的朋友可以參考下
    2014-03-03
  • JSP教程(三)--JSP中”預(yù)定義變量”的使用

    JSP教程(三)--JSP中”預(yù)定義變量”的使用

    JSP教程(三)--JSP中”預(yù)定義變量”的使用...
    2006-10-10
  • jsp中將后臺傳遞過來的json格式的list數(shù)據(jù)綁定到下拉菜單select

    jsp中將后臺傳遞過來的json格式的list數(shù)據(jù)綁定到下拉菜單select

    后臺傳遞過來的json格式的list數(shù)據(jù)如何綁定到下拉菜單,下面有個不錯的示例,感興趣的朋友可以參考下
    2013-10-10
  • jsp filter 過濾器功能與簡單用法示例

    jsp filter 過濾器功能與簡單用法示例

    這篇文章主要介紹了jsp filter 過濾器功能與簡單用法,結(jié)合實例形式詳細(xì)分析了jsp filter 過濾器的功能、使用方法及操作注意事項,需要的朋友可以參考下
    2019-11-11
  • JSP session配置對web應(yīng)用的影響

    JSP session配置對web應(yīng)用的影響

    這篇文章主要介紹了JSP session配置對web應(yīng)用的影響的相關(guān)資料,需要的朋友可以參考下
    2017-05-05
  • JSP中js傳遞和解析URL參數(shù)以及中文轉(zhuǎn)碼和解碼問題

    JSP中js傳遞和解析URL參數(shù)以及中文轉(zhuǎn)碼和解碼問題

    有關(guān)js傳遞和解析URL參數(shù)以及中文轉(zhuǎn)碼和解碼問題,都是在js中很常見的,下面通過示例簡單為大家介紹下,感興趣的朋友可以參考下
    2013-10-10
  • 基于JSP HttpServlet的詳細(xì)介紹

    基于JSP HttpServlet的詳細(xì)介紹

    本篇文章小編為大家介紹,基于JSP HttpServlet的詳細(xì)介紹,需要的朋友參考下
    2013-04-04
  • 最新評論