欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

java正則表達式匹配網(wǎng)頁所有網(wǎng)址和鏈接文字的示例

 更新時間:2014年03月21日 14:53:21   作者:  
這篇文章主要介紹了java正則表達式匹配網(wǎng)頁所有網(wǎng)址和鏈接文字java正則表達式匹配,需要的朋友可以參考下

復制代碼 代碼如下:

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import java.net.*;
import java.io.*;
import java.util.regex.*;

/*
根據(jù)指定的規(guī)則,通過構造正則表達式獲取網(wǎng)址
*/

public class Urls
{
    private String startUrl;                                         //開始采集網(wǎng)址
    String  urlContent;
    String ContentArea;
    private String strAreaBegin ,strAreaEnd ;            //采集區(qū)域開始采集字符串和結束采集字符串
    private String stringInUrl,stringNotInUrl;       
    String strContent;//獲得的采集內(nèi)容
    String[] allUrls;                                                            //采集到的所有網(wǎng)址
    private String  regex;                                                 //采集規(guī)則

    UrlAndTitle   urlAndTitle=new UrlAndTitle();    //存儲網(wǎng)址和標題                   

   
    public static void main(String[] args)
    {
         Urls myurl=new Urls("<body","/body>");
         myurl.getStartUrl("http://www.zuzwn.com/");
         myurl.getUrlContent();
         myurl.getContentArea();
         myurl.getStartUrl("http://www.zuzwn.com/");
         myurl.getStringNotInUrl("google");
         myurl.Urls();

        //System.out.println("startUrl:"+myurl.startUrl);
        //System.out.println("urlcontent:"+myurl.urlContent);
        //System.out.println("ContentArea:"+myurl.ContentArea);

    }

   
    //初始化構造函數(shù) strAreaBegin 和strAreaEnd

    public Urls (String strAreaBegin,String strAreaEnd)
    {
        this.strAreaBegin=strAreaBegin;
        this.strAreaEnd=strAreaEnd;
  }

  //
    public void Urls()
    {
        int i=0;
        //String regex ="<a href="?'?http://[a-zA-Z0-9]+/.[a-zA-Z0-9]+/.[a-zA-Z]+/?[/.?[/S|/s]]+[a>]$";
        String regex ="<a.*?/a>";
         //String regex ="http://.*?>";
        Pattern pt=Pattern.compile(regex);
        Matcher mt=pt.matcher(ContentArea);
        while(mt.find())
         {
                 System.out.println(mt.group());
                 i++;

                 //獲取標題
                 Matcher title=Pattern.compile(">.*?</a>").matcher(mt.group());
                 while(title.find())
                 {
                      System.out.println("標題:"+title.group().replaceAll(">|</a>",""));
                 }

                 //獲取網(wǎng)址
                 Matcher myurl=Pattern.compile("href=.*?>").matcher(mt.group());
                 while(myurl.find())
                 {
                      System.out.println("網(wǎng)址:"+myurl.group().replaceAll("href=|>",""));
                 }

                 System.out.println();

                
         }

        System.out.println("共有"+i+"個符合結果");

    }   

    //獲得開始采集網(wǎng)址
    public void getStartUrl(String startUrl)
    {
        this.startUrl=startUrl;
    }

    //獲得網(wǎng)址所在內(nèi)容;
    public void getUrlContent()
    {

        StringBuffer is=new StringBuffer();
        try
        {
            URL myUrl=new URL(startUrl);
            BufferedReader br= new BufferedReader(
                                                        new InputStreamReader(myUrl.openStream()));

            String s;                                               
            while((s=br.readLine())!=null)
            {
                is.append(s);
            }                                           
            urlContent=is.toString();
        }
    catch(Exception e)

    {
        System.out.println("網(wǎng)址文件未能輸出");
        e.printStackTrace();
    }

       
    }

   
    //獲得網(wǎng)址所在的匹配區(qū)域部分
    public void getContentArea()
    {
         int pos1=0,pos2=0;
         pos1= urlContent.indexOf(strAreaBegin)+strAreaBegin.length();
         pos2=urlContent.indexOf(strAreaEnd,pos1);
         ContentArea=urlContent.substring(pos1,pos2);
    }

    //以下兩個函數(shù)獲得網(wǎng)址應該要包含的關鍵字及不能包含的關鍵字
    //這里只做初步的實驗。后期,保護的關鍵字及不能包含的關鍵字應該是不只一個的。
    public void getStringInUrl(String stringInUrl)
    {
         this.stringInUrl=stringInUrl;       

    }

    public void getStringNotInUrl(String stringNotInUrl)
    {
        this.stringNotInUrl=stringNotInUrl;
    }

    //獲取采集規(guī)則

    //獲取url網(wǎng)址
    public void getUrl()
    {

    }

    public String getRegex()
    {
        return regex;

    }

    class UrlAndTitle
    {
        String myURL;
        String title;
    }
}

相關文章

  • SpringBoot實現(xiàn)動態(tài)控制定時任務支持多參數(shù)功能

    SpringBoot實現(xiàn)動態(tài)控制定時任務支持多參數(shù)功能

    這篇文章主要介紹了SpringBoot實現(xiàn)動態(tài)控制定時任務-支持多參數(shù)功能,本文通過實例代碼給大家介紹的非常詳細,具有一定的參考借鑒價值,需要的朋友可以參考下
    2019-05-05
  • springboot2.0整合logback日志的詳細代碼

    springboot2.0整合logback日志的詳細代碼

    這篇文章主要介紹了springboot2.0整合logback日志的應用場景分析,本文通過實例代碼給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2022-02-02
  • Java通過MySQL的加解密函數(shù)實現(xiàn)敏感字段存儲

    Java通過MySQL的加解密函數(shù)實現(xiàn)敏感字段存儲

    這篇文章主要介紹了如何在Java中MySQL的加解密函數(shù)實現(xiàn)敏感字段存儲,文中的示例代碼講解詳細,感興趣的小伙伴可以跟隨小編一起學習一下
    2022-03-03
  • java多線程中的生產(chǎn)者和消費者隊列詳解

    java多線程中的生產(chǎn)者和消費者隊列詳解

    這篇文章主要介紹了java多線程中的生產(chǎn)者和消費者隊列詳解,隊列,是一種數(shù)據(jù)結構,除了優(yōu)先級隊列和LIFO隊列外,隊列都是以FIFO(先進先出)的方式對各個元素進行排序的,需要的朋友可以參考下
    2024-01-01
  • Java中的堆排序詳解

    Java中的堆排序詳解

    這篇文章主要介紹了Java中的堆排序詳解,堆排序的重點,在于排序的方式,堆排序,就是以堆的形式去排序,毫無疑問,了解堆很重要,文中提供了圖解與部分代碼,需要的朋友可以參考下
    2023-08-08
  • Spring自帶的校驗框架Validation的使用實例

    Spring自帶的校驗框架Validation的使用實例

    今天小編就為大家分享一篇關于Spring自帶的校驗框架Validation的使用實例,小編覺得內(nèi)容挺不錯的,現(xiàn)在分享給大家,具有很好的參考價值,需要的朋友一起跟隨小編來看看吧
    2019-03-03
  • SpringMVC中控制器返回JSON數(shù)據(jù)的實現(xiàn)

    SpringMVC中控制器返回JSON數(shù)據(jù)的實現(xiàn)

    本文主要介紹了SpringMVC中控制器返回JSON數(shù)據(jù)的實現(xiàn),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2023-07-07
  • SpringBoot+Vue+JWT的前后端分離登錄認證詳細步驟

    SpringBoot+Vue+JWT的前后端分離登錄認證詳細步驟

    這篇文章主要介紹了SpringBoot+Vue+JWT的前后端分離登錄認證,其實創(chuàng)建后端springboot工程也很簡單,本文安裝idea步驟一步步給大家詳細介紹,需要的朋友可以參考下
    2021-09-09
  • Elasticsearch(ES)多種查詢方式案例

    Elasticsearch(ES)多種查詢方式案例

    Elasticsearch是一個分布式的RESTful搜索和分析引擎,可讓您輕松地大規(guī)模存儲,搜索和分析,這篇文章主要給大家介紹了關于Elasticsearch(ES)多種查詢方式的相關資料,需要的朋友可以參考下
    2023-09-09
  • springboot ehcache 配置使用方法代碼詳解

    springboot ehcache 配置使用方法代碼詳解

    EhCache是一個比較成熟的Java緩存框架,Springboot對ehcache的使用非常支持,所以在Springboot中只需做些配置就可使用,且使用方式也簡易,今天給大家分享springboot ehcache 配置使用教程,一起看看吧
    2021-06-06

最新評論