欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

C#網絡爬蟲代碼分享 C#簡單的爬取工具

 更新時間:2016年07月25日 14:41:06   作者:魘  
這篇文章主要為大家詳細介紹了C#網絡爬蟲代碼,教大家如何制作了簡單的爬取工具,感興趣的小伙伴們可以參考一下

公司編輯妹子需要爬取網頁內容,叫我?guī)兔ψ隽艘缓唵蔚呐廊」ぞ?br />

這是爬取網頁內容,像是這對大家來說都是不難得,但是在這里有一些小改動,代碼獻上,大家參考

private string GetHttpWebRequest(string url) 
    { 
      HttpWebResponse result; 
      string strHTML = string.Empty; 
      try 
      { 
        Uri uri = new Uri(url); 
        WebRequest webReq = WebRequest.Create(uri); 
        WebResponse webRes = webReq.GetResponse(); 
 
        HttpWebRequest myReq = (HttpWebRequest)webReq; 
        myReq.UserAgent = "User-Agent:Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; .NET CLR 1.0.3705"; 
        myReq.Accept = "*/*"; 
        myReq.KeepAlive = true; 
        myReq.Headers.Add("Accept-Language", "zh-cn,en-us;q=0.5"); 
        result = (HttpWebResponse)myReq.GetResponse(); 
        Stream receviceStream = result.GetResponseStream(); 
        StreamReader readerOfStream = new StreamReader(receviceStream, System.Text.Encoding.GetEncoding("utf-8")); 
        strHTML = readerOfStream.ReadToEnd(); 
        readerOfStream.Close(); 
        receviceStream.Close(); 
        result.Close(); 
      } 
      catch 
      { 
        Uri uri = new Uri(url); 
        WebRequest webReq = WebRequest.Create(uri); 
        HttpWebRequest myReq = (HttpWebRequest)webReq; 
        myReq.UserAgent = "User-Agent:Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; .NET CLR 1.0.3705"; 
        myReq.Accept = "*/*"; 
        myReq.KeepAlive = true; 
        myReq.Headers.Add("Accept-Language", "zh-cn,en-us;q=0.5"); 
        //result = (HttpWebResponse)myReq.GetResponse(); 
        try 
        { 
          result = (HttpWebResponse)myReq.GetResponse(); 
        } 
        catch (WebException ex) 
        { 
          result = (HttpWebResponse)ex.Response; 
        } 
        Stream receviceStream = result.GetResponseStream(); 
        StreamReader readerOfStream = new StreamReader(receviceStream, System.Text.Encoding.GetEncoding("gb2312")); 
        strHTML = readerOfStream.ReadToEnd(); 
        readerOfStream.Close(); 
        receviceStream.Close(); 
        result.Close(); 
      } 
      return strHTML; 
    }

這是根據url爬取網頁遠嗎,有一些小改動,很多網頁有不同的編碼格式,甚至有些網站做了反爬取的防范,這個方法經過能夠改動也能爬去 

以下是爬取網頁所有的網址鏈接

 /// <summary> 
    /// 提取HTML代碼中的網址 
    /// </summary> 
    /// <param name="htmlCode"></param> 
    /// <returns></returns> 
    private static List<string> GetHyperLinks(string htmlCode, string url) 
    { 
      ArrayList al = new ArrayList(); 
      bool IsGenxin = false; 
      StringBuilder weburlSB = new StringBuilder();//SQL 
      StringBuilder linkSb = new StringBuilder();//展示數據 
      List<string> Weburllistzx = new List<string>();//新增 
      List<string> Weburllist = new List<string>();//舊的 
      string ProductionContent = htmlCode; 
      Regex reg = new Regex(@"http(s)?://([\w-]+\.)+[\w-]+/?"); 
      string wangzhanyuming = reg.Match(url, 0).Value; 
      MatchCollection mc = Regex.Matches(ProductionContent.Replace("href=\"/", "href=\"" + wangzhanyuming).Replace("href='/", "href='" + wangzhanyuming).Replace("href=/", "href=" + wangzhanyuming).Replace("href=\"./", "href=\"" + wangzhanyuming), @"<[aA][^>]* href=[^>]*>", RegexOptions.Singleline); 
      int Index = 1; 
      foreach (Match m in mc) 
      { 
        MatchCollection mc1 = Regex.Matches(m.Value, @"[a-zA-z]+://[^\s]*", RegexOptions.Singleline); 
        if (mc1.Count > 0) 
        { 
          foreach (Match m1 in mc1) 
          { 
            string linkurlstr = string.Empty; 
            linkurlstr = m1.Value.Replace("\"", "").Replace("'", "").Replace(">", "").Replace(";", ""); 
            weburlSB.Append("$-$"); 
            weburlSB.Append(linkurlstr); 
            weburlSB.Append("$_$"); 
            if (!Weburllist.Contains(linkurlstr) && !Weburllistzx.Contains(linkurlstr)) 
            { 
              IsGenxin = true; 
              Weburllistzx.Add(linkurlstr); 
              linkSb.AppendFormat("{0}<br/>", linkurlstr); 
            } 
          } 
        } 
        else 
        { 
          if (m.Value.IndexOf("javascript") == -1) 
          { 
            string amstr = string.Empty; 
            string wangzhanxiangduilujin = string.Empty; 
            wangzhanxiangduilujin = url.Substring(0, url.LastIndexOf("/") + 1); 
            amstr = m.Value.Replace("href=\"", "href=\"" + wangzhanxiangduilujin).Replace("href='", "href='" + wangzhanxiangduilujin); 
            MatchCollection mc11 = Regex.Matches(amstr, @"[a-zA-z]+://[^\s]*", RegexOptions.Singleline); 
            foreach (Match m1 in mc11) 
            { 
              string linkurlstr = string.Empty; 
              linkurlstr = m1.Value.Replace("\"", "").Replace("'", "").Replace(">", "").Replace(";", ""); 
              weburlSB.Append("$-$"); 
              weburlSB.Append(linkurlstr); 
              weburlSB.Append("$_$"); 
              if (!Weburllist.Contains(linkurlstr) && !Weburllistzx.Contains(linkurlstr)) 
              { 
                IsGenxin = true; 
                Weburllistzx.Add(linkurlstr); 
                linkSb.AppendFormat("{0}<br/>", linkurlstr); 
              } 
            } 
          } 
        } 
        Index++; 
      } 
      return Weburllistzx; 
    }

這塊的技術其實就是簡單的使用了正則去匹配!接下來獻上獲取標題,以及存儲到xml文件的方法

/// <summary> 
    /// // 把網址寫入xml文件 
    /// </summary> 
    /// <param name="strURL"></param> 
    /// <param name="alHyperLinks"></param> 
    private static void WriteToXml(string strURL, List<string> alHyperLinks) 
    { 
      XmlTextWriter writer = new XmlTextWriter(@"D:\HyperLinks.xml", Encoding.UTF8); 
      writer.Formatting = Formatting.Indented; 
      writer.WriteStartDocument(false); 
      writer.WriteDocType("HyperLinks", null, "urls.dtd", null); 
      writer.WriteComment("提取自" + strURL + "的超鏈接"); 
      writer.WriteStartElement("HyperLinks"); 
      writer.WriteStartElement("HyperLinks", null); 
      writer.WriteAttributeString("DateTime", DateTime.Now.ToString()); 
      foreach (string str in alHyperLinks) 
      { 
        string title = GetDomain(str); 
        string body = str; 
        writer.WriteElementString(title, null, body); 
      } 
      writer.WriteEndElement(); 
      writer.WriteEndElement(); 
      writer.Flush(); 
      writer.Close(); 
    } 
    /// <summary> 
    /// 獲取網址的域名后綴 
    /// </summary> 
    /// <param name="strURL"></param> 
    /// <returns></returns> 
    private static string GetDomain(string strURL) 
    { 
      string retVal; 
      string strRegex = @"(\.com/|\.net/|\.cn/|\.org/|\.gov/)"; 
      Regex r = new Regex(strRegex, RegexOptions.IgnoreCase); 
      Match m = r.Match(strURL); 
      retVal = m.ToString(); 
      strRegex = @"\.|/$"; 
      retVal = Regex.Replace(retVal, strRegex, "").ToString(); 
      if (retVal == "") 
        retVal = "other"; 
      return retVal; 
    } 
/// <summary> 
    /// 獲取標題 
    /// </summary> 
    /// <param name="html"></param> 
    /// <returns></returns> 
    private static string GetTitle(string html) 
    { 
      string titleFilter = @"<title>[\s\S]*?</title>"; 
      string h1Filter = @"<h1.*?>.*?</h1>"; 
      string clearFilter = @"<.*?>"; 
 
      string title = ""; 
      Match match = Regex.Match(html, titleFilter, RegexOptions.IgnoreCase); 
      if (match.Success) 
      { 
        title = Regex.Replace(match.Groups[0].Value, clearFilter, ""); 
      } 
 
      // 正文的標題一般在h1中,比title中的標題更干凈 
      match = Regex.Match(html, h1Filter, RegexOptions.IgnoreCase); 
      if (match.Success) 
      { 
        string h1 = Regex.Replace(match.Groups[0].Value, clearFilter, ""); 
        if (!String.IsNullOrEmpty(h1) && title.StartsWith(h1)) 
        { 
          title = h1; 
        } 
      } 
      return title; 
    }

這就是所用的全部方法,還是有很多需要改進之處!大家如果有發(fā)現不足之處還請指出,謝謝!

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。

相關文章

  • C# 4.0 大數的運算--BigInteger的應用詳解

    C# 4.0 大數的運算--BigInteger的應用詳解

    本篇文章是對C# 4.0 大數的運算 BigInteger的應用進行了詳細的分析介紹,需要的朋友參考下
    2013-05-05
  • C#實現矩陣乘法實例分析

    C#實現矩陣乘法實例分析

    這篇文章主要介紹了C#實現矩陣乘法的方法,實例分析了通過C#數組構造矩陣及實現矩陣乘法的相關技巧,具有一定參考借鑒價值,需要的朋友可以參考下
    2015-04-04
  • .net中常用的正則表達式

    .net中常用的正則表達式

    這篇文章介紹了.net中常用的正則表達式,文中通過示例代碼介紹的非常詳細。對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2022-04-04
  • C#實現計算器功能(winform版)

    C#實現計算器功能(winform版)

    這篇文章主要為大家詳細介紹了C#實現winform版的計算器功能,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2022-01-01
  • C#拷貝文件簡單實現方法

    C#拷貝文件簡單實現方法

    這篇文章主要介紹了C#拷貝文件簡單實現方法,主要分析了FileInfo類中CopyTo方法針對文件復制的操作技巧,非常簡單實用,需要的朋友可以參考下
    2015-04-04
  • C#中委托的進一步理解

    C#中委托的進一步理解

    這篇文章主要介紹了C#中委托的進一步理解,本文講解了委托類型、建立委托鏈、移除委托鏈等內容,需要的朋友可以參考下
    2015-02-02
  • C#實現中英文混合字符串截取的方法

    C#實現中英文混合字符串截取的方法

    這篇文章主要介紹了C#實現中英文混合字符串截取的方法,是C#字符串操作的常用方法,需要的朋友可以參考下
    2014-08-08
  • C#日期格式強制轉換方法(推薦)

    C#日期格式強制轉換方法(推薦)

    下面小編就為大家分享一C#日期格式強制轉換的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2017-11-11
  • C#中抽象類與接口的區(qū)別詳解

    C#中抽象類與接口的區(qū)別詳解

    本文主要介紹了C#中抽象類與接口的區(qū)別。具有很好的參考價值。下面跟著小編一起來看下吧
    2017-03-03
  • c#獲得目標服務器中所有數據庫名、表名、列名的實現代碼

    c#獲得目標服務器中所有數據庫名、表名、列名的實現代碼

    這篇文章主要介紹了c#獲得目標服務器中所有數據庫名、表名、列名的方法,需要的朋友可以參考下
    2014-05-05

最新評論