欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

C#.Net基于正則表達(dá)式抓取百度百家文章列表的方法示例

 更新時(shí)間:2017年08月24日 10:48:57   作者:馬羊  
這篇文章主要介紹了C#.Net基于正則表達(dá)式抓取百度百家文章列表的方法,結(jié)合實(shí)例形式分析了C#獲取百度百家文章內(nèi)容及使用正則表達(dá)式匹配標(biāo)題、內(nèi)容、地址等相關(guān)操作技巧,需要的朋友可以參考下

本文實(shí)例講述了C#.Net基于正則表達(dá)式抓取百度百家文章列表的方法。分享給大家供大家參考,具體如下:

工作之余,學(xué)習(xí)了一下正則表達(dá)式,鑒于實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn),于是便寫(xiě)了一個(gè)利用正則表達(dá)式抓取百度百家文章的例子,具體過(guò)程請(qǐng)看下面源碼:

一、獲取百度百家網(wǎng)頁(yè)內(nèi)容

public List<string[]> GetUrl()
{
  try
  {
    string url = "http://baijia.baidu.com/";
    WebRequest webRequest = WebRequest.Create(url);
    WebResponse webResponse = webRequest.GetResponse();
    StreamReader reader = new StreamReader(webResponse.GetResponseStream());
    string result = reader.ReadToEnd();
    reader.Close();
    webResponse.Close();
    return AnalysisHtml(result);
  }
  catch (Exception ex)
  {
    throw ex;
  }
}

二、通過(guò)正則表達(dá)式篩選

public List<string[]> AnalysisHtml(string htmlContent)
{
  List<string[]> list = new List<string[]>();
  string strPattern = "<h3><a\\s*.*>(?<Title>[^<]+)</a></h3>.*\\s*<p\\s*class=\"feeds-item-text\">(?<Abstract>[^<]+)<a\\s*href=\"(?<Url>.*)\"\\s*target=\"_blank\"\\s*class=\"feeds-item-more\"\\s*mon=\".*\\s*\">.*\\s*</a></p>";
  Regex regex = new Regex(strPattern, RegexOptions.IgnoreCase | RegexOptions.Multiline | RegexOptions.CultureInvariant);
  if (regex.IsMatch(htmlContent))
  {
    MatchCollection matchCollection = regex.Matches(htmlContent);
    foreach (Match match in matchCollection)
    {
      string[] str = new string[3];
      str[0] = match.Groups[1].Value;//獲取到的是列表數(shù)據(jù)的標(biāo)題
      str[1] = match.Groups[2].Value;//獲取到的是內(nèi)容
      str[2] = match.Groups[3].Value;//獲取到的是鏈接到的地址
      list.Add(str);
    }
  }
  return list;
}

附:完整實(shí)例代碼點(diǎn)擊此處本站下載。

PS:這里再為大家提供2款非常方便的正則表達(dá)式工具供大家參考使用:

JavaScript正則表達(dá)式在線(xiàn)測(cè)試工具:
http://tools.jb51.net/regex/javascript

正則表達(dá)式在線(xiàn)生成工具:
http://tools.jb51.net/regex/create_reg

更多關(guān)于C#相關(guān)內(nèi)容感興趣的讀者可查看本站專(zhuān)題:《C#正則表達(dá)式用法總結(jié)》、《C#編碼操作技巧總結(jié)》、《C#常見(jiàn)控件用法教程》、《WinForm控件用法總結(jié)》、《C#數(shù)據(jù)結(jié)構(gòu)與算法教程》、《C#面向?qū)ο蟪绦蛟O(shè)計(jì)入門(mén)教程》及《C#程序設(shè)計(jì)之線(xiàn)程使用技巧總結(jié)

希望本文所述對(duì)大家C#程序設(shè)計(jì)有所幫助。

相關(guān)文章

  • c#的sortedlist使用方法

    c#的sortedlist使用方法

    這篇文章主要介紹了c#的sortedlist使用方法,需要的朋友可以參考下
    2014-05-05
  • WinForm項(xiàng)目開(kāi)發(fā)中Excel用法實(shí)例解析

    WinForm項(xiàng)目開(kāi)發(fā)中Excel用法實(shí)例解析

    這篇文章主要介紹了WinForm項(xiàng)目開(kāi)發(fā)中Excel用法,非常實(shí)用,需要的朋友可以參考下
    2014-08-08
  • C#語(yǔ)言主要語(yǔ)言區(qū)域

    C#語(yǔ)言主要語(yǔ)言區(qū)域

    這篇文章主要介紹了C#語(yǔ)言主要語(yǔ)言區(qū)域,C#語(yǔ)言區(qū)域主要包括數(shù)組、集合和 LINQ、數(shù)組等,下面文化在哪個(gè)內(nèi)容圍繞這些區(qū)域得相關(guān)資料了展開(kāi)詳情,需要的小伙伴可以參考一下
    2021-12-12
  • Unity Shader實(shí)現(xiàn)模糊效果

    Unity Shader實(shí)現(xiàn)模糊效果

    這篇文章主要為大家詳細(xì)介紹了Unity Shader實(shí)現(xiàn)模糊效果,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2021-08-08
  • C#字典Dictionary的用法說(shuō)明(注重性能版)

    C#字典Dictionary的用法說(shuō)明(注重性能版)

    這篇文章主要介紹了C#字典Dictionary的用法說(shuō)明,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2021-04-04
  • C#刪除Word文檔中的段落的方法示例

    C#刪除Word文檔中的段落的方法示例

    在編輯Word文檔時(shí),我們有時(shí)需要調(diào)整段落的布局、刪除不必要的段落以?xún)?yōu)化文檔的結(jié)構(gòu)和閱讀體驗(yàn),本文將通過(guò)以下3個(gè)簡(jiǎn)單示例演示如何使用免費(fèi).NET庫(kù)刪除Word文檔中的段落 ,需要的朋友可以參考下
    2024-09-09
  • C#/VB.NET實(shí)現(xiàn)將XML轉(zhuǎn)為PDF

    C#/VB.NET實(shí)現(xiàn)將XML轉(zhuǎn)為PDF

    可擴(kuò)展標(biāo)記語(yǔ)言(XML)文件是一種標(biāo)準(zhǔn)的文本文件,它使用特定的標(biāo)記來(lái)描述文檔的結(jié)構(gòu)以及其他特性。本文將利用C#實(shí)現(xiàn)XML文件轉(zhuǎn)PDF?,需要的可以參考一下
    2022-03-03
  • c# 閉包的相關(guān)知識(shí)以及需要注意的地方

    c# 閉包的相關(guān)知識(shí)以及需要注意的地方

    這篇文章主要介紹了c# 閉包的相關(guān)知識(shí)以及需要注意的地方,文中講解非常細(xì)致,代碼幫助大家理解和學(xué)習(xí),感興趣的朋友可以參考下
    2020-06-06
  • C#操作注冊(cè)表的方法

    C#操作注冊(cè)表的方法

    這篇文章介紹了C#操作注冊(cè)表的方法,文中通過(guò)示例代碼介紹的非常詳細(xì)。對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2022-05-05
  • C# using三種使用方法

    C# using三種使用方法

    這篇文章主要為大家詳細(xì)介紹了C# using三種使用方法,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2017-01-01

最新評(píng)論