欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

springboot+webmagic實現(xiàn)java爬蟲jdbc及mysql的方法

 更新時間:2018年08月19日 11:02:25   作者:*眉間緣*  
今天小編就為大家分享一篇springboot+webmagic實現(xiàn)java爬蟲jdbc及mysql的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧

前段時間需要爬取網(wǎng)頁上的信息,自己對于爬蟲沒有任何了解,就了解了一下webmagic,寫了個簡單的爬蟲。

一、首先介紹一下webmagic:

webmagic采用完全模塊化的設(shè)計,功能覆蓋整個爬蟲的生命周期(鏈接提取、頁面下載、內(nèi)容抽取、持久化),支持多線程抓取,分布式抓取,并支持自動重試、自定義UA/cookie等功能。

實現(xiàn)理念:

Maven依賴:

<dependency>
   <groupId>us.codecraft</groupId>
   <artifactId>webmagic-core</artifactId>
   <version>0.7.3</version>
  </dependency>
  <dependency>
   <groupId>us.codecraft</groupId>
   <artifactId>webmagic-extension</artifactId>
   <version>0.7.3</version>
  </dependency>

  <dependency>
   <groupId>us.codecraft</groupId>
   <artifactId>webmagic-extension</artifactId>
   <version>0.7.3</version>
   <exclusions>
    <exclusion>
     <groupId>org.slf4j</groupId>
     <artifactId>slf4j-log4j12</artifactId>
    </exclusion>
   </exclusions>
  </dependency>

jdbc模式:

ublic class CsdnBlogDao {
  private Connection conn = null;
  private Statement stmt = null;

  public CsdnBlogDao() {
    try {
      Class.forName("com.mysql.jdbc.Driver");
      String url = "jdbc:mysql://localhost:3306/test?"
          + "user=***&password=***3&useUnicode=true&characterEncoding=UTF8";
      conn = DriverManager.getConnection(url);
      stmt = conn.createStatement();
    } catch (ClassNotFoundException e) {
      e.printStackTrace();
    } catch (SQLException e) {
      e.printStackTrace();
    }

  }

  public int add(CsdnBlog csdnBlog) {
    try {
      String sql = "INSERT INTO `test`.`csdnblog` (`keyes`, `titles`, `content` , `dates`, `tags`, `category`, `views`, `comments`, `copyright`) VALUES (?, ?, ?, ?, ?, ?, ?, ?,?);";
      PreparedStatement ps = conn.prepareStatement(sql);
      ps.setInt(1, csdnBlog.getKey());
      ps.setString(2, csdnBlog.getTitle());
      ps.setString(3,csdnBlog.getContent());
      ps.setString(4, csdnBlog.getDates());
      ps.setString(5, csdnBlog.getTags());
      ps.setString(6, csdnBlog.getCategory());
      ps.setInt(7, csdnBlog.getView());
      ps.setInt(8, csdnBlog.getComments());
      ps.setInt(9, csdnBlog.getCopyright());
      return ps.executeUpdate();
    } catch (SQLException e) {
      e.printStackTrace();
    }
    return -1;
  }
}

實體類:

public class CsdnBlog {
  private int key;// 編號

  private String title;// 標(biāo)題

  private String dates;// 日期

  private String tags;// 標(biāo)簽

  private String category;// 分類

  private int view;// 閱讀人數(shù)

  private int comments;// 評論人數(shù)

  private int copyright;// 是否原創(chuàng)

  private String content; //文字內(nèi)容

  public String getContent() {
    return content;
  }

  public void setContent(String content) {
    this.content = content;
  }

  public int getKey() {
    return key;
  }

  public void setKey(int key) {
    this.key = key;
  }

  public String getTitle() {
    return title;
  }

  public void setTitle(String title) {
    this.title = title;
  }

  public String getDates() {
    return dates;
  }

  public void setDates(String dates) {
    this.dates = dates;
  }

  public String getTags() {
    return tags;
  }

  public void setTags(String tags) {
    this.tags = tags;
  }

  public String getCategory() {
    return category;
  }

  public void setCategory(String category) {
    this.category = category;
  }

  public int getView() {
    return view;
  }

  public void setView(int view) {
    this.view = view;
  }

  public int getComments() {
    return comments;
  }

  public void setComments(int comments) {
    this.comments = comments;
  }

  public int getCopyright() {
    return copyright;
  }

  public void setCopyright(int copyright) {
    this.copyright = copyright;
  }

  @Override
  public String toString() {
    return "CsdnBlog [key=" + key + ", title=" + title + ", content=" + content + ",dates=" + dates + ", tags=" + tags + ", category="
        + category + ", view=" + view + ", comments=" + comments + ", copyright=" + copyright + "]";
  }
}

啟動類:

public class CsdnBlogPageProcessor implements PageProcessor {


  private static String username="CHENYUFENG1991"; // 設(shè)置csdn用戶名

  private static int size = 0;// 共抓取到的文章數(shù)量

  // 抓取網(wǎng)站的相關(guān)配置,包括:編碼、抓取間隔、重試次數(shù)等
  private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);

  public Site getSite() {
    return site;
  }


  // process是定制爬蟲邏輯的核心接口,在這里編寫抽取邏輯
  public void process(Page page) {
    // 列表頁
    if (!page.getUrl().regex("http://blog\\.csdn\\.net/" + username + "/article/details/\\d+").match()) {
      // 添加所有文章頁
      page.addTargetRequests(page.getHtml().xpath("http://div[@id='article_list']").links()// 限定文章列表獲取區(qū)域
          .regex("/" + username + "/article/details/\\d+")
          .replace("/" + username + "/", "http://blog.csdn.net/" + username + "/")// 巧用替換給把相對url轉(zhuǎn)換成絕對url
          .all());
      // 添加其他列表頁
      page.addTargetRequests(page.getHtml().xpath("http://div[@id='papelist']").links()// 限定其他列表頁獲取區(qū)域
          .regex("/" + username + "/article/list/\\d+")
          .replace("/" + username + "/", "http://blog.csdn.net/" + username + "/")// 巧用替換給把相對url轉(zhuǎn)換成絕對url
          .all());
      // 文章頁
    } else {
      size++;// 文章數(shù)量加1
      // 用CsdnBlog類來存抓取到的數(shù)據(jù),方便存入數(shù)據(jù)庫
      CsdnBlog csdnBlog = new CsdnBlog();
      // 設(shè)置編號
      csdnBlog.setKey(Integer.parseInt(
          page.getUrl().regex("http://blog\\.csdn\\.net/" + username + "/article/details/(\\d+)").get()));
      // 設(shè)置標(biāo)題
      csdnBlog.setTitle(
          page.getHtml().xpath("http://div[@class='article_title']//span[@class='link_title']/a/text()").get());

      //設(shè)置內(nèi)容
      csdnBlog.setContent(
          page.getHtml().xpath("http://div[@class='article_content']/allText()").get());

      // 設(shè)置日期
      csdnBlog.setDates(
          page.getHtml().xpath("http://div[@class='article_r']/span[@class='link_postdate']/text()").get());
      // 設(shè)置標(biāo)簽(可以有多個,用,來分割)
      csdnBlog.setTags(listToString(page.getHtml().xpath("http://div[@class='article_l']/span[@class='link_categories']/a/allText()").all()));
      // 設(shè)置類別(可以有多個,用,來分割)
      csdnBlog.setCategory(listToString(page.getHtml().xpath("http://div[@class='category_r']/label/span/text()").all()));
      // 設(shè)置閱讀人數(shù)
      csdnBlog.setView(Integer.parseInt(page.getHtml().xpath("http://div[@class='article_r']/span[@class='link_view']")
          .regex("(\\d+)人閱讀").get()));
      // 設(shè)置評論人數(shù)
      csdnBlog.setComments(Integer.parseInt(page.getHtml()
          .xpath("http://div[@class='article_r']/span[@class='link_comments']").regex("\\((\\d+)\\)").get()));
      // 設(shè)置是否原創(chuàng)
      csdnBlog.setCopyright(page.getHtml().regex("bog_copyright").match() ? 1 : 0);
      // 把對象存入數(shù)據(jù)庫
      new CsdnBlogDao().add(csdnBlog);
      // 把對象輸出控制臺
      System.out.println(csdnBlog);
    }
  }

  // 把list轉(zhuǎn)換為string,用,分割
  public static String listToString(List<String> stringList) {
    if (stringList == null) {
      return null;
    }
    StringBuilder result = new StringBuilder();
    boolean flag = false;
    for (String string : stringList) {
      if (flag) {
        result.append(",");
      } else {
        flag = true;
      }
      result.append(string);
    }
    return result.toString();
  }

  public static void main(String[] args) {
    long startTime, endTime;
    System.out.println("【爬蟲開始】...");
    startTime = System.currentTimeMillis();
    // 從用戶博客首頁開始抓,開啟5個線程,啟動爬蟲
    Spider.create(new CsdnBlogPageProcessor()).addUrl("http://blog.csdn.net/" + username).thread(5).run();
    endTime = System.currentTimeMillis();
    System.out.println("【爬蟲結(jié)束】共抓取" + size + "篇文章,耗時約" + ((endTime - startTime) / 1000) + "秒,已保存到數(shù)據(jù)庫,請查收!");
  }
}

使用mysql類型:

public class GamePageProcessor implements PageProcessor {

  private static final Logger logger = LoggerFactory.getLogger(GamePageProcessor.class);
  private static DianJingService d;
  private static BannerService bs;
  private static SportService ss;
  private static YuLeNewsService ys;

  private static UpdateService ud ;
  // 抓取網(wǎng)站的相關(guān)配置,包括:編碼、抓取間隔、重試次數(shù)等
  private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);

  public Site getSite() {
    return site;
  }
  // process是定制爬蟲邏輯的核心接口,在這里編寫抽取邏輯
  public static void main(String[] args) {
    ConfigurableApplicationContext context= SpringApplication.run(GamePageProcessor.class, args);
     d = context.getBean(DianJingService.class);
    //Spider.create(new GamePageProcessor()).addUrl("網(wǎng)址").thread(5).run();
  }

  public void process(Page page) {
    Selectable url = page.getUrl();
    if (url.toString().equals("網(wǎng)址")) {
      DianJingVideo dv = new DianJingVideo();
      List<String> ls = page.getHtml().xpath("http://div[@class='v']/div[@class='v-meta va']/div[@class='v-meta-title']/a/text()").all();
      //hrefs
      List<String> ls1 = page.getHtml().xpath("http://div[@class='v']/div[@class='v-link']/a/@href").all();//獲取a標(biāo)簽的href

      List<String> ls2 = page.getHtml().xpath("http://div[@class='v']/div[@class='v-meta va']/div[@class='v-meta-entry']/div[@class='v-meta-data']/span[@class='r']/text()").all();
      //photo
      List<String> ls3 = page.getHtml().xpath("http://div[@class='v']/div[@class='v-thumb']/img/@src").all();

      for (int i = 0; i < 5; i++) {
        dv.setTitles(ls.get(i));
        dv.setCategory("");
        dv.setDates(ls2.get(i));
        dv.setHrefs(ls1.get(i));
        dv.setPhoto(ls3.get(i));
        dv.setSources("");

        d.addVideo(dv);

      }
    }
}

Controller:

@Controller
@RequestMapping(value = "/dianjing")
public class DianJingController {
  @Autowired
  private DianJingService s;




    /*
    手游
     */
  @RequestMapping("/dianjing")
  @ResponseBody
  public Object dianjing(){
    List<DianJing> list = s.find2();
    JSONObject jo = new JSONObject();
    if(list!=null){

      jo.put("code",0);
      jo.put("success",true);
      jo.put("count",list.size());
      jo.put("list",list);
    }
    return jo;
  }
}

實體類就不展示了

dao層

@Insert("insert into dianjing (titles,dates,category,hrefs,photo,sources) values(#{titles},#{dates},#{category},#{hrefs},#{photo},#{sources})")
int adddj(DianJing dj);

以上這篇springboot+webmagic實現(xiàn)java爬蟲jdbc及mysql的方法就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。

相關(guān)文章

  • Spring Data MongoDB中實現(xiàn)自定義級聯(lián)的方法詳解

    Spring Data MongoDB中實現(xiàn)自定義級聯(lián)的方法詳解

    這篇文章主要給大家介紹了關(guān)于Spring Data MongoDB中實現(xiàn)自定義級聯(lián)的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧。
    2017-11-11
  • Java中==運(yùn)算符與equals方法的區(qū)別及intern方法詳解

    Java中==運(yùn)算符與equals方法的區(qū)別及intern方法詳解

    這篇文章主要介紹了Java中==運(yùn)算符與equals方法的區(qū)別及intern方法詳解的相關(guān)資料,需要的朋友可以參考下
    2017-04-04
  • Java獲取時間年、月、日的方法

    Java獲取時間年、月、日的方法

    這篇文章主要介紹了Java獲取時間年、月、日的方法,涉及java時間操作的相關(guān)技巧,需要的朋友可以參考下
    2015-05-05
  • PropertiesLoaderUtils 出現(xiàn)中文亂碼的解決方式

    PropertiesLoaderUtils 出現(xiàn)中文亂碼的解決方式

    這篇文章主要介紹了PropertiesLoaderUtils 出現(xiàn)中文亂碼的解決方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-08-08
  • mybatis-plus開啟sql日志打印的三種方法

    mybatis-plus開啟sql日志打印的三種方法

    本文主要介紹了mybatis-plus開啟sql日志打印的三種方法,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2023-05-05
  • 如何使用MybatisPlus快速進(jìn)行增刪改查詳解

    如何使用MybatisPlus快速進(jìn)行增刪改查詳解

    增刪改查在日常開發(fā)中是再正常不多的一個需求了,下面這篇文章主要給大家介紹了關(guān)于如何使用MybatisPlus快速進(jìn)行增刪改查的相關(guān)資料,文中通過實例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2022-08-08
  • 如何判斷java是32位的還是64位的

    如何判斷java是32位的還是64位的

    這篇文章主要介紹了如何判斷java是32位的還是64位的問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2024-04-04
  • Mybatis逆向工程筆記小結(jié)

    Mybatis逆向工程筆記小結(jié)

    MyBatis官方為我們提供了一個逆向工程,通過這個逆向工程,只需要建立好數(shù)據(jù)表,MyBatis就會根據(jù)這個表自動生成pojo類、mapper接口、sql映射文件,本文主要介紹了Mybatis逆向工程筆記小結(jié),具有一定的參考價值,感興趣的可以了解一下
    2024-05-05
  • Springboot2.x+ShardingSphere實現(xiàn)分庫分表的示例代碼

    Springboot2.x+ShardingSphere實現(xiàn)分庫分表的示例代碼

    這篇文章主要介紹了Springboot2.x+ShardingSphere實現(xiàn)分庫分表的示例代碼,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-10-10
  • Spring Boot Security 結(jié)合 JWT 實現(xiàn)無狀態(tài)的分布式API接口

    Spring Boot Security 結(jié)合 JWT 實現(xiàn)無狀態(tài)的分布式API接口

    JSON Web Token(縮寫 JWT)是目前最流行的跨域認(rèn)證解決方案。這篇文章主要介紹了Spring Boot Security 結(jié)合 JWT 實現(xiàn)無狀態(tài)的分布式API接口 ,需要的朋友可以參考下
    2019-04-04

最新評論