欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Java爬蟲抓取視頻網(wǎng)站下載鏈接

 更新時(shí)間:2016年10月19日 12:02:17   作者:pangfc  
本文是通過JAVA獲取優(yōu)酷、土豆、酷6、6間房等視頻,小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧

本篇文章抓取目標(biāo)網(wǎng)站的鏈接的基礎(chǔ)上,進(jìn)一步提高難度,抓取目標(biāo)頁面上我們所需要的內(nèi)容并保存在數(shù)據(jù)庫中。這里的測試案例選用了一個(gè)我常用的電影下載網(wǎng)站(http://www.80s.la/)。本來是想抓取網(wǎng)站上的所有電影的下載鏈接,后來感覺需要的時(shí)間太長,因此改成了抓取2015年電影的下載鏈接。

一 原理簡介

其實(shí)原理都跟第一篇文章差不多,不同的是鑒于這個(gè)網(wǎng)站的分類列表實(shí)在太多,如果不對(duì)這些標(biāo)簽加以取舍的話,需要花費(fèi)的時(shí)間難以想象。

分類鏈接和標(biāo)簽鏈接都不要,不通過這些鏈接去爬取其他頁面,只通過頁底的所有類型電影的分頁去獲取其他頁面的電影列表即可。同時(shí),對(duì)于電影詳情頁面,僅僅只是抓取其中的電影標(biāo)題和迅雷下載鏈接,并不進(jìn)行深層次的爬行,詳情頁面的一些推薦電影等鏈接通通不要。

最后就是將所有獲取到的電影的下載鏈接保存在videoLinkMap這個(gè)集合中,通過遍歷這個(gè)集合將數(shù)據(jù)保存到MySQL里

二 代碼實(shí)現(xiàn)

實(shí)現(xiàn)原理已經(jīng)在上面說了,并且代碼中有詳細(xì)注釋,因此這里就不多說了,代碼如下:

package action;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.URL;
import java.sql.Connection;
import java.sql.PreparedStatement;
import java.sql.SQLException;
import java.util.LinkedHashMap;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
 
public class VideoLinkGrab {
 
  public static void main(String[] args) {
    VideoLinkGrab videoLinkGrab = new VideoLinkGrab();
    videoLinkGrab.saveData("http://www.80s.la/movie/list/-2015----p");
  }
 
  /**
   * 將獲取到的數(shù)據(jù)保存在數(shù)據(jù)庫中
   * 
   * @param baseUrl
   *      爬蟲起點(diǎn)
   * @return null
   * */
  public void saveData(String baseUrl) {
    Map<String, Boolean> oldMap = new LinkedHashMap<String, Boolean>(); // 存儲(chǔ)鏈接-是否被遍歷
 
    Map<String, String> videoLinkMap = new LinkedHashMap<String, String>(); // 視頻下載鏈接
    String oldLinkHost = ""; // host
 
    Pattern p = Pattern.compile("(https?://)?[^/\\s]*"); // 比如:http://www.zifangsky.cn
    Matcher m = p.matcher(baseUrl);
    if (m.find()) {
      oldLinkHost = m.group();
    }
 
    oldMap.put(baseUrl, false);
    videoLinkMap = crawlLinks(oldLinkHost, oldMap);
    // 遍歷,然后將數(shù)據(jù)保存在數(shù)據(jù)庫中
    try {
      Connection connection = JDBCDemo.getConnection();
      for (Map.Entry<String, String> mapping : videoLinkMap.entrySet()) {
        PreparedStatement pStatement = connection
            .prepareStatement("insert into movie(MovieName,MovieLink) values(?,?)");
        pStatement.setString(1, mapping.getKey());
        pStatement.setString(2, mapping.getValue());
        pStatement.executeUpdate();
        pStatement.close();
//       System.out.println(mapping.getKey() + " : " + mapping.getValue());
      }
      connection.close();
    } catch (SQLException e) {
      e.printStackTrace();
    }
  }
 
  /**
   * 抓取一個(gè)網(wǎng)站所有可以抓取的網(wǎng)頁鏈接,在思路上使用了廣度優(yōu)先算法 對(duì)未遍歷過的新鏈接不斷發(fā)起GET請(qǐng)求, 一直到遍歷完整個(gè)集合都沒能發(fā)現(xiàn)新的鏈接
   * 則表示不能發(fā)現(xiàn)新的鏈接了,任務(wù)結(jié)束
   * 
   * 對(duì)一個(gè)鏈接發(fā)起請(qǐng)求時(shí),對(duì)該網(wǎng)頁用正則查找我們所需要的視頻鏈接,找到后存入集合videoLinkMap
   * 
   * @param oldLinkHost
   *      域名,如:http://www.zifangsky.cn
   * @param oldMap
   *      待遍歷的鏈接集合
   * 
   * @return 返回所有抓取到的視頻下載鏈接集合
   * */
  private Map<String, String> crawlLinks(String oldLinkHost,
      Map<String, Boolean> oldMap) {
    Map<String, Boolean> newMap = new LinkedHashMap<String, Boolean>(); // 每次循環(huán)獲取到的新鏈接
    Map<String, String> videoLinkMap = new LinkedHashMap<String, String>(); // 視頻下載鏈接
    String oldLink = "";
 
    for (Map.Entry<String, Boolean> mapping : oldMap.entrySet()) {
      // System.out.println("link:" + mapping.getKey() + "--------check:"
      // + mapping.getValue());
      // 如果沒有被遍歷過
      if (!mapping.getValue()) {
        oldLink = mapping.getKey();
        // 發(fā)起GET請(qǐng)求
        try {
          URL url = new URL(oldLink);
          HttpURLConnection connection = (HttpURLConnection) url
              .openConnection();
          connection.setRequestMethod("GET");
          connection.setConnectTimeout(2500);
          connection.setReadTimeout(2500);
 
          if (connection.getResponseCode() == 200) {
            InputStream inputStream = connection.getInputStream();
            BufferedReader reader = new BufferedReader(
                new InputStreamReader(inputStream, "UTF-8"));
            String line = "";
            Pattern pattern = null;
            Matcher matcher = null;
            //電影詳情頁面,取出其中的視頻下載鏈接,不繼續(xù)深入抓取其他頁面
            if(isMoviePage(oldLink)){
              boolean checkTitle = false;
              String title = "";
              while ((line = reader.readLine()) != null) {
                //取出頁面中的視頻標(biāo)題
                if(!checkTitle){
                  pattern = Pattern.compile("([^\\s]+).*?</title>");
                  matcher = pattern.matcher(line);
                  if(matcher.find()){
                    title = matcher.group(1);
                    checkTitle = true;
                    continue;
                  }
                }
                // 取出頁面中的視頻下載鏈接
                pattern = Pattern
                    .compile("(thunder:[^\"]+).*thunder[rR]es[tT]itle=\"[^\"]*\"");
                matcher = pattern.matcher(line);
                if (matcher.find()) {
                  videoLinkMap.put(title,matcher.group(1));
                  System.out.println("視頻名稱: "
                      + title + " ------ 視頻鏈接:"
                      + matcher.group(1));
                  break; //當(dāng)前頁面已經(jīng)檢測完畢
                }
              } 
            }
            //電影列表頁面
            else if(checkUrl(oldLink)){
              while ((line = reader.readLine()) != null) {
 
                pattern = Pattern
                    .compile("<a href=\"([^\"\\s]*)\"");
                matcher = pattern.matcher(line);
                while (matcher.find()) {
                  String newLink = matcher.group(1).trim(); // 鏈接
                  // 判斷獲取到的鏈接是否以http開頭
                  if (!newLink.startsWith("http")) {
                    if (newLink.startsWith("/"))
                      newLink = oldLinkHost + newLink;
                    else
                      newLink = oldLinkHost + "/" + newLink;
                  }
                  // 去除鏈接末尾的 /
                  if (newLink.endsWith("/"))
                    newLink = newLink.substring(0,
                        newLink.length() - 1);
                  // 去重,并且丟棄其他網(wǎng)站的鏈接
                  if (!oldMap.containsKey(newLink)
                      && !newMap.containsKey(newLink)
                      && (checkUrl(newLink) || isMoviePage(newLink))) {
                    System.out.println("temp: " + newLink);
                    newMap.put(newLink, false);
                  }
                }
              }
            }
 
            reader.close();
            inputStream.close();
          }
          connection.disconnect();
        } catch (MalformedURLException e) {
          e.printStackTrace();
        } catch (IOException e) {
          e.printStackTrace();
        }
 
        try {
          Thread.sleep(1000);
        } catch (InterruptedException e) {
          e.printStackTrace();
        }
        oldMap.replace(oldLink, false, true);
      }
    }
    // 有新鏈接,繼續(xù)遍歷
    if (!newMap.isEmpty()) {
      oldMap.putAll(newMap);
      videoLinkMap.putAll(crawlLinks(oldLinkHost, oldMap)); // 由于Map的特性,不會(huì)導(dǎo)致出現(xiàn)重復(fù)的鍵值對(duì)
    }
    return videoLinkMap;
  }
   
  /**
   * 判斷是否是2015年的電影列表頁面
   * @param url 待檢查URL
   * @return 狀態(tài)
   * */
  public boolean checkUrl(String url){
    Pattern pattern = Pattern.compile("http://www.80s.la/movie/list/-2015----p\\d*");
    Matcher matcher = pattern.matcher(url);
    if(matcher.find())
      return true; //2015年的列表
    else
      return false;
  }
   
  /**
   * 判斷頁面是否是電影詳情頁面
   * @param url 頁面鏈接
   * @return 狀態(tài)
   * */
  public boolean isMoviePage(String url){
    Pattern pattern = Pattern.compile("http://www.80s.la/movie/\\d+");
    Matcher matcher = pattern.matcher(url);
    if(matcher.find())
      return true; //電影頁面
    else 
      return false;
  }
   
}

注:如果想要實(shí)現(xiàn)抓取其他網(wǎng)站的一些指定內(nèi)容的話,需要將其中的一些正則表達(dá)式根據(jù)實(shí)際情況進(jìn)行合理修改

三 測試效果

以上就是本文的全部內(nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。

相關(guān)文章

  • Spring Boot接口冪等插件用法示例解析

    Spring Boot接口冪等插件用法示例解析

    這篇文章主要介紹了Spring Boot接口冪等插件用法示例解析,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-11-11
  • SpringBoot集成Mybatis的實(shí)現(xiàn)步驟

    SpringBoot集成Mybatis的實(shí)現(xiàn)步驟

    這篇文章主要介紹了SpringBoot集成Mybatis的實(shí)現(xiàn)步驟,本文通過SpringBoot +MyBatis 實(shí)現(xiàn)對(duì)數(shù)據(jù)庫學(xué)生表的查詢操作,需要的朋友可以參考下
    2020-12-12
  • intelliJ idea 2023 配置Tomcat 8圖文教程

    intelliJ idea 2023 配置Tomcat 8圖文教程

    這篇文章主要介紹了intelliJ idea 2023 配置Tomcat 8教程,本文通過圖文并茂的形式給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2023-06-06
  • spring中FactoryBean中的getObject()方法實(shí)例解析

    spring中FactoryBean中的getObject()方法實(shí)例解析

    這篇文章主要介紹了spring中FactoryBean中的getObject()方法實(shí)例解析,分享了相關(guān)代碼示例,小編覺得還是挺不錯(cuò)的,具有一定借鑒價(jià)值,需要的朋友可以參考下
    2018-02-02
  • 云服務(wù)器環(huán)境搭建及部署(jdk、mysql、redis、nginx環(huán)境搭建)詳細(xì)步驟

    云服務(wù)器環(huán)境搭建及部署(jdk、mysql、redis、nginx環(huán)境搭建)詳細(xì)步驟

    這篇文章主要給大家介紹了關(guān)于云服務(wù)器環(huán)境搭建及部署(jdk、mysql、redis、nginx環(huán)境搭建)詳細(xì)步驟的相關(guān)資料,要在云服務(wù)器上搭建JDK、MySQL、Redis和Nginx的環(huán)境,可以按照以下步驟進(jìn)行操作,需要的朋友可以參考下
    2024-01-01
  • IDEA編譯報(bào)錯(cuò):Error:java:無效的源發(fā)行版:17的解決辦法

    IDEA編譯報(bào)錯(cuò):Error:java:無效的源發(fā)行版:17的解決辦法

    IDEA里面裝了幾個(gè)版本的JDK,導(dǎo)入工程后時(shí)不時(shí)提示一下錯(cuò)誤,下面這篇文章主要給大家介紹了關(guān)于IDEA編譯報(bào)錯(cuò):Error:java:無效的源發(fā)行版:17的解決辦法,需要的朋友可以參考下
    2023-01-01
  • Spring中的底層架構(gòu)核心概念類型轉(zhuǎn)換器詳解

    Spring中的底層架構(gòu)核心概念類型轉(zhuǎn)換器詳解

    這篇文章主要介紹了Spring中的底層架構(gòu)核心概念類型轉(zhuǎn)換器詳解,本文結(jié)合示例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2022-12-12
  • 微服務(wù)框架FEIGN使用常見問題分析

    微服務(wù)框架FEIGN使用常見問題分析

    這篇文章主要為大家介紹了微服務(wù)框架FEIGN常見問題分析,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2022-08-08
  • java刪除指定目錄下指定格式文件的方法

    java刪除指定目錄下指定格式文件的方法

    這篇文章主要為大家詳細(xì)介紹了java刪除指定目錄下指定格式文件的方法,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2018-08-08
  • java開發(fā)就業(yè)信息管理系統(tǒng)

    java開發(fā)就業(yè)信息管理系統(tǒng)

    這篇文章主要為大家詳細(xì)介紹了java開發(fā)就業(yè)信息管理平臺(tái),文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2016-06-06

最新評(píng)論