快捷導(dǎo)航

Java爬蟲(chóng)抓取視頻網(wǎng)站下載鏈接

更新時(shí)間：2016年10月19日 12:02:17 作者：pangfc

本文是通過(guò)JAVA獲取優(yōu)酷、土豆、酷6、6間房等視頻，小編覺(jué)得挺不錯(cuò)的，現(xiàn)在就分享給大家，也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧

本篇文章抓取目標(biāo)網(wǎng)站的鏈接的基礎(chǔ)上，進(jìn)一步提高難度，抓取目標(biāo)頁(yè)面上我們所需要的內(nèi)容并保存在數(shù)據(jù)庫(kù)中。這里的測(cè)試案例選用了一個(gè)我常用的電影下載網(wǎng)站（http://www.80s.la/）。本來(lái)是想抓取網(wǎng)站上的所有電影的下載鏈接，后來(lái)感覺(jué)需要的時(shí)間太長(zhǎng)，因此改成了抓取2015年電影的下載鏈接。

一原理簡(jiǎn)介

其實(shí)原理都跟第一篇文章差不多，不同的是鑒于這個(gè)網(wǎng)站的分類列表實(shí)在太多，如果不對(duì)這些標(biāo)簽加以取舍的話，需要花費(fèi)的時(shí)間難以想象。

分類鏈接和標(biāo)簽鏈接都不要，不通過(guò)這些鏈接去爬取其他頁(yè)面，只通過(guò)頁(yè)底的所有類型電影的分頁(yè)去獲取其他頁(yè)面的電影列表即可。同時(shí)，對(duì)于電影詳情頁(yè)面，僅僅只是抓取其中的電影標(biāo)題和迅雷下載鏈接，并不進(jìn)行深層次的爬行，詳情頁(yè)面的一些推薦電影等鏈接通通不要。

最后就是將所有獲取到的電影的下載鏈接保存在videoLinkMap這個(gè)集合中，通過(guò)遍歷這個(gè)集合將數(shù)據(jù)保存到MySQL里

二代碼實(shí)現(xiàn)

實(shí)現(xiàn)原理已經(jīng)在上面說(shuō)了，并且代碼中有詳細(xì)注釋，因此這里就不多說(shuō)了，代碼如下：

package action;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.URL;
import java.sql.Connection;
import java.sql.PreparedStatement;
import java.sql.SQLException;
import java.util.LinkedHashMap;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
 
public class VideoLinkGrab {
 
  public static void main(String[] args) {
    VideoLinkGrab videoLinkGrab = new VideoLinkGrab();
    videoLinkGrab.saveData("http://www.80s.la/movie/list/-2015----p");
  }
 
  /**
   * 將獲取到的數(shù)據(jù)保存在數(shù)據(jù)庫(kù)中
   * 
   * @param baseUrl
   *      爬蟲(chóng)起點(diǎn)
   * @return null
   * */
  public void saveData(String baseUrl) {
    Map<String, Boolean> oldMap = new LinkedHashMap<String, Boolean>(); // 存儲(chǔ)鏈接-是否被遍歷
 
    Map<String, String> videoLinkMap = new LinkedHashMap<String, String>(); // 視頻下載鏈接
    String oldLinkHost = ""; // host
 
    Pattern p = Pattern.compile("(https?://)?[^/\\s]*"); // 比如：http://www.zifangsky.cn
    Matcher m = p.matcher(baseUrl);
    if (m.find()) {
      oldLinkHost = m.group();
    }
 
    oldMap.put(baseUrl, false);
    videoLinkMap = crawlLinks(oldLinkHost, oldMap);
    // 遍歷，然后將數(shù)據(jù)保存在數(shù)據(jù)庫(kù)中
    try {
      Connection connection = JDBCDemo.getConnection();
      for (Map.Entry<String, String> mapping : videoLinkMap.entrySet()) {
        PreparedStatement pStatement = connection
            .prepareStatement("insert into movie(MovieName,MovieLink) values(?,?)");
        pStatement.setString(1, mapping.getKey());
        pStatement.setString(2, mapping.getValue());
        pStatement.executeUpdate();
        pStatement.close();
//       System.out.println(mapping.getKey() + " : " + mapping.getValue());
      }
      connection.close();
    } catch (SQLException e) {
      e.printStackTrace();
    }
  }
 
  /**
   * 抓取一個(gè)網(wǎng)站所有可以抓取的網(wǎng)頁(yè)鏈接，在思路上使用了廣度優(yōu)先算法 對(duì)未遍歷過(guò)的新鏈接不斷發(fā)起GET請(qǐng)求， 一直到遍歷完整個(gè)集合都沒(méi)能發(fā)現(xiàn)新的鏈接
   * 則表示不能發(fā)現(xiàn)新的鏈接了，任務(wù)結(jié)束
   * 
   * 對(duì)一個(gè)鏈接發(fā)起請(qǐng)求時(shí)，對(duì)該網(wǎng)頁(yè)用正則查找我們所需要的視頻鏈接，找到后存入集合videoLinkMap
   * 
   * @param oldLinkHost
   *      域名，如：http://www.zifangsky.cn
   * @param oldMap
   *      待遍歷的鏈接集合
   * 
   * @return 返回所有抓取到的視頻下載鏈接集合
   * */
  private Map<String, String> crawlLinks(String oldLinkHost,
      Map<String, Boolean> oldMap) {
    Map<String, Boolean> newMap = new LinkedHashMap<String, Boolean>(); // 每次循環(huán)獲取到的新鏈接
    Map<String, String> videoLinkMap = new LinkedHashMap<String, String>(); // 視頻下載鏈接
    String oldLink = "";
 
    for (Map.Entry<String, Boolean> mapping : oldMap.entrySet()) {
      // System.out.println("link:" + mapping.getKey() + "--------check:"
      // + mapping.getValue());
      // 如果沒(méi)有被遍歷過(guò)
      if (!mapping.getValue()) {
        oldLink = mapping.getKey();
        // 發(fā)起GET請(qǐng)求
        try {
          URL url = new URL(oldLink);
          HttpURLConnection connection = (HttpURLConnection) url
              .openConnection();
          connection.setRequestMethod("GET");
          connection.setConnectTimeout(2500);
          connection.setReadTimeout(2500);
 
          if (connection.getResponseCode() == 200) {
            InputStream inputStream = connection.getInputStream();
            BufferedReader reader = new BufferedReader(
                new InputStreamReader(inputStream, "UTF-8"));
            String line = "";
            Pattern pattern = null;
            Matcher matcher = null;
            //電影詳情頁(yè)面，取出其中的視頻下載鏈接，不繼續(xù)深入抓取其他頁(yè)面
            if(isMoviePage(oldLink)){
              boolean checkTitle = false;
              String title = "";
              while ((line = reader.readLine()) != null) {
                //取出頁(yè)面中的視頻標(biāo)題
                if(!checkTitle){
                  pattern = Pattern.compile("([^\\s]+).*?</title>");
                  matcher = pattern.matcher(line);
                  if(matcher.find()){
                    title = matcher.group(1);
                    checkTitle = true;
                    continue;
                  }
                }
                // 取出頁(yè)面中的視頻下載鏈接
                pattern = Pattern
                    .compile("(thunder:[^\"]+).*thunder[rR]es[tT]itle=\"[^\"]*\"");
                matcher = pattern.matcher(line);
                if (matcher.find()) {
                  videoLinkMap.put(title,matcher.group(1));
                  System.out.println("視頻名稱： "
                      + title + " ------ 視頻鏈接："
                      + matcher.group(1));
                  break; //當(dāng)前頁(yè)面已經(jīng)檢測(cè)完畢
                }
              } 
            }
            //電影列表頁(yè)面
            else if(checkUrl(oldLink)){
              while ((line = reader.readLine()) != null) {
 
                pattern = Pattern
                    .compile("<a href=\"([^\"\\s]*)\"");
                matcher = pattern.matcher(line);
                while (matcher.find()) {
                  String newLink = matcher.group(1).trim(); // 鏈接
                  // 判斷獲取到的鏈接是否以http開(kāi)頭
                  if (!newLink.startsWith("http")) {
                    if (newLink.startsWith("/"))
                      newLink = oldLinkHost + newLink;
                    else
                      newLink = oldLinkHost + "/" + newLink;
                  }
                  // 去除鏈接末尾的 /
                  if (newLink.endsWith("/"))
                    newLink = newLink.substring(0,
                        newLink.length() - 1);
                  // 去重，并且丟棄其他網(wǎng)站的鏈接
                  if (!oldMap.containsKey(newLink)
                      && !newMap.containsKey(newLink)
                      && (checkUrl(newLink) || isMoviePage(newLink))) {
                    System.out.println("temp: " + newLink);
                    newMap.put(newLink, false);
                  }
                }
              }
            }
 
            reader.close();
            inputStream.close();
          }
          connection.disconnect();
        } catch (MalformedURLException e) {
          e.printStackTrace();
        } catch (IOException e) {
          e.printStackTrace();
        }
 
        try {
          Thread.sleep(1000);
        } catch (InterruptedException e) {
          e.printStackTrace();
        }
        oldMap.replace(oldLink, false, true);
      }
    }
    // 有新鏈接，繼續(xù)遍歷
    if (!newMap.isEmpty()) {
      oldMap.putAll(newMap);
      videoLinkMap.putAll(crawlLinks(oldLinkHost, oldMap)); // 由于Map的特性，不會(huì)導(dǎo)致出現(xiàn)重復(fù)的鍵值對(duì)
    }
    return videoLinkMap;
  }
   
  /**
   * 判斷是否是2015年的電影列表頁(yè)面
   * @param url 待檢查URL
   * @return 狀態(tài)
   * */
  public boolean checkUrl(String url){
    Pattern pattern = Pattern.compile("http://www.80s.la/movie/list/-2015----p\\d*");
    Matcher matcher = pattern.matcher(url);
    if(matcher.find())
      return true; //2015年的列表
    else
      return false;
  }
   
  /**
   * 判斷頁(yè)面是否是電影詳情頁(yè)面
   * @param url 頁(yè)面鏈接
   * @return 狀態(tài)
   * */
  public boolean isMoviePage(String url){
    Pattern pattern = Pattern.compile("http://www.80s.la/movie/\\d+");
    Matcher matcher = pattern.matcher(url);
    if(matcher.find())
      return true; //電影頁(yè)面
    else 
      return false;
  }
   
}

注：如果想要實(shí)現(xiàn)抓取其他網(wǎng)站的一些指定內(nèi)容的話，需要將其中的一些正則表達(dá)式根據(jù)實(shí)際情況進(jìn)行合理修改

三測(cè)試效果