本篇文章抓取目標網(wǎng)站的鏈接的基礎上，進一步提高難度，抓取目標頁面上我們所需要的內容并保存在數(shù)據(jù)庫中。這里的測試案例選用了一個我常用的電影下載網(wǎng)站（http://www.80s.la/）。本來是想抓取網(wǎng)站上的所有電影的下載鏈接，后來感覺需要的時間太長，因此改成了抓取2015年電影的下載鏈接。

一原理簡介

其實原理都跟第一篇文章差不多，不同的是鑒于這個網(wǎng)站的分類列表實在太多，如果不對這些標簽加以取舍的話，需要花費的時間難以想象。

分類鏈接和標簽鏈接都不要，不通過這些鏈接去爬取其他頁面，只通過頁底的所有類型電影的分頁去獲取其他頁面的電影列表即可。同時，對于電影詳情頁面，僅僅只是抓取其中的電影標題和迅雷下載鏈接，并不進行深層次的爬行，詳情頁面的一些推薦電影等鏈接通通不要。

最后就是將所有獲取到的電影的下載鏈接保存在videoLinkMap這個集合中，通過遍歷這個集合將數(shù)據(jù)保存到MySQL里

二代碼實現(xiàn)

實現(xiàn)原理已經(jīng)在上面說了，并且代碼中有詳細注釋，因此這里就不多說了，代碼如下：

package action;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.URL;
import java.sql.Connection;
import java.sql.PreparedStatement;
import java.sql.SQLException;
import java.util.LinkedHashMap;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
 
public class VideoLinkGrab {
 
  public static void main(String[] args) {
    VideoLinkGrab videoLinkGrab = new VideoLinkGrab();
    videoLinkGrab.saveData("http://www.80s.la/movie/list/-2015----p");
  }
 
  /**
   * 將獲取到的數(shù)據(jù)保存在數(shù)據(jù)庫中
   * 
   * @param baseUrl
   *      爬蟲起點
   * @return null
   * */
  public void saveData(String baseUrl) {
    Map<String, Boolean> oldMap = new LinkedHashMap<String, Boolean>(); // 存儲鏈接-是否被遍歷
 
    Map<String, String> videoLinkMap = new LinkedHashMap<String, String>(); // 視頻下載鏈接
    String oldLinkHost = ""; // host
 
    Pattern p = Pattern.compile("(https?://)?[^/\\s]*"); // 比如：http://www.zifangsky.cn
    Matcher m = p.matcher(baseUrl);
    if (m.find()) {
      oldLinkHost = m.group();
    }
 
    oldMap.put(baseUrl, false);
    videoLinkMap = crawlLinks(oldLinkHost, oldMap);
    // 遍歷，然后將數(shù)據(jù)保存在數(shù)據(jù)庫中
    try {
      Connection connection = JDBCDemo.getConnection();
      for (Map.Entry<String, String> mapping : videoLinkMap.entrySet()) {
        PreparedStatement pStatement = connection
            .prepareStatement("insert into movie(MovieName,MovieLink) values(?,?)");
        pStatement.setString(1, mapping.getKey());
        pStatement.setString(2, mapping.getValue());
        pStatement.executeUpdate();
        pStatement.close();
//       System.out.println(mapping.getKey() + " : " + mapping.getValue());
      }
      connection.close();
    } catch (SQLException e) {
      e.printStackTrace();
    }
  }
 
  /**
   * 抓取一個網(wǎng)站所有可以抓取的網(wǎng)頁鏈接，在思路上使用了廣度優(yōu)先算法 對未遍歷過的新鏈接不斷發(fā)起GET請求， 一直到遍歷完整個集合都沒能發(fā)現(xiàn)新的鏈接
   * 則表示不能發(fā)現(xiàn)新的鏈接了，任務結束
   * 
   * 對一個鏈接發(fā)起請求時，對該網(wǎng)頁用正則查找我們所需要的視頻鏈接，找到后存入集合videoLinkMap
   * 
   * @param oldLinkHost
   *      域名，如：http://www.zifangsky.cn
   * @param oldMap
   *      待遍歷的鏈接集合
   * 
   * @return 返回所有抓取到的視頻下載鏈接集合
   * */
  private Map<String, String> crawlLinks(String oldLinkHost,
      Map<String, Boolean> oldMap) {
    Map<String, Boolean> newMap = new LinkedHashMap<String, Boolean>(); // 每次循環(huán)獲取到的新鏈接
    Map<String, String> videoLinkMap = new LinkedHashMap<String, String>(); // 視頻下載鏈接
    String oldLink = "";
 
    for (Map.Entry<String, Boolean> mapping : oldMap.entrySet()) {
      // System.out.println("link:" + mapping.getKey() + "--------check:"
      // + mapping.getValue());
      // 如果沒有被遍歷過
      if (!mapping.getValue()) {
        oldLink = mapping.getKey();
        // 發(fā)起GET請求
        try {
          URL url = new URL(oldLink);
          HttpURLConnection connection = (HttpURLConnection) url
              .openConnection();
          connection.setRequestMethod("GET");
          connection.setConnectTimeout(2500);
          connection.setReadTimeout(2500);
 
          if (connection.getResponseCode() == 200) {
            InputStream inputStream = connection.getInputStream();
            BufferedReader reader = new BufferedReader(
                new InputStreamReader(inputStream, "UTF-8"));
            String line = "";
            Pattern pattern = null;
            Matcher matcher = null;
            //電影詳情頁面，取出其中的視頻下載鏈接，不繼續(xù)深入抓取其他頁面
            if(isMoviePage(oldLink)){
              boolean checkTitle = false;
              String title = "";
              while ((line = reader.readLine()) != null) {
                //取出頁面中的視頻標題
                if(!checkTitle){
                  pattern = Pattern.compile("([^\\s]+).*?</title>");
                  matcher = pattern.matcher(line);
                  if(matcher.find()){
                    title = matcher.group(1);
                    checkTitle = true;
                    continue;
                  }
                }
                // 取出頁面中的視頻下載鏈接
                pattern = Pattern
                    .compile("(thunder:[^\"]+).*thunder[rR]es[tT]itle=\"[^\"]*\"");
                matcher = pattern.matcher(line);
                if (matcher.find()) {
                  videoLinkMap.put(title,matcher.group(1));
                  System.out.println("視頻名稱： "
                      + title + " ------ 視頻鏈接："
                      + matcher.group(1));
                  break; //當前頁面已經(jīng)檢測完畢
                }
              } 
            }
            //電影列表頁面
            else if(checkUrl(oldLink)){
              while ((line = reader.readLine()) != null) {
 
                pattern = Pattern
                    .compile("<a href=\"([^\"\\s]*)\"");
                matcher = pattern.matcher(line);
                while (matcher.find()) {
                  String newLink = matcher.group(1).trim(); // 鏈接
                  // 判斷獲取到的鏈接是否以http開頭
                  if (!newLink.startsWith("http")) {
                    if (newLink.startsWith("/"))
                      newLink = oldLinkHost + newLink;
                    else
                      newLink = oldLinkHost + "/" + newLink;
                  }
                  // 去除鏈接末尾的 /
                  if (newLink.endsWith("/"))
                    newLink = newLink.substring(0,
                        newLink.length() - 1);
                  // 去重，并且丟棄其他網(wǎng)站的鏈接
                  if (!oldMap.containsKey(newLink)
                      && !newMap.containsKey(newLink)
                      && (checkUrl(newLink) || isMoviePage(newLink))) {
                    System.out.println("temp: " + newLink);
                    newMap.put(newLink, false);
                  }
                }
              }
            }
 
            reader.close();
            inputStream.close();
          }
          connection.disconnect();
        } catch (MalformedURLException e) {
          e.printStackTrace();
        } catch (IOException e) {
          e.printStackTrace();
        }
 
        try {
          Thread.sleep(1000);
        } catch (InterruptedException e) {
          e.printStackTrace();
        }
        oldMap.replace(oldLink, false, true);
      }
    }
    // 有新鏈接，繼續(xù)遍歷
    if (!newMap.isEmpty()) {
      oldMap.putAll(newMap);
      videoLinkMap.putAll(crawlLinks(oldLinkHost, oldMap)); // 由于Map的特性，不會導致出現(xiàn)重復的鍵值對
    }
    return videoLinkMap;
  }
   
  /**
   * 判斷是否是2015年的電影列表頁面
   * @param url 待檢查URL
   * @return 狀態(tài)
   * */
  public boolean checkUrl(String url){
    Pattern pattern = Pattern.compile("http://www.80s.la/movie/list/-2015----p\\d*");
    Matcher matcher = pattern.matcher(url);
    if(matcher.find())
      return true; //2015年的列表
    else
      return false;
  }
   
  /**
   * 判斷頁面是否是電影詳情頁面
   * @param url 頁面鏈接
   * @return 狀態(tài)
   * */
  public boolean isMoviePage(String url){
    Pattern pattern = Pattern.compile("http://www.80s.la/movie/\\d+");
    Matcher matcher = pattern.matcher(url);
    if(matcher.find())
      return true; //電影頁面
    else 
      return false;
  }
   
}

注：如果想要實現(xiàn)抓取其他網(wǎng)站的一些指定內容的話，需要將其中的一些正則表達式根據(jù)實際情況進行合理修改

三測試效果