腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

軟件下載

android MAC 驅(qū)動(dòng)下載字體下載 DLL

源碼下載

PHP ASP.NET ASP JSP

軟件編程

C# JAVA C 語言 Delphi Android

網(wǎng)絡(luò)編程

PHP ASP.NET ASP JavaScript

在線工具

CSS格式化 JS格式化 Html轉(zhuǎn)化為Js

數(shù)據(jù)庫

MYSQL MSSQL oracle DB2 MARIADB

CMS

PHPCMS DEDECMS 帝國(guó)CMS WordPress

常用工具

PHP開發(fā)工具 python Photoshop 必備軟件

零基礎(chǔ)寫Java知乎爬蟲之先拿百度首頁練練手

更新時(shí)間：2014年11月07日 10:11:17 投稿：hebedich

本來打算這篇文章直接抓取知乎的，但是想想還是先來個(gè)簡(jiǎn)單的吧，初級(jí)文章適合初學(xué)者，高手們請(qǐng)直接略過

上一集中我們說到需要用Java來制作一個(gè)知乎爬蟲，那么這一次，我們就來研究一下如何使用代碼獲取到網(wǎng)頁的內(nèi)容。

首先，沒有HTML和CSS和JS和AJAX經(jīng)驗(yàn)的建議先去W3C（點(diǎn)我點(diǎn)我）小小的了解一下。

說到HTML，這里就涉及到一個(gè)GET訪問和POST訪問的問題。

如果對(duì)這個(gè)方面缺乏了解可以閱讀W3C的這篇：《GET對(duì)比POST》。

啊哈，在此不再贅述。

然后咧，接下來我們需要用Java來爬取一個(gè)網(wǎng)頁的內(nèi)容。

這時(shí)候，我們的百度就要派上用場(chǎng)了。

沒錯(cuò)，他不再是那個(gè)默默無聞的網(wǎng)速測(cè)試器了，他即將成為我們的爬蟲小白鼠！~

我們先來看看百度的首頁：

相信大家都知道，現(xiàn)在這樣的一個(gè)頁面，是HTML和CSS共同工作的結(jié)果。

我們?cè)跒g覽器中右擊頁面，選擇“查看頁面源代碼”：

沒錯(cuò)，就是這一坨翔一樣的東西。這就是百度頁面的源代碼。

接下來我們的任務(wù)，就是使用我們的爬蟲也獲取到一樣的東西。

先來看一段簡(jiǎn)單的源碼：

import java.io.*;
import java.net.*;
public class Main {
 public static void main(String[] args) {
  // 定義即將訪問的鏈接
  String url = "  // 定義一個(gè)字符串用來存儲(chǔ)網(wǎng)頁內(nèi)容
  String result = "";
  // 定義一個(gè)緩沖字符輸入流
  BufferedReader in = null;
  try {
   // 將string轉(zhuǎn)成url對(duì)象
   URL realUrl = new URL(url);
   // 初始化一個(gè)鏈接到那個(gè)url的連接
   URLConnection connection = realUrl.openConnection();
   // 開始實(shí)際的連接
   connection.connect();
   // 初始化 BufferedReader輸入流來讀取URL的響應(yīng)
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用來臨時(shí)存儲(chǔ)抓取到的每一行的數(shù)據(jù)
   String line;
   while ((line = in.readLine()) != null) {
    //遍歷抓取到的每一行并將其存儲(chǔ)到result里面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("發(fā)送GET請(qǐng)求出現(xiàn)異常！" + e);
   e.printStackTrace();
  }
  // 使用finally來關(guān)閉輸入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  System.out.println(result);
 }
}

以上就是Java模擬Get訪問百度的Main方法，

可以運(yùn)行一下看看結(jié)果：

啊哈，和我們前面用瀏覽器看到的一模一樣。至此，一個(gè)最最簡(jiǎn)單的爬蟲就算是做好了。

但是這么一大坨東西未必都是我想要的啊，怎么從中抓取出我想要的東西呢？

以百度的大爪子Logo為例。

臨時(shí)需求：

獲取百度Logo的大爪子的圖片鏈接。

先說一下瀏覽器的查看方法。

鼠標(biāo)對(duì)圖片右擊，選擇審查元素（火狐，谷歌，IE11，均有此功能，只是名字不太一樣）：

啊哈，可以看到在一大堆div的圍攻下的可憐的img標(biāo)簽。

這個(gè)src就是圖像的鏈接了。

那么在java中我們?cè)趺锤隳兀?/p>

事先說明，為了方便演示代碼，所有代碼均未作類封裝，還請(qǐng)諒解。

我們先把前面的代碼封裝成一個(gè)sendGet函數(shù)：

import java.io.*;
import java.net.*;
public class Main {
 static String sendGet(String url) {
  // 定義一個(gè)字符串用來存儲(chǔ)網(wǎng)頁內(nèi)容
  String result = "";
  // 定義一個(gè)緩沖字符輸入流
  BufferedReader in = null;
  try {
   // 將string轉(zhuǎn)成url對(duì)象
   URL realUrl = new URL(url);
   // 初始化一個(gè)鏈接到那個(gè)url的連接
   URLConnection connection = realUrl.openConnection();
   // 開始實(shí)際的連接
   connection.connect();
   // 初始化 BufferedReader輸入流來讀取URL的響應(yīng)
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用來臨時(shí)存儲(chǔ)抓取到的每一行的數(shù)據(jù)
   String line;
   while ((line = in.readLine()) != null) {
    // 遍歷抓取到的每一行并將其存儲(chǔ)到result里面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("發(fā)送GET請(qǐng)求出現(xiàn)異常！" + e);
   e.printStackTrace();
  }
  // 使用finally來關(guān)閉輸入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  return result;
 }
 public static void main(String[] args) {
  // 定義即將訪問的鏈接
  String url = "  // 訪問鏈接并獲取頁面內(nèi)容
  String result = sendGet(url);
  System.out.println(result);
 }
}

這樣看起來稍微整潔了一點(diǎn)，請(qǐng)?jiān)徫疫@個(gè)強(qiáng)迫癥。

接下來的任務(wù)，就是從獲取到的一大堆東西里面找到那個(gè)圖片的鏈接。

我們首先可以想到的方法，是對(duì)頁面源碼的字符串result使用indexof函數(shù)進(jìn)行String的子串搜索。

沒錯(cuò)這個(gè)方法是可以慢慢解決這個(gè)問題，比如直接indexOf("src")找到開始的序號(hào)，然后再稀里嘩啦的搞到結(jié)束的序號(hào)。

不過我們不能一直使用這種方法，畢竟草鞋只適合出門走走，后期還是需要切假腿來拿人頭的。

請(qǐng)?jiān)徫业膩y入，繼續(xù)。

那么我們用什么方式來尋找這張圖片的src呢？

沒錯(cuò)，正如下面觀眾所說，正則匹配。

如果有同學(xué)不太清楚正則，可以參照這篇文章：[Python]網(wǎng)絡(luò)爬蟲（七）：Python中的正則表達(dá)式教程。

簡(jiǎn)單來說，正則就像是匹配。

比如三個(gè)胖子站在這里，分別穿著紅衣服，藍(lán)衣服，綠衣服。

正則就是：抓住那個(gè)穿綠衣服的！

然后把綠胖子單獨(dú)抓了出來。

就是這么簡(jiǎn)單。

但是正則的語法卻還是博大精深的，剛接觸的時(shí)候難免有點(diǎn)摸不著頭腦，

向大家推薦一個(gè)正則的在線測(cè)試工具：正則表達(dá)式在線測(cè)試。

有了正則這個(gè)神兵利器，那么怎么在java里面使用正則呢？

先來看個(gè)簡(jiǎn)單的小李子吧。

啊錯(cuò)了，小栗子。

  // 定義一個(gè)樣式模板，此中使用正則表達(dá)式，括號(hào)中是要抓的內(nèi)容
  // 相當(dāng)于埋好了陷阱匹配的地方就會(huì)掉下去
  Pattern pattern = Pattern.compile("href=\"(.+?)\"");
  // 定義一個(gè)matcher用來做匹配
  Matcher matcher = pattern.matcher("＜a href=\"index.html\"＞我的主頁＜/a＞");
  // 如果找到了
  if (matcher.find()) {
   // 打印出結(jié)果
   System.out.println(matcher.group(1));
  }

運(yùn)行結(jié)果：

index.html

沒錯(cuò)，這就是我們的第一個(gè)正則代碼。

這樣應(yīng)用的抓取圖片的鏈接想必也是信手拈來了。

我們將正則匹配封裝成一個(gè)函數(shù)，然后將代碼作如下修改：

import java.io.*;
import java.net.*;
import java.util.regex.*;
public class Main {
 static String SendGet(String url) {
  // 定義一個(gè)字符串用來存儲(chǔ)網(wǎng)頁內(nèi)容
  String result = "";
  // 定義一個(gè)緩沖字符輸入流
  BufferedReader in = null;
  try {
   // 將string轉(zhuǎn)成url對(duì)象
   URL realUrl = new URL(url);
   // 初始化一個(gè)鏈接到那個(gè)url的連接
   URLConnection connection = realUrl.openConnection();
   // 開始實(shí)際的連接
   connection.connect();
   // 初始化 BufferedReader輸入流來讀取URL的響應(yīng)
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用來臨時(shí)存儲(chǔ)抓取到的每一行的數(shù)據(jù)
   String line;
   while ((line = in.readLine()) != null) {
    // 遍歷抓取到的每一行并將其存儲(chǔ)到result里面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("發(fā)送GET請(qǐng)求出現(xiàn)異常！" + e);
   e.printStackTrace();
  }
  // 使用finally來關(guān)閉輸入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  return result;
 }
 static String RegexString(String targetStr, String patternStr) {
  // 定義一個(gè)樣式模板，此中使用正則表達(dá)式，括號(hào)中是要抓的內(nèi)容
  // 相當(dāng)于埋好了陷阱匹配的地方就會(huì)掉下去
  Pattern pattern = Pattern.compile(patternStr);
  // 定義一個(gè)matcher用來做匹配
  Matcher matcher = pattern.matcher(targetStr);
  // 如果找到了
  if (matcher.find()) {
   // 打印出結(jié)果
   return matcher.group(1);
  }
  return "";
 }
 public static void main(String[] args) {
  // 定義即將訪問的鏈接
  String url = "  // 訪問鏈接并獲取頁面內(nèi)容
  String result = SendGet(url);
  // 使用正則匹配圖片的src內(nèi)容
  String imgSrc = RegexString(result, "即將的正則語法");
  // 打印結(jié)果
  System.out.println(imgSrc);
 }
}

好的，現(xiàn)在萬事俱備，只差一個(gè)正則語法了！

那么用什么正則語句比較合適呢？

我們發(fā)現(xiàn)只要抓住了src="xxxxxx"這個(gè)字符串，就能抓出整個(gè)src鏈接，

所以簡(jiǎn)單的正則語句：src=\"(.+?)\"

完整代碼如下：

import java.io.*;
import java.net.*;
import java.util.regex.*;
public class Main {
 static String SendGet(String url) {
  // 定義一個(gè)字符串用來存儲(chǔ)網(wǎng)頁內(nèi)容
  String result = "";
  // 定義一個(gè)緩沖字符輸入流
  BufferedReader in = null;
  try {
   // 將string轉(zhuǎn)成url對(duì)象
   URL realUrl = new URL(url);
   // 初始化一個(gè)鏈接到那個(gè)url的連接
   URLConnection connection = realUrl.openConnection();
   // 開始實(shí)際的連接
   connection.connect();
   // 初始化 BufferedReader輸入流來讀取URL的響應(yīng)
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用來臨時(shí)存儲(chǔ)抓取到的每一行的數(shù)據(jù)
   String line;
   while ((line = in.readLine()) != null) {
    // 遍歷抓取到的每一行并將其存儲(chǔ)到result里面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("發(fā)送GET請(qǐng)求出現(xiàn)異常！" + e);
   e.printStackTrace();
  }
  // 使用finally來關(guān)閉輸入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  return result;
 }
 static String RegexString(String targetStr, String patternStr) {
  // 定義一個(gè)樣式模板，此中使用正則表達(dá)式，括號(hào)中是要抓的內(nèi)容
  // 相當(dāng)于埋好了陷阱匹配的地方就會(huì)掉下去
  Pattern pattern = Pattern.compile(patternStr);
  // 定義一個(gè)matcher用來做匹配
  Matcher matcher = pattern.matcher(targetStr);
  // 如果找到了
  if (matcher.find()) {
   // 打印出結(jié)果
   return matcher.group(1);
  }
  return "Nothing";
 }
 public static void main(String[] args) {
  // 定義即將訪問的鏈接
  String url = "  // 訪問鏈接并獲取頁面內(nèi)容
  String result = SendGet(url);
  // 使用正則匹配圖片的src內(nèi)容
  String imgSrc = RegexString(result, "src=\"(.+?)\"");
  // 打印結(jié)果
  System.out.println(imgSrc);
 }
}