零基礎寫Java知乎爬蟲之先拿百度首頁練練手
上一集中我們說到需要用Java來制作一個知乎爬蟲,那么這一次,我們就來研究一下如何使用代碼獲取到網頁的內容。
首先,沒有HTML和CSS和JS和AJAX經驗的建議先去W3C(點我點我)小小的了解一下。
說到HTML,這里就涉及到一個GET訪問和POST訪問的問題。
如果對這個方面缺乏了解可以閱讀W3C的這篇:《GET對比POST》。
啊哈,在此不再贅述。
然后咧,接下來我們需要用Java來爬取一個網頁的內容。
這時候,我們的百度就要派上用場了。
沒錯,他不再是那個默默無聞的網速測試器了,他即將成為我們的爬蟲小白鼠!~
我們先來看看百度的首頁:
相信大家都知道,現在這樣的一個頁面,是HTML和CSS共同工作的結果。
我們在瀏覽器中右擊頁面,選擇“查看頁面源代碼”:
沒錯,就是這一坨翔一樣的東西。這就是百度頁面的源代碼。
接下來我們的任務,就是使用我們的爬蟲也獲取到一樣的東西。
先來看一段簡單的源碼:
import java.io.*;
import java.net.*;
public class Main {
public static void main(String[] args) {
// 定義即將訪問的鏈接
String url = " // 定義一個字符串用來存儲網頁內容
String result = "";
// 定義一個緩沖字符輸入流
BufferedReader in = null;
try {
// 將string轉成url對象
URL realUrl = new URL(url);
// 初始化一個鏈接到那個url的連接
URLConnection connection = realUrl.openConnection();
// 開始實際的連接
connection.connect();
// 初始化 BufferedReader輸入流來讀取URL的響應
in = new BufferedReader(new InputStreamReader(
connection.getInputStream()));
// 用來臨時存儲抓取到的每一行的數據
String line;
while ((line = in.readLine()) != null) {
//遍歷抓取到的每一行并將其存儲到result里面
result += line;
}
} catch (Exception e) {
System.out.println("發(fā)送GET請求出現異常!" + e);
e.printStackTrace();
}
// 使用finally來關閉輸入流
finally {
try {
if (in != null) {
in.close();
}
} catch (Exception e2) {
e2.printStackTrace();
}
}
System.out.println(result);
}
}
以上就是Java模擬Get訪問百度的Main方法,
可以運行一下看看結果:
啊哈,和我們前面用瀏覽器看到的一模一樣。至此,一個最最簡單的爬蟲就算是做好了。
但是這么一大坨東西未必都是我想要的啊,怎么從中抓取出我想要的東西呢?
以百度的大爪子Logo為例。
臨時需求:
獲取百度Logo的大爪子的圖片鏈接。
先說一下瀏覽器的查看方法。
鼠標對圖片右擊,選擇審查元素(火狐,谷歌,IE11,均有此功能,只是名字不太一樣):
啊哈,可以看到在一大堆div的圍攻下的可憐的img標簽。
這個src就是圖像的鏈接了。
那么在java中我們怎么搞呢?
事先說明,為了方便演示代碼,所有代碼均未作類封裝,還請諒解。
我們先把前面的代碼封裝成一個sendGet函數:
import java.io.*;
import java.net.*;
public class Main {
static String sendGet(String url) {
// 定義一個字符串用來存儲網頁內容
String result = "";
// 定義一個緩沖字符輸入流
BufferedReader in = null;
try {
// 將string轉成url對象
URL realUrl = new URL(url);
// 初始化一個鏈接到那個url的連接
URLConnection connection = realUrl.openConnection();
// 開始實際的連接
connection.connect();
// 初始化 BufferedReader輸入流來讀取URL的響應
in = new BufferedReader(new InputStreamReader(
connection.getInputStream()));
// 用來臨時存儲抓取到的每一行的數據
String line;
while ((line = in.readLine()) != null) {
// 遍歷抓取到的每一行并將其存儲到result里面
result += line;
}
} catch (Exception e) {
System.out.println("發(fā)送GET請求出現異常!" + e);
e.printStackTrace();
}
// 使用finally來關閉輸入流
finally {
try {
if (in != null) {
in.close();
}
} catch (Exception e2) {
e2.printStackTrace();
}
}
return result;
}
public static void main(String[] args) {
// 定義即將訪問的鏈接
String url = " // 訪問鏈接并獲取頁面內容
String result = sendGet(url);
System.out.println(result);
}
}
這樣看起來稍微整潔了一點,請原諒我這個強迫癥。
接下來的任務,就是從獲取到的一大堆東西里面找到那個圖片的鏈接。
我們首先可以想到的方法,是對頁面源碼的字符串result使用indexof函數進行String的子串搜索。
沒錯這個方法是可以慢慢解決這個問題,比如直接indexOf("src")找到開始的序號,然后再稀里嘩啦的搞到結束的序號。
不過我們不能一直使用這種方法,畢竟草鞋只適合出門走走,后期還是需要切假腿來拿人頭的。
請原諒我的亂入,繼續(xù)。
那么我們用什么方式來尋找這張圖片的src呢?
沒錯,正如下面觀眾所說,正則匹配。
如果有同學不太清楚正則,可以參照這篇文章:[Python]網絡爬蟲(七):Python中的正則表達式教程。
簡單來說,正則就像是匹配。
比如三個胖子站在這里,分別穿著紅衣服,藍衣服,綠衣服。
正則就是:抓住那個穿綠衣服的!
然后把綠胖子單獨抓了出來。
就是這么簡單。
但是正則的語法卻還是博大精深的,剛接觸的時候難免有點摸不著頭腦,
向大家推薦一個正則的在線測試工具:正則表達式在線測試。
有了正則這個神兵利器,那么怎么在java里面使用正則呢?
先來看個簡單的小李子吧。
啊錯了,小栗子。
// 定義一個樣式模板,此中使用正則表達式,括號中是要抓的內容
// 相當于埋好了陷阱匹配的地方就會掉下去
Pattern pattern = Pattern.compile("href=\"(.+?)\"");
// 定義一個matcher用來做匹配
Matcher matcher = pattern.matcher("<a href=\"index.html\">我的主頁</a>");
// 如果找到了
if (matcher.find()) {
// 打印出結果
System.out.println(matcher.group(1));
}
運行結果:
index.html
沒錯,這就是我們的第一個正則代碼。
這樣應用的抓取圖片的鏈接想必也是信手拈來了。
我們將正則匹配封裝成一個函數,然后將代碼作如下修改:
import java.io.*;
import java.net.*;
import java.util.regex.*;
public class Main {
static String SendGet(String url) {
// 定義一個字符串用來存儲網頁內容
String result = "";
// 定義一個緩沖字符輸入流
BufferedReader in = null;
try {
// 將string轉成url對象
URL realUrl = new URL(url);
// 初始化一個鏈接到那個url的連接
URLConnection connection = realUrl.openConnection();
// 開始實際的連接
connection.connect();
// 初始化 BufferedReader輸入流來讀取URL的響應
in = new BufferedReader(new InputStreamReader(
connection.getInputStream()));
// 用來臨時存儲抓取到的每一行的數據
String line;
while ((line = in.readLine()) != null) {
// 遍歷抓取到的每一行并將其存儲到result里面
result += line;
}
} catch (Exception e) {
System.out.println("發(fā)送GET請求出現異常!" + e);
e.printStackTrace();
}
// 使用finally來關閉輸入流
finally {
try {
if (in != null) {
in.close();
}
} catch (Exception e2) {
e2.printStackTrace();
}
}
return result;
}
static String RegexString(String targetStr, String patternStr) {
// 定義一個樣式模板,此中使用正則表達式,括號中是要抓的內容
// 相當于埋好了陷阱匹配的地方就會掉下去
Pattern pattern = Pattern.compile(patternStr);
// 定義一個matcher用來做匹配
Matcher matcher = pattern.matcher(targetStr);
// 如果找到了
if (matcher.find()) {
// 打印出結果
return matcher.group(1);
}
return "";
}
public static void main(String[] args) {
// 定義即將訪問的鏈接
String url = " // 訪問鏈接并獲取頁面內容
String result = SendGet(url);
// 使用正則匹配圖片的src內容
String imgSrc = RegexString(result, "即將的正則語法");
// 打印結果
System.out.println(imgSrc);
}
}
好的,現在萬事俱備,只差一個正則語法了!
那么用什么正則語句比較合適呢?
我們發(fā)現只要抓住了src="xxxxxx"這個字符串,就能抓出整個src鏈接,
所以簡單的正則語句:src=\"(.+?)\"
完整代碼如下:
import java.io.*;
import java.net.*;
import java.util.regex.*;
public class Main {
static String SendGet(String url) {
// 定義一個字符串用來存儲網頁內容
String result = "";
// 定義一個緩沖字符輸入流
BufferedReader in = null;
try {
// 將string轉成url對象
URL realUrl = new URL(url);
// 初始化一個鏈接到那個url的連接
URLConnection connection = realUrl.openConnection();
// 開始實際的連接
connection.connect();
// 初始化 BufferedReader輸入流來讀取URL的響應
in = new BufferedReader(new InputStreamReader(
connection.getInputStream()));
// 用來臨時存儲抓取到的每一行的數據
String line;
while ((line = in.readLine()) != null) {
// 遍歷抓取到的每一行并將其存儲到result里面
result += line;
}
} catch (Exception e) {
System.out.println("發(fā)送GET請求出現異常!" + e);
e.printStackTrace();
}
// 使用finally來關閉輸入流
finally {
try {
if (in != null) {
in.close();
}
} catch (Exception e2) {
e2.printStackTrace();
}
}
return result;
}
static String RegexString(String targetStr, String patternStr) {
// 定義一個樣式模板,此中使用正則表達式,括號中是要抓的內容
// 相當于埋好了陷阱匹配的地方就會掉下去
Pattern pattern = Pattern.compile(patternStr);
// 定義一個matcher用來做匹配
Matcher matcher = pattern.matcher(targetStr);
// 如果找到了
if (matcher.find()) {
// 打印出結果
return matcher.group(1);
}
return "Nothing";
}
public static void main(String[] args) {
// 定義即將訪問的鏈接
String url = " // 訪問鏈接并獲取頁面內容
String result = SendGet(url);
// 使用正則匹配圖片的src內容
String imgSrc = RegexString(result, "src=\"(.+?)\"");
// 打印結果
System.out.println(imgSrc);
}
}
這樣我們就能用java抓出百度LOGO的鏈接了。
好吧雖然花了很多時間講百度,但是基礎要打扎實啦,下次我們正式開始抓知乎咯!~
- 基于jquery實現的類似百度搜索的輸入框自動完成功能
- 免費開源百度編輯器(UEditor)使用方法
- 百度地圖api應用標注地理位置信息(js版)
- JS仿百度搜索自動提示框匹配查詢功能
- 基于jquery的仿百度搜索框效果代碼
- js 調用百度地圖api并在地圖上進行打點添加標注
- 百度地圖API之本地搜索與范圍搜索
- java調用百度定位api服務獲取地理位置示例
- android實現百度地圖自定義彈出窗口功能
- 百度判斷手機終端并自動跳轉js代碼及使用實例
- 百度地圖API應用之獲取用戶的具體位置
- 百度地圖API使用方法詳解
- 讓input框實現類似百度的搜索提示(基于jquery事件監(jiān)聽)
- 百度前臺js筆試題與答案
- Android百度地圖定位后獲取周邊位置的實現代碼
- Python使用Socket(Https)Post登錄百度的實現代碼
- 百度實時推送api接口應用示例
- PHP利用熊掌號提交api向熊掌號批量提交網站url
相關文章
java實體類轉json時null值不要轉為"null"問題
這篇文章主要介紹了java實體類轉json時null值不要轉為“null”問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2023-11-11Spring整合redis(jedis)實現Session共享的過程
這篇文章主要介紹了Spring整合redis(jedis)實現Session共享,需要的朋友可以參考下2018-06-06在java中使用SPI創(chuàng)建可擴展的應用程序操作
這篇文章主要介紹了在java中使用SPI創(chuàng)建可擴展的應用程序操作,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-09-09