Java爬蟲(chóng)爬取漫畫(huà)示例
我看大部分的爬蟲(chóng)入門(mén)教學(xué)都是爬取圖片的,但是我測(cè)試了一下,那個(gè)網(wǎng)站現(xiàn)在加了一些反爬措施(如協(xié)議頭部的 referer),并且很容易就會(huì)遇到429(太多請(qǐng)求)這個(gè)問(wèn)題??赡苁嵌嗑€程速度太快,這也說(shuō)明了控制爬取的合理速度的重要性。因?yàn)槲乙恢庇锌绰?huà)的習(xí)慣,所以就來(lái)測(cè)試一下爬取網(wǎng)站的漫畫(huà)。(這個(gè)網(wǎng)站是提供試看功能,所以我就拿它來(lái)測(cè)試一下吧。)
網(wǎng)站地址(我喜歡的那部漫畫(huà)地址):https://www.manhuaniu.com/manhua/5830/
爬取結(jié)果
程序運(yùn)行效果
獲取的文件目錄信息
文件的總信息
注: 這里有一個(gè)小問(wèn)題,獲取的文件可能有的沒(méi)有后綴名,但是可以以圖片的方式打開(kāi)觀看,具體原因我也不知道,因?yàn)椴挥绊?,也就不去管它了。(或者自己使用代碼,給文件重命名。)
網(wǎng)站結(jié)構(gòu)分析
這里以一部漫畫(huà)為例,首先看上面的編號(hào),那個(gè)編號(hào)表示漫畫(huà)的目錄頁(yè)。這是很重要的,在這一頁(yè)有漫畫(huà)的目錄。然后依次點(diǎn)擊目錄中的章節(jié),可以看到每一章的漫畫(huà)信息。
這里這個(gè)分頁(yè)很奇怪,因?yàn)槊恳徽鹿?jié)的頁(yè)數(shù)不是一樣的,但是它確實(shí)直接可以選擇的,說(shuō)明這個(gè)應(yīng)該是提前加載或者異步加載的(我其實(shí)不會(huì)前端的知識(shí),只是聽(tīng)說(shuō)了一些。)后來(lái)通過(guò)查看源(我用眼睛發(fā)現(xiàn)的)發(fā)現(xiàn)確實(shí)是提前加載所有漫畫(huà)頁(yè)的鏈接。不是異步加載的。
這里我點(diǎn)擊漫畫(huà)圖片獲取圖片的地址,然后再和自己發(fā)現(xiàn)的鏈接比對(duì)一下,就看出來(lái)了,然后拼接一下 url,就獲取到所有的鏈接了。
在相應(yīng)的章節(jié)頁(yè)中,使用瀏覽器的查看源,就可以發(fā)現(xiàn)這樣一段腳本了。經(jīng)過(guò)分析,腳本中的數(shù)組里面的信息,就是對(duì)應(yīng)的每一頁(yè)漫畫(huà)的信息。
上面的截圖是一個(gè)大概的結(jié)構(gòu)信息,所以獲取流程是: 目錄頁(yè)–>章節(jié)頁(yè)–>漫畫(huà)頁(yè)
對(duì)于這里,獲取到這段腳本作為字符串,然后以 “[” 和 “]” 獲取字串,然后使用 fastjson 將其轉(zhuǎn)化為一個(gè) List 集合。
// 獲取的script 無(wú)法直接解析,必須先將 page url 取出來(lái), // 這里以 [ ] 為界限,分割字符串。 String pageUrls = script.data(); int start = pageUrls.indexOf("["); int end = pageUrls.indexOf("]") + 1; String urls = pageUrls.substring(start, end); //json 轉(zhuǎn) 集合,這個(gè)可以總結(jié)一下,不熟悉。 List<String> urlList = JSONArray.parseArray(urls, String.class);
這里強(qiáng)調(diào)一點(diǎn):Element對(duì)象的 text 方法是獲取可見(jiàn)信息,而 data 方法是獲取不可見(jiàn)信息。腳本信息是不可直接看見(jiàn)的,所以我使用 data 方法獲取它。所謂可見(jiàn)和不可見(jiàn)大概就是網(wǎng)頁(yè)上可以顯示和通過(guò)查看源可以獲取的信息的意思。比如轉(zhuǎn)義字符,通過(guò)t ext 獲取就變成轉(zhuǎn)義的字符了。
代碼部分
HttpClientUtil 類(lèi)
使用HttpClient連接池來(lái)管理連接,但是我沒(méi)有使用多線程,因?yàn)槲抑挥幸粋€(gè)ip地址,萬(wàn)一被封了,很麻煩。當(dāng)線程的時(shí)間還是可以 接受的,畢竟一部漫畫(huà),大概也就是十來(lái)分鐘吧。(以600話為例)
package com.comic; import org.apache.http.client.config.RequestConfig; import org.apache.http.impl.client.CloseableHttpClient; import org.apache.http.impl.client.HttpClients; import org.apache.http.impl.conn.PoolingHttpClientConnectionManager; public class HttpClientUtil { private static final int TIME_OUT = 10 * 1000; private static PoolingHttpClientConnectionManager pcm; //HttpClient 連接池管理類(lèi) private static RequestConfig requestConfig; static { requestConfig = RequestConfig.custom() .setConnectionRequestTimeout(TIME_OUT) .setConnectTimeout(TIME_OUT) .setSocketTimeout(TIME_OUT).build(); pcm = new PoolingHttpClientConnectionManager(); pcm.setMaxTotal(50); pcm.setDefaultMaxPerRoute(10); //這里可能用不到這個(gè)東西。 } public static CloseableHttpClient getHttpClient() { return HttpClients.custom() .setConnectionManager(pcm) .setDefaultRequestConfig(requestConfig) .build(); } }
ComicSpider 類(lèi)
最重要的一個(gè)類(lèi),用來(lái)解析HTML頁(yè)面獲取鏈接數(shù)據(jù)。 注意:這里的 DIR_PATH 是硬編碼路徑,所以你想要測(cè)試,還請(qǐng)自己創(chuàng)建相關(guān)目錄。
package com.comic; import java.io.File; import java.io.FileNotFoundException; import java.io.IOException; import java.util.List; import java.util.concurrent.atomic.AtomicInteger; import java.util.stream.Collectors; import org.apache.http.HttpEntity; import org.apache.http.client.ClientProtocolException; import org.apache.http.client.config.CookieSpecs; import org.apache.http.client.config.RequestConfig; import org.apache.http.client.methods.CloseableHttpResponse; import org.apache.http.client.methods.HttpGet; import org.apache.http.impl.client.CloseableHttpClient; import org.apache.http.impl.client.HttpClients; import org.apache.http.util.EntityUtils; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import com.alibaba.fastjson.JSONArray; public class ComicSpider { private static final String DIR_PATH = "D:/DBC/comic/"; private String url; private String root; private CloseableHttpClient httpClient; public ComicSpider(String url, String root) { this.url = url; // 這里不做非空校驗(yàn),或者使用下面這個(gè)。 // Objects.requireNonNull(root); if (root.charAt(root.length()-1) == '/') { root = root.substring(0, root.length()-1); } this.root = root; this.httpClient = HttpClients.createDefault(); } public void start() { try { String html = this.getHtml(url); //獲取漫畫(huà)主頁(yè)數(shù)據(jù) List<Chapter> chapterList = this.mapChapters(html); //解析數(shù)據(jù),得到各話的地址 this.download(chapterList); //依次下載各話。 } catch (IOException e) { e.printStackTrace(); } } /** * 從url中獲取原始的網(wǎng)頁(yè)數(shù)據(jù) * @throws IOException * @throws ClientProtocolException * */ private String getHtml(String url) throws ClientProtocolException, IOException { HttpGet get = new HttpGet(url); //下面這兩句,是因?yàn)榭偸菆?bào)一個(gè) Invalid cookie header,然后我在網(wǎng)上找到的解決方法。(去掉的話,不影響使用)。 RequestConfig defaultConfig = RequestConfig.custom().setCookieSpec(CookieSpecs.STANDARD).build(); get.setConfig(defaultConfig); //因?yàn)槭浅鯇W(xué),而且我這里只是請(qǐng)求一次數(shù)據(jù)即可,這里就簡(jiǎn)單設(shè)置一下 UA get.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3100.0 Safari/537.36"); HttpEntity entity = null; String html = null; try (CloseableHttpResponse response = httpClient.execute(get)) { int statusCode = response.getStatusLine().getStatusCode(); if (statusCode == 200) { entity = response.getEntity(); if (entity != null) { html = EntityUtils.toString(entity, "UTF-8"); } } } return html; } //獲取章節(jié)名 鏈接地址 private List<Chapter> mapChapters(String html) { Document doc = Jsoup.parse(html, "UTF-8"); Elements name_urls = doc.select("#chapter-list-1 > li > a"); /* 不采用直接返回map的方式,封裝一下。 return name_urls.stream() .collect(Collectors.toMap(Element::text, name_url->root+name_url.attr("href"))); */ return name_urls.stream() .map(name_url->new Chapter(name_url.text(), root+name_url.attr("href"))) .collect(Collectors.toList()); } /** * 依次下載對(duì)應(yīng)的章節(jié) * 我使用當(dāng)線程來(lái)下載,這種網(wǎng)站,多線程一般容易引起一些問(wèn)題。 * 方法說(shuō)明: * 使用循環(huán)迭代的方法,以 name 創(chuàng)建文件夾,然后依次下載漫畫(huà)。 * */ public void download(List<Chapter> chapterList) { chapterList.forEach(chapter->{ //按照章節(jié)創(chuàng)建文件夾,每一個(gè)章節(jié)一個(gè)文件夾存放。 File dir = new File(DIR_PATH, chapter.getName()); if (!dir.exists()) { if (!dir.mkdir()) { try { throw new FileNotFoundException("無(wú)法創(chuàng)建指定文件夾"+dir); } catch (FileNotFoundException e) { e.printStackTrace(); } } //開(kāi)始按照章節(jié)下載 try { List<ComicPage> urlList = this.getPageUrl(chapter); urlList.forEach(page->{ SinglePictureDownloader downloader = new SinglePictureDownloader(page, dir.getAbsolutePath()); downloader.download(); }); } catch (IOException e) { e.printStackTrace(); } } }); } //獲取每一個(gè)頁(yè)漫畫(huà)的位置 private List<ComicPage> getPageUrl(Chapter chapter) throws IOException { String html = this.getHtml(chapter.getUrl()); Document doc = Jsoup.parse(html, "UTF-8"); Element script = doc.getElementsByTag("script").get(2); //獲取第三個(gè)腳本的數(shù)據(jù) // 獲取的script 無(wú)法直接解析,必須先將 page url 取出來(lái), // 這里以 [ ] 為界限,分割字符串。 String pageUrls = script.data(); int start = pageUrls.indexOf("["); int end = pageUrls.indexOf("]") + 1; String urls = pageUrls.substring(start, end); //json 轉(zhuǎn) 集合,這個(gè)可以總結(jié)一下,不熟悉。 List<String> urlList = JSONArray.parseArray(urls, String.class); AtomicInteger index=new AtomicInteger(0); //我無(wú)法使用索引,這是別人推薦的方式 return urlList.stream() //注意這里拼接的不是 root 路徑,而是一個(gè)新的路徑 .map(url->new ComicPage(index.getAndIncrement(),"https://restp.dongqiniqin.com//"+url)) .collect(Collectors.toList()); } }
注意: 這里我的思路是,所有的漫畫(huà)都存放到 DIR_PATH 目錄中。 然后每一章節(jié)是一個(gè)子目錄(以章節(jié)名來(lái)命名),然后每一個(gè)章節(jié)的漫畫(huà)放到一個(gè)目錄中,但是這里會(huì)遇到一個(gè)問(wèn)題。因?yàn)閷?shí)際上漫畫(huà)是一頁(yè)一頁(yè)觀看的,所以漫畫(huà)就有一個(gè)順序的問(wèn)題(畢竟一堆亂序漫畫(huà),看起來(lái)也很費(fèi)勁,雖然我這里不是為了看漫畫(huà))。所以我就給每一個(gè)漫畫(huà)頁(yè)一個(gè)編號(hào),按照上面腳本上的順序,進(jìn)行編號(hào)。但是由于我使用了Java8的 Lambda 表達(dá)式,所以我無(wú)法使用索引。(這涉及到另一個(gè)問(wèn)題了)。 這里的解決辦法是我看別人推薦的: 每次調(diào)用 index的 getAndIncrement
方法就可以增加 index 的值,非常方便。
AtomicInteger index=new AtomicInteger(0); //我無(wú)法使用索引,這是別人推薦的方式 return urlList.stream() //注意這里拼接的不是 root 路徑,而是一個(gè)新的路徑 .map(url->new ComicPage(index.getAndIncrement(),"https://restp.dongqiniqin.com//"+url)) .collect(Collectors.toList());
Chapter 和 ComicPage 類(lèi)
兩個(gè)實(shí)體類(lèi),因?yàn)槭敲嫦驅(qū)ο舐?,我就設(shè)計(jì)了兩個(gè)簡(jiǎn)單的實(shí)體類(lèi)來(lái)封裝一下信息,這樣操作比較方便一點(diǎn)。
Chapter 類(lèi)代表的是目錄中的每一個(gè)章節(jié)的信息,章節(jié)的名字和章節(jié)的鏈接。 ComicPage 類(lèi)代表的是每一個(gè)章節(jié)中的每一頁(yè)漫畫(huà)信息,每一頁(yè)的編號(hào)和鏈接地址。
package com.comic; public class Chapter { private String name; //章節(jié)名 private String url; //對(duì)應(yīng)章節(jié)的鏈接 public Chapter(String name, String url) { this.name = name; this.url = url; } public String getName() { return name; } public String getUrl() { return url; } @Override public String toString() { return "Chapter [name=" + name + ", url=" + url + "]"; } }
package com.comic; public class ComicPage { private int number; //每一頁(yè)的序號(hào) private String url; //每一頁(yè)的鏈接 public ComicPage(int number, String url) { this.number = number; this.url = url; } public int getNumber() { return number; } public String getUrl() { return url; } }
SinglePictureDownloader 類(lèi)
因?yàn)榍皫滋焓褂枚嗑€程下載類(lèi)爬取圖片,發(fā)現(xiàn)速度太快了,ip 好像被封了,所以就又寫(xiě)了一個(gè)當(dāng)線程的下載類(lèi)。 它的邏輯很簡(jiǎn)單,主要是獲取對(duì)應(yīng)的漫畫(huà)頁(yè)鏈接,然后使用get請(qǐng)求,將它保存到對(duì)應(yīng)的文件夾中。(它的功能大概和獲取網(wǎng)絡(luò)中的一張圖片類(lèi)似,既然你可以獲取一張,那么成千上百也沒(méi)有問(wèn)題了。)
package com.comic; import java.io.BufferedOutputStream; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.io.OutputStream; import java.util.Random; import org.apache.http.HttpEntity; import org.apache.http.client.ClientProtocolException; import org.apache.http.client.methods.CloseableHttpResponse; import org.apache.http.client.methods.HttpGet; import org.apache.http.impl.client.CloseableHttpClient; import org.apache.http.util.EntityUtils; import com.m3u8.HttpClientUtil; public class SinglePictureDownloader { private CloseableHttpClient httpClient; private ComicPage page; private String filePath; private String[] headers = { "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14", "Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)", "Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11", "Opera/9.25 (Windows NT 5.1; U; en)", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)", "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12", "Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9", "Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.7 (KHTML, like Gecko) Ubuntu/11.04 Chromium/16.0.912.77 Chrome/16.0.912.77 Safari/535.7", "Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:10.0) Gecko/20100101 Firefox/10.0 " }; public SinglePictureDownloader(ComicPage page, String filePath) { this.httpClient = HttpClientUtil.getHttpClient(); this.page = page; this.filePath = filePath; } public void download() { HttpGet get = new HttpGet(page.getUrl()); String url = page.getUrl(); //取文件的擴(kuò)展名 String prefix = url.substring(url.lastIndexOf(".")); Random rand = new Random(); //設(shè)置請(qǐng)求頭 get.setHeader("User-Agent", headers[rand.nextInt(headers.length)]); HttpEntity entity = null; try (CloseableHttpResponse response = httpClient.execute(get)) { int statusCode = response.getStatusLine().getStatusCode(); if (statusCode == 200) { entity = response.getEntity(); if (entity != null) { File picFile = new File(filePath, page.getNumber()+prefix); try (OutputStream out = new BufferedOutputStream(new FileOutputStream(picFile))) { entity.writeTo(out); System.out.println("下載完畢:" + picFile.getAbsolutePath()); } } } } catch (ClientProtocolException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } finally { try { //關(guān)閉實(shí)體,關(guān)于 httpClient 的關(guān)閉資源,有點(diǎn)不太了解。 EntityUtils.consume(entity); } catch (IOException e) { e.printStackTrace(); } } } }
Main 類(lèi)
package com.comic; public class Main { public static void main(String[] args) { String root = "https://www.manhuaniu.com/"; //網(wǎng)站根路徑,用于拼接字符串 String url = "https://www.manhuaniu.com/manhua/5830/"; //第一張第一頁(yè)的url ComicSpider spider = new ComicSpider(url, root); spider.start(); } }
總結(jié)
注:這里的代碼是為了學(xué)習(xí)爬蟲(chóng)知識(shí),而不是為了看漫畫(huà),如果你想看的話,還是推薦去作者推薦的地方付費(fèi)觀看,畢竟作者創(chuàng)作也是很辛苦的。
這個(gè)網(wǎng)站基本上沒(méi)有反爬措施,所以處理起來(lái)也很方便(我也就是剛學(xué),只知道一個(gè) UA 和 referer,哈哈?。┲灰屑?xì)分析,還是很容易爬取到相應(yīng)信息的。最近看了一些人關(guān)于爬蟲(chóng)的介紹,使用什么語(yǔ)言并不是最重要的(不一定非要用 python,如果學(xué)Java的爬蟲(chóng),必要的Java基礎(chǔ)是必不可少的:IO流、多線程等,還是看你喜歡使用那個(gè),像我就喜歡我最順手的,而不是簡(jiǎn)單的。因?yàn)閜ython意味著學(xué)習(xí)更多的 python 知識(shí),但是我學(xué)習(xí)爬蟲(chóng)就是為了爬蟲(chóng)的知識(shí)而已),關(guān)鍵是對(duì)于各種反爬的處理,像我這樣小爬蟲(chóng),也就是一個(gè)小玩具而已。不過(guò),千里之行始于足下,這是一個(gè)積累知識(shí)的過(guò)程。
到此這篇關(guān)于Java爬蟲(chóng)爬取漫畫(huà)示例的文章就介紹到這了,更多相關(guān)Java爬蟲(chóng)爬取漫畫(huà)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Jmeter實(shí)現(xiàn)Base64編碼的兩種方式
這篇文章主要介紹了Jmeter實(shí)現(xiàn)Base64編碼,大家都知道Jmeter實(shí)現(xiàn)Base64編碼有兩種方式,本文通過(guò)圖文并茂的形式把每種方法給大家介紹的非常詳細(xì),需要的朋友可以參考下2022-01-01java中對(duì)字符串每個(gè)字符統(tǒng)計(jì)的方法
java中對(duì)字符串每個(gè)字符統(tǒng)計(jì)的方法,需要的朋友可以參考一下2013-03-03SpringCloud使用集中配置組件Config規(guī)避信息泄露
項(xiàng)目應(yīng)用中,數(shù)據(jù)庫(kù)連接信息、Access-key、Secret-key等由于其及其敏感和特殊性,一旦泄露出去就很可能會(huì)使得應(yīng)用遭到黑客攻擊,例如數(shù)據(jù)庫(kù)賬號(hào)密碼泄露可能導(dǎo)致“拖庫(kù)”,甚至數(shù)據(jù)丟失。此等事件偶有發(fā)生,那么,在分布式微服務(wù)項(xiàng)目中,怎么避免這種情況呢2022-07-07JavaWeb中使用JavaMail實(shí)現(xiàn)發(fā)送郵件功能實(shí)例詳解
這篇文章主要介紹了JavaWeb中使用JavaMail實(shí)現(xiàn)發(fā)送郵件功能的實(shí)例代碼,非常不錯(cuò)具有參考借鑒價(jià)值,感興趣的朋友一起看看吧2016-05-05Java如何使用ConfigurationProperties獲取yml中的配置
這篇文章主要介紹了Java如何使用ConfigurationProperties獲取yml中的配置,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-02-02Java 泛型總結(jié)(一):基本用法與類(lèi)型擦除
本文主要介紹了Java泛型的使用以及類(lèi)型擦除相關(guān)的問(wèn)題。具有很好的參考價(jià)值。下面跟著小編一起來(lái)看下吧2017-03-03通過(guò)Spring Security魔幻山谷講解獲取認(rèn)證機(jī)制核心原理
這篇文章主要介紹了通過(guò)Spring Security魔幻山谷講解獲取認(rèn)證機(jī)制核心原理,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2021-04-04