亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

網(wǎng)絡(luò)爬蟲案例解析

 更新時間:2017年03月13日 10:39:13   作者:山登絕頂我為瘋  
本文主要介紹了網(wǎng)絡(luò)爬蟲的小案例。具有很好的參考價值。下面跟著小編一起來看下吧

網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機器人,在FOAF社區(qū)中間,更經(jīng)常被稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動的抓取萬維網(wǎng)信息的程序或者腳本,已被廣泛應(yīng)用于互聯(lián)網(wǎng)領(lǐng)域。搜索引擎使用網(wǎng)絡(luò)爬蟲抓取Web網(wǎng)頁、文檔甚至圖片、音頻、視頻等資源,通過相應(yīng)的索引技術(shù)組織這些信息,提供給搜索用戶進行查詢。網(wǎng)絡(luò)爬蟲也為中小站點的推廣提供了有效的途徑,網(wǎng)站針對搜索引擎爬蟲的優(yōu)化曾風(fēng)靡一時。

網(wǎng)絡(luò)爬蟲的基本工作流程如下:

1.首先選取一部分精心挑選的種子URL;

2.將這些URL放入待抓取URL隊列;

3.從待抓取URL隊列中取出待抓取在URL,解析DNS,并且得到主機的ip,并將URL對應(yīng)的網(wǎng)頁下載下來,存儲進已下載網(wǎng)頁庫中。此外,將這些URL放進已抓取URL隊列。

4.分析已抓取URL隊列中的URL,分析其中的其他URL,并且將URL放入待抓取URL隊列,從而進入下一個循環(huán)。

當(dāng)然,上面說的那些我都不懂,以我現(xiàn)在的理解,我們請求一個網(wǎng)址,服務(wù)器返回給我們一個超級大文本,而我們的瀏覽器可以將這個超級大文本解析成我們說看到的華麗的頁面

那么,我們只需要把這個超級大文本看成一個足夠大的String  字符串就OK了。

下面是我的代碼

package main.spider;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
/**
 * Created by 1755790963 on 2017/3/10.
 */
public class Second {
  public static void main(String[] args) throws IOException {
    System.out.println("begin");
    Document document = Jsoup.connect("http://tieba.baidu.com/p/2356694991").get();
    String selector="div[class=d_post_content j_d_post_content clearfix]";
    Elements elements = document.select(selector);
    for (Element element:elements){
      String word= element.text();
      if(word.indexOf("@")>0){
        word=word.substring(0,word.lastIndexOf("@")+7);
        System.out.println(word);
      }
      System.out.println(word);
    }
  }
}

我在這里使用了apache公司所提供的jsoup   jar包,jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文本內(nèi)容。它提供了一套非常省力的API,可通過DOM,CSS以及類似于jQuery的操作方法來取出和操作數(shù)據(jù)。

在代碼里,我們可以直接使用Jsoup類,并.出Jsoup的connect()方法,這個方法返回一個org.jsoup.Connection對象,參數(shù)則是網(wǎng)站的url地址,Connection對象有一個get()方法返回Document對象

document對象的select方法可以返回一個Elements對象,而Elements對象正式Element對象的集合,但select()方法需要我們傳入一個String參數(shù),這個參數(shù)就是我們的選擇器

String selector="div[class=d_post_content j_d_post_content  clearfix]";

我們的選擇器語法類似于jquery的選擇器語法,可以選取html頁面中的元素,選擇好后,就可以便利Elements集合,通過Element的text()方法獲取html中的代碼

這樣,一個最簡單的網(wǎng)絡(luò)爬蟲就寫完了。

我選擇的網(wǎng)址是 豆瓣網(wǎng),留下你的郵箱,我會給你發(fā)郵件  這樣一個百度貼吧,我扒的是所有人的郵箱地址

附上結(jié)果:

以上就是本文的全部內(nèi)容,希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作能帶來一定的幫助,同時也希望多多支持腳本之家!

相關(guān)文章

  • 初識Java環(huán)境變量配置及IDEA

    初識Java環(huán)境變量配置及IDEA

    這篇文章主要介紹了Java環(huán)境變量配置及IDEA,本文通過圖文實例相結(jié)合給大家介紹的非常詳細,對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2021-03-03
  • 如何優(yōu)雅的替換掉Java代碼中的if else

    如何優(yōu)雅的替換掉Java代碼中的if else

    這篇文章主要介紹了如何優(yōu)雅的替換掉Java代碼中的if else,幫助大家優(yōu)化自己的Java代碼,提高可讀性與簡潔性,感興趣的朋友可以了解下
    2020-09-09
  • SpringBoot防止大量請求攻擊的實現(xiàn)

    SpringBoot防止大量請求攻擊的實現(xiàn)

    在有些特定的時候需要加上IP訪問時間限制,防止一個IP多次訪問請求,本文主要介紹了SpringBoot防止大量請求攻擊的實現(xiàn),感興趣的可以了解一下
    2021-11-11
  • Spring實現(xiàn)文件上傳功能

    Spring實現(xiàn)文件上傳功能

    本篇文章主要介紹了Spring實現(xiàn)文件上傳功能,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2017-01-01
  • Redis?command?timed?out兩種異常情況的解決方式

    Redis?command?timed?out兩種異常情況的解決方式

    Redis是我們開發(fā)中常用的數(shù)據(jù)庫,下面這篇文章主要給大家介紹了關(guān)于Redis?command?timed?out兩種異常情況的解決方式,文中通過實例代碼介紹的非常詳細,需要的朋友可以參考下
    2023-04-04
  • Java實現(xiàn)BP神經(jīng)網(wǎng)絡(luò)MNIST手寫數(shù)字識別的示例詳解

    Java實現(xiàn)BP神經(jīng)網(wǎng)絡(luò)MNIST手寫數(shù)字識別的示例詳解

    這篇文章主要為大家詳細介紹了Java實現(xiàn)BP神經(jīng)網(wǎng)絡(luò)MNIST手寫數(shù)字識別的相關(guān)方法,文中的示例代碼講解詳細,感興趣的小伙伴可以跟隨小編一起了解一下
    2023-01-01
  • 淺談springboot之JoinPoint的getSignature方法

    淺談springboot之JoinPoint的getSignature方法

    這篇文章主要介紹了springboot之JoinPoint的getSignature方法,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2021-06-06
  • Mapper批量插入Oracle數(shù)據(jù)@InsertProvider注解

    Mapper批量插入Oracle數(shù)據(jù)@InsertProvider注解

    今天小編就為大家分享一篇關(guān)于Mapper批量插入Oracle數(shù)據(jù)@InsertProvider注解,小編覺得內(nèi)容挺不錯的,現(xiàn)在分享給大家,具有很好的參考價值,需要的朋友一起跟隨小編來看看吧
    2019-03-03
  • java獲取每月的最后一天實現(xiàn)方法

    java獲取每月的最后一天實現(xiàn)方法

    下面小編就為大家?guī)硪黄猨ava獲取每月的最后一天實現(xiàn)方法。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2017-09-09
  • MyBatis一二級緩存

    MyBatis一二級緩存

    這篇文章主要介紹了MyBatis一二級緩存的相關(guān)知識,非常不錯,具有參考借鑒價值,需要的朋友可以參考下
    2017-06-06

最新評論