亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Golang爬蟲及正則表達(dá)式的實(shí)現(xiàn)示例

 更新時(shí)間:2021年12月23日 10:29:39   作者:小紫蘇  
本文主要介紹了Golang爬蟲及正則表達(dá)式的實(shí)現(xiàn)示例,文中通過(guò)示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下

最近學(xué)習(xí)go,爬取網(wǎng)站數(shù)據(jù)用到正則表達(dá)式,做個(gè)總結(jié);

Go中正則表達(dá)式采用RE2語(yǔ)法(具體是啥咱也不清楚);

字符

  • .?——匹配任意字符 e.g: abc. 結(jié)果: abcd,abcx,abc9;
  • [] ——匹配括號(hào)中任意一個(gè)字符 e.g: [abc]d 結(jié)果:ad,cd,1d;
  • - ——[-]中表示范圍 e.g: [A-Za-z0-9];
  • ^?——[^]中表示除括號(hào)中的任意字符 e.g:[^xy]a 結(jié)果:aa,da,不能為xa,ya;

數(shù)量限定

  • ??——前面單元匹配0或1次;
  • + ——前面單元匹配1或多次;
  • * ——前面單元匹配0或多次;
  • {,}?——顯示個(gè)數(shù)上下線;e.g : ip地址——[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3};

其他

  • \?——轉(zhuǎn)義字符;
  • |?——條件或;
  • ()?——組成單元 如果字符串本身有括號(hào)"[(] aaa. [)]" ;

方法

//參數(shù)正則字符串,返回值*Regexp
str := regexp.MustCompile(string) 
//參數(shù)要查找的數(shù)據(jù),查找次數(shù)-1為全局,返回值二維數(shù)組,查找出的字符串+正則字符串
var result [][]string = str.FindAllStringSubmatch(data, -1)

爬蟲

爬取博客園所有文章閱讀量,評(píng)論,推薦;

package main

import (
 "fmt"
 "io"
 "net/http"
 "regexp"
 "strconv"
)

var readCount int = 0
var commentCount int = 0
var diggCount int = 0

//http讀取網(wǎng)頁(yè)數(shù)據(jù)寫入result返回
func HttpGet(url string) (result string, err error) {
 resp, err1 := http.Get(url)
 if err1 != nil {
  err = err1
  return
 }
 defer resp.Body.Close()

 buf := make([]byte, 4096)

 for {
  n, err2 := resp.Body.Read(buf)
  //fmt.Println(url)
  if n == 0 {
   break
  }
  if err2 != nil && err2 != io.EOF {
   err = err2
   return
  }
  result += string(buf[:n])
 }
 return result, err
}

//橫向縱向爬取文章標(biāo)題數(shù)據(jù),并累計(jì)數(shù)值
func SpiderPageDB(index int, page chan int) {
 url := "https://www.cnblogs.com/littleperilla/default.html?page=" + strconv.Itoa(index)
    
 result, err := HttpGet(url)

 if err != nil {
  fmt.Println("HttpGet err:", err)
  return
 }

 str := regexp.MustCompile("post-view-count\">閱讀[(](?s:(.*?))[)]</span>")
 alls := str.FindAllStringSubmatch(result, -1)
 for _, j := range alls {
  temp, err := strconv.Atoi(j[1])
  if err != nil {
   fmt.Println("string2int err:", err)
  }
  readCount += temp
 }

 str = regexp.MustCompile("post-comment-count\">評(píng)論[(](?s:(.*?))[)]</span>")
 alls = str.FindAllStringSubmatch(result, -1)
 for _, j := range alls {
  temp, err := strconv.Atoi(j[1])
  if err != nil {
   fmt.Println("string2int err:", err)
  }
  commentCount += temp
 }

 str = regexp.MustCompile("post-digg-count\">推薦[(](?s:(.*?))[)]</span>")
 alls = str.FindAllStringSubmatch(result, -1)
 for _, j := range alls {
  temp, err := strconv.Atoi(j[1])
  if err != nil {
   fmt.Println("string2int err:", err)
  }
  diggCount += temp
 }

 page <- index
}

//主要工作方法
func working(start, end int) {
 fmt.Printf("正在從%d到%d爬取中...\n", start, end)

 //channel通知主線程是否所有g(shù)o都結(jié)束
 page := make(chan int)

 //多線程go程同時(shí)爬取
 for i := start; i <= end; i++ {
  go SpiderPageDB(i, page)
 }

 for i := start; i <= end; i++ {
  fmt.Printf("拉取到%d頁(yè)\n", <-page)
 }
}

//入口函數(shù)
func main() {
 //輸入爬取的起始頁(yè)
 var start, end int
 fmt.Print("startPos:")
 fmt.Scan(&start)
 fmt.Print("endPos:")
 fmt.Scan(&end)

 working(start, end)

 fmt.Println("閱讀:", readCount)
 fmt.Println("評(píng)論:", commentCount)
 fmt.Println("推薦:", diggCount)
}

補(bǔ)充:正則表達(dá)式加golang爬蟲爬取經(jīng)典案例豆瓣top250

package main

import (
	"fmt"
	"io"
	"net/http"
	"os"
	"regexp"
	"strconv"
)

func savToFile(index int, filmName, filmScore [][]string) {
	f, err := os.Create("第" + strconv.Itoa(index) + "頁(yè).txt")
	if err != nil {
		fmt.Println("os create err", err)
		return
	}
	defer f.Close()
	// 查出有多少條
	n := len(filmName)
	// 先寫抬頭 名稱     評(píng)分
	f.WriteString("電影名稱" + "\t\t\t" + "評(píng)分" + "\n")
	for i := 0; i < n; i++ {
		f.WriteString(filmName[i][1] + "\t\t\t" + filmScore[i][1] + "\n")
	}
}

func main() {
	var start, end int
	fmt.Print("請(qǐng)輸入要爬取的起始頁(yè)")
	fmt.Scan(&start)
	fmt.Print("請(qǐng)輸入要爬取的終止頁(yè)")
	fmt.Scan(&end)
	working(start, end)
}

func working(start int, end int) {
	fmt.Printf("正在爬取%d到%d頁(yè)", start, end)
	for i := start; i <= end; i++ {
		SpiderPage(i)
	}
}

// 爬取一個(gè)豆瓣頁(yè)面數(shù)據(jù)信息保存到文檔
func SpiderPage(index int) {
	// 獲取url
	url := "https://movie.douban.com/top250?start=" + strconv.Itoa((index-1)*25) + "&filter="

	// 爬取url對(duì)應(yīng)頁(yè)面
	result, err := HttpGet(url)
	if err != nil {
		fmt.Println("httpget err", err)
		return
	}
	//fmt.Println("result=", result)
	// 解析,編譯正則表達(dá)式  ---電影名稱
	ret := regexp.MustCompile(`<img width="100" alt="(?s:(.*?))"`)
	filmName := ret.FindAllStringSubmatch(result, -1)
	for _, name := range filmName {
		fmt.Println("name", name[1])
	}

	ret2 := regexp.MustCompile(`<span class="rating_num" property="v:average">(?s:(.*?))<`)
	filmScore := ret2.FindAllStringSubmatch(result, -1)
	for _, score := range filmScore {
		fmt.Println("score", score[1])
	}

	savToFile(index, filmName, filmScore)

}

// 爬取指定url頁(yè)面,返回result
func HttpGet(url string) (result string, err error) {
	req, _ := http.NewRequest("GET", url, nil)
	// 設(shè)置頭部信息
	req.Header.Set("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36 OPR/66.0.3515.115")
	resp, err1 := (&http.Client{}).Do(req)
	//resp, err1 := http.Get(url)  //此方法已經(jīng)被豆瓣視為爬蟲,返回狀態(tài)嗎為418,所以必須偽裝頭部用上述辦法
	if err1 != nil {
		err = err1
		return
	}
	defer resp.Body.Close()

	buf := make([]byte, 4096)

	//循環(huán)爬取整頁(yè)數(shù)據(jù)
	for {
		n, err2 := resp.Body.Read(buf)
		if n == 0 {
			break
		}
		if err2 != nil && err2 != io.EOF {
			err = err2
			return
		}
		result += string(buf[:n])
	}

	return

}

到此這篇關(guān)于Golang爬蟲及正則表達(dá)式的實(shí)現(xiàn)示例的文章就介紹到這了,更多相關(guān)Golang爬蟲及正則表達(dá)式 內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Golang內(nèi)存泄露場(chǎng)景與定位方式的實(shí)現(xiàn)

    Golang內(nèi)存泄露場(chǎng)景與定位方式的實(shí)現(xiàn)

    Golang有自動(dòng)垃圾回收機(jī)制,但是仍然可能會(huì)出現(xiàn)內(nèi)存泄漏的情況,本文主要介紹了Golang內(nèi)存泄露場(chǎng)景與定位方式的實(shí)現(xiàn),具有一定的參考價(jià)值,感興趣的可以了解一下
    2024-04-04
  • go redis之redigo的使用

    go redis之redigo的使用

    本文主要介紹了go redis之redigo的使用,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2022-06-06
  • 為什么Go里值為nil可以調(diào)用函數(shù)原理分析

    為什么Go里值為nil可以調(diào)用函數(shù)原理分析

    這篇文章主要為大家介紹了為什么Go里值為nil可以調(diào)用函數(shù)原理分析,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2023-08-08
  • Go語(yǔ)言中的數(shù)據(jù)格式(json、xml?、msgpack、protobuf)使用總結(jié)

    Go語(yǔ)言中的數(shù)據(jù)格式(json、xml?、msgpack、protobuf)使用總結(jié)

    在分布式的系統(tǒng)中,因?yàn)樯婕暗綌?shù)據(jù)的傳輸,所以一定會(huì)進(jìn)行數(shù)據(jù)的交換,此時(shí)就要定義數(shù)據(jù)交換的格式,例如二進(jìn)制、Json、Xml等等。本文總結(jié)了Go語(yǔ)言中的數(shù)據(jù)格式,對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2022-07-07
  • 使用Go語(yǔ)言實(shí)現(xiàn)一個(gè)簡(jiǎn)單的無(wú)界資源池

    使用Go語(yǔ)言實(shí)現(xiàn)一個(gè)簡(jiǎn)單的無(wú)界資源池

    本文我們希望通過(guò)go語(yǔ)言實(shí)現(xiàn)一個(gè)簡(jiǎn)單的資源池,而這個(gè)資源池的資源包括但不限于數(shù)據(jù)庫(kù)連接池,線程池,協(xié)程池,網(wǎng)絡(luò)連接池,只要這些資源實(shí)現(xiàn)我們指定的關(guān)閉方法,則都可以通過(guò)我們封裝的資源池進(jìn)行統(tǒng)一管理,文中通過(guò)代碼示例給大家介紹的非常詳細(xì),需要的朋友可以參考下
    2024-05-05
  • 深入了解Golang中的格式化輸出

    深入了解Golang中的格式化輸出

    fmt是Go語(yǔ)言中用于控制文本輸出的常用標(biāo)準(zhǔn)庫(kù),文中將通過(guò)示例詳細(xì)講解一下Go語(yǔ)言中不同形式的格式化輸出,感興趣的小伙伴可以了解一下
    2022-11-11
  • Go語(yǔ)言中map使用和并發(fā)安全詳解

    Go語(yǔ)言中map使用和并發(fā)安全詳解

    golang?自帶的map不是并發(fā)安全的,并發(fā)讀寫會(huì)報(bào)錯(cuò),所以下面這篇文章主要給大家介紹了關(guān)于Go語(yǔ)言中map使用和并發(fā)安全的相關(guān)資料,文中通過(guò)實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2022-07-07
  • golang中常見的logrus日志庫(kù)

    golang中常見的logrus日志庫(kù)

    這篇文章主要介紹了golang中常見的logrus日志庫(kù)的相關(guān)資料,需要的朋友可以參考下
    2023-05-05
  • VSCode配置Go插件和第三方拓展包的詳細(xì)教程

    VSCode配置Go插件和第三方拓展包的詳細(xì)教程

    這篇文章主要介紹了VSCode配置Go插件和第三方拓展包的詳細(xì)教程,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-05-05
  • go內(nèi)存緩存BigCache實(shí)現(xiàn)BytesQueue源碼解讀

    go內(nèi)存緩存BigCache實(shí)現(xiàn)BytesQueue源碼解讀

    這篇文章主要為大家介紹了go內(nèi)存緩存BigCache實(shí)現(xiàn)BytesQueue源碼解讀,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2023-09-09

最新評(píng)論