Golang爬蟲及正則表達(dá)式的實(shí)現(xiàn)示例
最近學(xué)習(xí)go,爬取網(wǎng)站數(shù)據(jù)用到正則表達(dá)式,做個(gè)總結(jié);
Go中正則表達(dá)式采用RE2語(yǔ)法(具體是啥咱也不清楚);
字符
- .?——匹配任意字符 e.g: abc. 結(jié)果: abcd,abcx,abc9;
- [] ——匹配括號(hào)中任意一個(gè)字符 e.g: [abc]d 結(jié)果:ad,cd,1d;
- - ——[-]中表示范圍 e.g: [A-Za-z0-9];
- ^?——[^]中表示除括號(hào)中的任意字符 e.g:[^xy]a 結(jié)果:aa,da,不能為xa,ya;
數(shù)量限定
- ??——前面單元匹配0或1次;
- + ——前面單元匹配1或多次;
- * ——前面單元匹配0或多次;
- {,}?——顯示個(gè)數(shù)上下線;e.g : ip地址——[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3};
其他
- \?——轉(zhuǎn)義字符;
- |?——條件或;
- ()?——組成單元 如果字符串本身有括號(hào)"[(] aaa. [)]" ;
方法
//參數(shù)正則字符串,返回值*Regexp str := regexp.MustCompile(string) //參數(shù)要查找的數(shù)據(jù),查找次數(shù)-1為全局,返回值二維數(shù)組,查找出的字符串+正則字符串 var result [][]string = str.FindAllStringSubmatch(data, -1)
爬蟲
爬取博客園所有文章閱讀量,評(píng)論,推薦;
package main import ( "fmt" "io" "net/http" "regexp" "strconv" ) var readCount int = 0 var commentCount int = 0 var diggCount int = 0 //http讀取網(wǎng)頁(yè)數(shù)據(jù)寫入result返回 func HttpGet(url string) (result string, err error) { resp, err1 := http.Get(url) if err1 != nil { err = err1 return } defer resp.Body.Close() buf := make([]byte, 4096) for { n, err2 := resp.Body.Read(buf) //fmt.Println(url) if n == 0 { break } if err2 != nil && err2 != io.EOF { err = err2 return } result += string(buf[:n]) } return result, err } //橫向縱向爬取文章標(biāo)題數(shù)據(jù),并累計(jì)數(shù)值 func SpiderPageDB(index int, page chan int) { url := "https://www.cnblogs.com/littleperilla/default.html?page=" + strconv.Itoa(index) result, err := HttpGet(url) if err != nil { fmt.Println("HttpGet err:", err) return } str := regexp.MustCompile("post-view-count\">閱讀[(](?s:(.*?))[)]</span>") alls := str.FindAllStringSubmatch(result, -1) for _, j := range alls { temp, err := strconv.Atoi(j[1]) if err != nil { fmt.Println("string2int err:", err) } readCount += temp } str = regexp.MustCompile("post-comment-count\">評(píng)論[(](?s:(.*?))[)]</span>") alls = str.FindAllStringSubmatch(result, -1) for _, j := range alls { temp, err := strconv.Atoi(j[1]) if err != nil { fmt.Println("string2int err:", err) } commentCount += temp } str = regexp.MustCompile("post-digg-count\">推薦[(](?s:(.*?))[)]</span>") alls = str.FindAllStringSubmatch(result, -1) for _, j := range alls { temp, err := strconv.Atoi(j[1]) if err != nil { fmt.Println("string2int err:", err) } diggCount += temp } page <- index } //主要工作方法 func working(start, end int) { fmt.Printf("正在從%d到%d爬取中...\n", start, end) //channel通知主線程是否所有g(shù)o都結(jié)束 page := make(chan int) //多線程go程同時(shí)爬取 for i := start; i <= end; i++ { go SpiderPageDB(i, page) } for i := start; i <= end; i++ { fmt.Printf("拉取到%d頁(yè)\n", <-page) } } //入口函數(shù) func main() { //輸入爬取的起始頁(yè) var start, end int fmt.Print("startPos:") fmt.Scan(&start) fmt.Print("endPos:") fmt.Scan(&end) working(start, end) fmt.Println("閱讀:", readCount) fmt.Println("評(píng)論:", commentCount) fmt.Println("推薦:", diggCount) }
補(bǔ)充:正則表達(dá)式加golang爬蟲爬取經(jīng)典案例豆瓣top250
package main import ( "fmt" "io" "net/http" "os" "regexp" "strconv" ) func savToFile(index int, filmName, filmScore [][]string) { f, err := os.Create("第" + strconv.Itoa(index) + "頁(yè).txt") if err != nil { fmt.Println("os create err", err) return } defer f.Close() // 查出有多少條 n := len(filmName) // 先寫抬頭 名稱 評(píng)分 f.WriteString("電影名稱" + "\t\t\t" + "評(píng)分" + "\n") for i := 0; i < n; i++ { f.WriteString(filmName[i][1] + "\t\t\t" + filmScore[i][1] + "\n") } } func main() { var start, end int fmt.Print("請(qǐng)輸入要爬取的起始頁(yè)") fmt.Scan(&start) fmt.Print("請(qǐng)輸入要爬取的終止頁(yè)") fmt.Scan(&end) working(start, end) } func working(start int, end int) { fmt.Printf("正在爬取%d到%d頁(yè)", start, end) for i := start; i <= end; i++ { SpiderPage(i) } } // 爬取一個(gè)豆瓣頁(yè)面數(shù)據(jù)信息保存到文檔 func SpiderPage(index int) { // 獲取url url := "https://movie.douban.com/top250?start=" + strconv.Itoa((index-1)*25) + "&filter=" // 爬取url對(duì)應(yīng)頁(yè)面 result, err := HttpGet(url) if err != nil { fmt.Println("httpget err", err) return } //fmt.Println("result=", result) // 解析,編譯正則表達(dá)式 ---電影名稱 ret := regexp.MustCompile(`<img width="100" alt="(?s:(.*?))"`) filmName := ret.FindAllStringSubmatch(result, -1) for _, name := range filmName { fmt.Println("name", name[1]) } ret2 := regexp.MustCompile(`<span class="rating_num" property="v:average">(?s:(.*?))<`) filmScore := ret2.FindAllStringSubmatch(result, -1) for _, score := range filmScore { fmt.Println("score", score[1]) } savToFile(index, filmName, filmScore) } // 爬取指定url頁(yè)面,返回result func HttpGet(url string) (result string, err error) { req, _ := http.NewRequest("GET", url, nil) // 設(shè)置頭部信息 req.Header.Set("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36 OPR/66.0.3515.115") resp, err1 := (&http.Client{}).Do(req) //resp, err1 := http.Get(url) //此方法已經(jīng)被豆瓣視為爬蟲,返回狀態(tài)嗎為418,所以必須偽裝頭部用上述辦法 if err1 != nil { err = err1 return } defer resp.Body.Close() buf := make([]byte, 4096) //循環(huán)爬取整頁(yè)數(shù)據(jù) for { n, err2 := resp.Body.Read(buf) if n == 0 { break } if err2 != nil && err2 != io.EOF { err = err2 return } result += string(buf[:n]) } return }
到此這篇關(guān)于Golang爬蟲及正則表達(dá)式的實(shí)現(xiàn)示例的文章就介紹到這了,更多相關(guān)Golang爬蟲及正則表達(dá)式 內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Golang內(nèi)存泄露場(chǎng)景與定位方式的實(shí)現(xiàn)
Golang有自動(dòng)垃圾回收機(jī)制,但是仍然可能會(huì)出現(xiàn)內(nèi)存泄漏的情況,本文主要介紹了Golang內(nèi)存泄露場(chǎng)景與定位方式的實(shí)現(xiàn),具有一定的參考價(jià)值,感興趣的可以了解一下2024-04-04為什么Go里值為nil可以調(diào)用函數(shù)原理分析
這篇文章主要為大家介紹了為什么Go里值為nil可以調(diào)用函數(shù)原理分析,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-08-08Go語(yǔ)言中的數(shù)據(jù)格式(json、xml?、msgpack、protobuf)使用總結(jié)
在分布式的系統(tǒng)中,因?yàn)樯婕暗綌?shù)據(jù)的傳輸,所以一定會(huì)進(jìn)行數(shù)據(jù)的交換,此時(shí)就要定義數(shù)據(jù)交換的格式,例如二進(jìn)制、Json、Xml等等。本文總結(jié)了Go語(yǔ)言中的數(shù)據(jù)格式,對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2022-07-07使用Go語(yǔ)言實(shí)現(xiàn)一個(gè)簡(jiǎn)單的無(wú)界資源池
本文我們希望通過(guò)go語(yǔ)言實(shí)現(xiàn)一個(gè)簡(jiǎn)單的資源池,而這個(gè)資源池的資源包括但不限于數(shù)據(jù)庫(kù)連接池,線程池,協(xié)程池,網(wǎng)絡(luò)連接池,只要這些資源實(shí)現(xiàn)我們指定的關(guān)閉方法,則都可以通過(guò)我們封裝的資源池進(jìn)行統(tǒng)一管理,文中通過(guò)代碼示例給大家介紹的非常詳細(xì),需要的朋友可以參考下2024-05-05go內(nèi)存緩存BigCache實(shí)現(xiàn)BytesQueue源碼解讀
這篇文章主要為大家介紹了go內(nèi)存緩存BigCache實(shí)現(xiàn)BytesQueue源碼解讀,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-09-09