Python爬蟲 scrapy框架爬取某招聘網(wǎng)存入mongodb解析
更新時間:2019年07月31日 10:03:59 作者:Tanglaoer
這篇文章主要介紹了Python爬蟲 scrapy框架爬取某招聘網(wǎng)存入mongodb解析,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
創(chuàng)建項目
scrapy startproject zhaoping
創(chuàng)建爬蟲
cd zhaoping scrapy genspider hr zhaopingwang.com
目錄結構

items.py
title = scrapy.Field() position = scrapy.Field() publish_date = scrapy.Field()
pipelines.py
from pymongo import MongoClient
mongoclient = MongoClient(host='192.168.226.150',port=27017)
collection = mongoclient['zhaoping']['hr']
class TencentPipeline(object):
def process_item(self, item, spider):
print(item)
# 需要轉換為 dict
collection.insert(dict(item))
return item
spiders/hr.py
def parse(self, response):
# 不要第一個 和最后一個
tr_list = response.xpath("http://table[@class='tablelist']/tr")[1:-1]
for tr in tr_list:
item = TencentItem()
# xpath 從1 開始數(shù)起
item["title"] = tr.xpath("./td[1]/a/text()").extract_first()
item["position"] = tr.xpath("./td[2]/text()").extract_first()
item["publish_date"] = tr.xpath("./td[5]/text()").extract_first()
yield item
next_url = response.xpath("http://a[@id='next']/@href").extract_first()
# 構造url
if next_url != "javascript:;":
print(next_url)
next_url = "https://hr.tencent.com/" + next_url
yield scrapy.Request(url=next_url,callback=self.parse,)
就是這么簡單,就獲取到數(shù)據(jù)

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。
您可能感興趣的文章:
相關文章
Django 連接sql server數(shù)據(jù)庫的方法
這篇文章主要介紹了Django 連接sql server數(shù)據(jù)庫的方法,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2018-06-06
python調用系統(tǒng)ffmpeg實現(xiàn)視頻截圖、http發(fā)送
這篇文章主要為大家詳細介紹了python調用系統(tǒng)ffmpeg實現(xiàn)視頻截圖、http發(fā)送,具有一定的參考價值,感興趣的小伙伴們可以參考一下2018-03-03
python學生信息管理系統(tǒng)實現(xiàn)代碼
這篇文章主要為大家詳細介紹了python學生信息管理系統(tǒng)的實現(xiàn)代碼,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下2021-06-06

