用python爬取租房網(wǎng)站信息的代碼
自己在剛學(xué)習(xí)python時(shí)寫的,中途遇到很多問(wèn)題,查了很多資料,下面就是我爬取租房信息的代碼:
鏈家的房租網(wǎng)站 兩個(gè)導(dǎo)入的包 1.requests 用來(lái)過(guò)去網(wǎng)頁(yè)內(nèi)容 2.BeautifulSoup import time import pymssql import requests from bs4 import BeautifulSoup # https://wh.lianjia.com/zufang/ #獲取url中下面的內(nèi)容 def get_page(url): responce = requests.get(url) soup = BeautifulSoup(responce.text,'lxml') return soup #封裝成函數(shù),作用是獲取列表下的所有租房頁(yè)面的鏈接,返回一個(gè)鏈接列表 def get_links(url): responce = requests.get(url) soup = BeautifulSoup(responce.text,'lxml') link_div = soup.find_all('div',class_ = 'pic-panel') links = [div.a.get('href') for div in link_div] return links #收集一個(gè)房子的信息 def get_house_info(house_url): soup = get_page(house_url) price = soup.find('span',class_='total').text unit = soup.find('span',class_= 'unit').text[1:-1] area = soup.find('p', class_ = 'lf').text house_info= soup.find_all('p',class_ = 'lf') area = house_info[0].text[3:] #字符串切片工具 layout = house_info[1].text[5:] info={ '價(jià)格':price, '單位':unit, '面積':area, '戶型':layout } return info #鏈接數(shù)據(jù)庫(kù) server="192.168.xx.xx" #換成自己的服務(wù)器信息 user="liujiepeng" password="xxxxx" #自己的數(shù)據(jù)庫(kù)用戶名和密碼 conn=pymssql.connect(server,user,password,database="house") def insert(conn,house): #sql_values = values.format(house['價(jià)格'],house['單位'],house['面積'], #house['戶型']) sql = "insert into [house].dbo.lianjia(price,unit,area,layout)values('%s','%s','%s','%s')"%(house["價(jià)格"],house["單位"],house["面積"],house["戶型"]) print(sql) cursor = conn.cursor() #游標(biāo),開(kāi)拓新的窗口 #cursor1 = conn.cursor() cursor.execute(sql) #執(zhí)行sql語(yǔ)句 conn.commit() #提交 ,更新sql 語(yǔ)句 links = get_links('https://wh.lianjia.com/zufang/') count = 1 for link in links: #time.sleep(2) print('獲取一個(gè)數(shù)據(jù)成功') house = get_house_info(link) insert(conn,house) print("第%s個(gè)數(shù)據(jù),存入數(shù)據(jù)庫(kù)成功!"%(count)) count = count+1 #print(house["價(jià)格"],end='\r')
總結(jié)
以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,謝謝大家對(duì)腳本之家的支持。如果你想了解更多相關(guān)內(nèi)容請(qǐng)查看下面相關(guān)鏈接
相關(guān)文章
Python中SOAP項(xiàng)目的介紹及其在web開(kāi)發(fā)中的應(yīng)用
這篇文章主要介紹了Python中的SOAP項(xiàng)目及其在web開(kāi)發(fā)中的應(yīng)用,本文來(lái)自于IBM官方網(wǎng)站技術(shù)文檔,需要的朋友可以參考下2015-04-04python中requests使用代理proxies方法介紹
這篇文章主要介紹了python中requests使用代理proxies方法介紹,具有一定參考價(jià)值,需要的朋友可以了解下。2017-10-10python3實(shí)現(xiàn)微型的web服務(wù)器
這篇文章主要為大家詳細(xì)介紹了python3實(shí)現(xiàn)一個(gè)微型的web服務(wù)器,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2019-09-09Django用戶登錄與注冊(cè)系統(tǒng)的實(shí)現(xiàn)示例
這篇文章主要介紹了Django用戶登錄與注冊(cè)系統(tǒng)的實(shí)現(xiàn)示例,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-06-06web.py在SAE中的Session問(wèn)題解決方法(使用mysql存儲(chǔ))
這篇文章主要介紹了web.py在SAE中的Session問(wèn)題解決方法(使用mysql存儲(chǔ)),本文直接給出實(shí)現(xiàn)代碼,代碼中包含詳細(xì)注釋,需要的朋友可以參考下2015-06-06python中對(duì)二維列表中一維列表的調(diào)用方法
在本文里小編給大家整理的是關(guān)于python中對(duì)二維列表中一維列表的調(diào)用方法,正在學(xué)習(xí)的朋友們可以參考下。2020-06-06