亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

使用python爬取微博數(shù)據(jù)打造一顆“心”

 更新時(shí)間:2019年06月28日 15:33:37   作者:FOOFISH-PYTHON之禪  
這篇文章主要介紹了使用python基于微博數(shù)據(jù)打造一顆“心”,作為程序員,我準(zhǔn)備了一份特別的禮物,用以往發(fā)的微博數(shù)據(jù)打造一顆“愛心”,我想她一定會(huì)感動(dòng)得哭了吧,需要的朋友可以參考下

前言

一年一度的虐狗節(jié)終于過去了,朋友圈各種曬,曬自拍,曬娃,曬美食,秀恩愛的。程序員在曬什么,程序員在加班。但是禮物還是少不了的,送什么好?作為程序員,我準(zhǔn)備了一份特別的禮物,用以往發(fā)的微博數(shù)據(jù)打造一顆“愛心”,我想她一定會(huì)感動(dòng)得哭了吧。哈哈

準(zhǔn)備工作

有了想法之后就開始行動(dòng)了,自然最先想到的就是用 Python 了,大體思路就是把微博數(shù)據(jù)爬下來,數(shù)據(jù)經(jīng)過清洗加工后再進(jìn)行分詞處理,處理后的數(shù)據(jù)交給詞云工具,配合科學(xué)計(jì)算工具和繪圖工具制作成圖像出來,涉及到的工具包有:

requests 用于網(wǎng)絡(luò)請(qǐng)求爬取微博數(shù)據(jù),結(jié)巴分詞進(jìn)行中文分詞處理,詞云處理庫 wordcloud,圖片處理庫 Pillow,科學(xué)計(jì)算工具 NumPy ,類似于 MATLAB 的 2D 繪圖庫 Matplotlib

工具安裝

安裝這些工具包時(shí),不同系統(tǒng)平臺(tái)有可能出現(xiàn)不一樣的錯(cuò)誤,wordcloud,requests,jieba 都可以通過普通的 pip 方式在線安裝,

pip install wordcloud
pip install requests
pip install jieba

在Windows 平臺(tái)安裝 Pillow,NumPy,Matplotlib 直接用 pip 在線安裝會(huì)出現(xiàn)各種問題,推薦的一種方式是在一個(gè)叫 Python Extension Packages for Windows 1 的第三方平臺(tái)下載 相應(yīng)的 .whl 文件安裝??梢愿鶕?jù)自己的系統(tǒng)環(huán)境選擇下載安裝 cp27 對(duì)應(yīng) python2.7,amd64 對(duì)應(yīng) 64 位系統(tǒng)。下載到本地后進(jìn)行安裝

pip install Pillow-4.0.0-cp27-cp27m-win_amd64.whl
pip install scipy-0.18.0-cp27-cp27m-win_amd64.whl
pip install numpy-1.11.3+mkl-cp27-cp27m-win_amd64.whl
pip install matplotlib-1.5.3-cp27-cp27m-win_amd64.whl

其他平臺(tái)可根據(jù)錯(cuò)誤提示 Google 解決?;蛘咧苯踊?Anaconda 開發(fā),它是 Python 的一個(gè)分支,內(nèi)置了大量科學(xué)計(jì)算、機(jī)器學(xué)習(xí)的模塊 。

獲取數(shù)據(jù)

新浪微博官方提供的 API 是個(gè)渣渣,只能獲取用戶最新發(fā)布的5條數(shù)據(jù),退而求其次,使用爬蟲去抓取數(shù)據(jù),抓取前先評(píng)估難度,看看是否有人寫好了,在GitHub逛了一圈,基本沒有滿足需求的。倒是給我提供了一些思路,于是決定自己寫爬蟲。

使用 移動(dòng)端網(wǎng)址去爬取數(shù)據(jù)。發(fā)現(xiàn)接口 可以分頁獲取微博數(shù)據(jù),而且返回的數(shù)據(jù)是 json 格式,這樣就省事很多了,不過該接口需要登錄后的 cookies 信息,登錄自己的帳號(hào)就可以通過 Chrome 瀏覽器 找到 Cookies 信息。

實(shí)現(xiàn)代碼:

def fetch_weibo():
api = "http://m.weibo.cn/index/my?format=cards&page=%s"
for i in range(1, 102):
response = requests.get(url=api % i, cookies=cookies)
data = response.json()[0]
groups = data.get("card_group") or []
for group in groups:
text = group.get("mblog").get("text")
text = text.encode("utf-8")
text = cleanring(text).strip()
yield text

查看微博的總頁數(shù)是101,考慮到一次性返回一個(gè)列表對(duì)象太費(fèi)內(nèi)存,函數(shù)用 yield 返回一個(gè)生成器,此外還要對(duì)文本進(jìn)行數(shù)據(jù)清洗,例如去除標(biāo)點(diǎn)符號(hào),HTML 標(biāo)簽,“轉(zhuǎn)發(fā)微博”這樣的字樣。

保存數(shù)據(jù)

數(shù)據(jù)獲取之后,我們要把它離線保存起來,方便下次重復(fù)使用,避免重復(fù)地去爬取。使用 csv 格式保存到 weibo.csv 文件中,以便下一步使用。數(shù)據(jù)保存到 csv 文件中打開的時(shí)候可能為亂碼,沒關(guān)系,用 notepad++查看不是亂碼。

def write_csv(texts):
with codecs.open('weibo.csv', 'w') as f:
writer = csv.DictWriter(f, fieldnames=["text"])
writer.writeheader()
for text in texts:
writer.writerow({"text": text})
def read_csv():
with codecs.open('weibo.csv', 'r') as f:
reader = csv.DictReader(f)
for row in reader:
yield row['text']

分詞處理

從 weibo.csv 文件中讀出來的每一條微博進(jìn)行分詞處理后再交給 wordcloud 生成詞云。結(jié)巴分詞適用于大部分中文使用場景,使用停止詞庫 stopwords.txt 把無用的信息(比如:的,那么,因?yàn)榈龋┻^濾掉。

def word_segment(texts):
jieba.analyse.set_stop_words("stopwords.txt")
for text in texts:
tags = jieba.analyse.extract_tags(text, topK=20)
yield " ".join(tags)

生成圖片

數(shù)據(jù)分詞處理后,就可以給 wordcloud 處理了,wordcloud 根據(jù)數(shù)據(jù)里面的各個(gè)詞出現(xiàn)的頻率、權(quán)重按比列顯示關(guān)鍵字的字體大小。生成方形的圖像,如圖:

是的,生成的圖片毫無美感,畢竟是要送人的也要拿得出手才好炫耀對(duì)吧,那么我們找一張富有藝術(shù)感的圖片作為模版,臨摹出一張漂亮的圖出來。我在網(wǎng)上搜到一張“心”型圖:

生成圖片代碼:

def generate_img(texts):
data = " ".join(text for text in texts)
mask_img = imread('./heart-mask.jpg', flatten=True)
wordcloud = WordCloud(
font_path='msyh.ttc',
background_color='white',
mask=mask_img
).generate(data)
plt.imshow(wordcloud)
plt.axis('off')
plt.savefig('./heart.jpg', dpi=600)

需要注意的是處理時(shí),需要給 matplotlib 指定中文字體,否則會(huì)顯示亂碼,找到字體文件夾:C:\Windows\Fonts\Microsoft YaHei UI復(fù)制該字體,拷貝到 matplotlib 安裝目錄:C:\Python27\Lib\site-packages\matplotlib\mpl-data\fonts\ttf 下

差不多就這樣。

當(dāng)我自豪地把這張圖發(fā)給她的時(shí)候,出現(xiàn)了這樣的對(duì)話:

這是什么?
我:愛心啊,親手做的
這么專業(yè),好感動(dòng)啊,你的眼里只有 python ,沒有我 (哭笑)
我:明明是“心”中有 python 啊

我好像說錯(cuò)了什么。哈哈哈

完整代碼可以Github 下載。

以上就是本文的全部內(nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。

相關(guān)文章

  • python list語法學(xué)習(xí)(帶例子)

    python list語法學(xué)習(xí)(帶例子)

    python list語法學(xué)習(xí)
    2013-11-11
  • pytorch中tensor轉(zhuǎn)換為float的實(shí)現(xiàn)示例

    pytorch中tensor轉(zhuǎn)換為float的實(shí)現(xiàn)示例

    本文主要介紹了pytorch中tensor轉(zhuǎn)換為float,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2024-03-03
  • 通過代碼實(shí)例解析Pytest運(yùn)行流程

    通過代碼實(shí)例解析Pytest運(yùn)行流程

    這篇文章主要介紹了通過代碼實(shí)例解析Pytest運(yùn)行流程,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-08-08
  • 使用Node.js和Socket.IO擴(kuò)展Django的實(shí)時(shí)處理功能

    使用Node.js和Socket.IO擴(kuò)展Django的實(shí)時(shí)處理功能

    這篇文章主要介紹了使用Node.js和Socket.IO擴(kuò)展Django的實(shí)時(shí)處理功能,用異步處理實(shí)時(shí)功能是相當(dāng)強(qiáng)大的,文中給出的例子是建立一個(gè)實(shí)時(shí)聊天室,需要的朋友可以參考下
    2015-04-04
  • pytorch 移動(dòng)端部署之helloworld的使用

    pytorch 移動(dòng)端部署之helloworld的使用

    這篇文章主要介紹了pytorch 移動(dòng)端部署之helloworld的使用,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-10-10
  • 用Python自動(dòng)發(fā)郵件提醒你周末吃啥

    用Python自動(dòng)發(fā)郵件提醒你周末吃啥

    大家好,本篇文章主要講的是用Python自動(dòng)發(fā)郵件提醒你周末吃啥,感興趣的同學(xué)趕快來看一看吧,對(duì)你有幫助的話記得收藏一下,方便下次瀏覽
    2022-01-01
  • Python輕松獲取網(wǎng)絡(luò)時(shí)間和本地時(shí)間技巧揭秘

    Python輕松獲取網(wǎng)絡(luò)時(shí)間和本地時(shí)間技巧揭秘

    這篇文章主要為大家介紹了Python輕松獲取網(wǎng)絡(luò)時(shí)間和本地時(shí)間技巧揭秘,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2024-01-01
  • Django 開發(fā)環(huán)境配置過程詳解

    Django 開發(fā)環(huán)境配置過程詳解

    這篇文章主要介紹了Django 開發(fā)環(huán)境配置過程詳解,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-07-07
  • 解決keras backend 越跑越慢問題

    解決keras backend 越跑越慢問題

    這篇文章主要介紹了解決keras backend 越跑越慢問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2020-06-06
  • Python3 Tkinter選擇路徑功能的實(shí)現(xiàn)方法

    Python3 Tkinter選擇路徑功能的實(shí)現(xiàn)方法

    今天小編就為大家分享一篇Python3 Tkinter選擇路徑功能的實(shí)現(xiàn)方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2019-06-06

最新評(píng)論