Hadoop YARN權(quán)威指南 帶目錄完整pdf[41MB]
41.6MB / 08-16
Hadoop權(quán)威指南(第4版)(修訂版&升級(jí)版) 中文完整pdf掃描版[1
191.6MB / 07-20
Hadoop + Spark 大數(shù)據(jù)巨量分析與機(jī)器學(xué)習(xí)整合開發(fā)實(shí)戰(zhàn) 完整pdf
99.8MB / 07-13
Hadoop大數(shù)據(jù)開發(fā)案例教程與項(xiàng)目實(shí)戰(zhàn) 高清pdf掃描版[133MB]
133.3MB / 06-20
Hadoop硬實(shí)戰(zhàn) (美)霍姆斯著 帶書簽?zāi)夸浲暾鎝df[93MB]
93.8MB / 11-27
-
ElasticSearch7.x入門到案例實(shí)戰(zhàn)教程 中文pdf版+源碼 服務(wù)器 / 7.2MB
-
-
-
Nginx 安全配置指南技術(shù)手冊(cè)pdf版 服務(wù)器 / 488KB
-
DNS學(xué)習(xí)從入門到精通 完整PDF版 服務(wù)器 / 6.33MB
-
Windows Server 2016系統(tǒng)配置指南 完整pdf掃描版[155MB] 服務(wù)器 / 154.8MB
-
-
Windows Server 2016 Active Directory配置指南 中文PDF版 服務(wù)器 / 23.3MB
-
Windows Server 2012-2022 故障轉(zhuǎn)移群集 完整版PDF 服務(wù)器 / 6.64MB
-
vSAN操作指南 中文PDF完整版 服務(wù)器 / 6.11MB
詳情介紹
這是一本學(xué)習(xí)Hadoop MapReduce的一站式指南,完整介紹了Hadoop生態(tài)體系,包括Hadoop平臺(tái)安裝、部署、運(yùn)維等,Hadoop生態(tài)系統(tǒng)成員Hive、Pig、HBase、Mahout等。最重要的是,書中包含豐富的示例和多樣的實(shí)際應(yīng)用場(chǎng)景,以一種簡(jiǎn)單而直接的方式呈現(xiàn)了90個(gè)實(shí)戰(zhàn)攻略,并給出一步步的指導(dǎo)。本書從獲取Hadoop并在集群中運(yùn)行講起,依次介紹了高級(jí)HDFS,高級(jí)Hadoop MapReduce管理,開發(fā)復(fù)雜的Hadoop MapReduce應(yīng)用程序,Hadoop的生態(tài)系統(tǒng),統(tǒng)計(jì)分析,搜索與索引,聚類、推薦和尋找關(guān)聯(lián),海量文本數(shù)據(jù)處理,云部署等內(nèi)容。
目錄
第1章 搭建Hadoop并在集群中運(yùn)行 1
1.1 簡(jiǎn)介 1
1.2 在你的機(jī)器上安裝Hadoop 2
1.3 寫WordCountMapReduce示例程序,打包并使用獨(dú)立的Hadoop運(yùn)行它 3
1.4 給WordCount MapReduce程序增加combiner步驟 8
1.5 安裝HDFS 9
1.6 使用HDFS監(jiān)控UI 14
1.7 HDFS的基本命令行文件操作 15
1.8 在分布式集群環(huán)境中設(shè)置Hadoop 17
1.9 在分布式集群環(huán)境中運(yùn)行WordCount程序 22
1.10 使用MapReduce監(jiān)控UI 24
第2章 HDFS進(jìn)階 26
2.1 簡(jiǎn)介 26
2.2 HDFS基準(zhǔn)測(cè)試 27
2.3 添加一個(gè)新的DataNode 28
2.4 DataNode下架 30
2.5 使用多個(gè)磁盤/卷以及限制HDFS的磁盤使用情況 32
2.6 設(shè)置HDFS塊大小 33
2.7 設(shè)置文件冗余因子 34
2.8 使用HDFS的Java API 35
2.9 使用HDFS的C API(libhdfs) 40
2.10 掛載HDFS(Fuse-DFS) 45
2.11 在HDFS中合并文件 48
第3章 高級(jí)Hadoop MapReduce運(yùn)維 49
3.1 簡(jiǎn)介 49
3.2 調(diào)優(yōu)集群部署的Hadoop配置 49
3.3 運(yùn)行基準(zhǔn)測(cè)試來驗(yàn)證Hadoop的安裝 52
3.4 復(fù)用Java虛擬機(jī)以提高性能 54
3.5 容錯(cuò)和推測(cè)執(zhí)行 54
3.6 調(diào)試腳本——分析任務(wù)失敗 55
3.7 設(shè)置失敗百分比以及跳過不良記錄 59
3.8 共享用戶的Hadoop集群——使用公平調(diào)度器和其他調(diào)度器 61
3.9 Hadoop的安全性——整合使用Kerberos 62
3.10 使用Hadoop的工具接口 69
第4章 開發(fā)復(fù)雜的Hadoop MapReduce應(yīng)用程序 72
4.1 簡(jiǎn)介 72
4.2 選擇合適的Hadoop數(shù)據(jù)類型 73
4.3 實(shí)現(xiàn)自定義的Hadoop Writable數(shù)據(jù)類型 75
4.4 實(shí)現(xiàn)自定義Hadoop key類型 79
4.5 從mapper中輸出不同值類型的數(shù)據(jù) 83
4.6 為輸入數(shù)據(jù)格式選擇合適的Hadoop InputFormat 87
4.7 添加新的輸入數(shù)據(jù)格式的支持——實(shí)現(xiàn)自定義的InputFormat 90
4.8 格式化MapReduce計(jì)算的結(jié)果——使用Hadoop的OutputFormat 94
4.9 Hadoop的中間(map到reduce)數(shù)據(jù)分區(qū) 96
4.10 將共享資源傳播和分發(fā)到MapReduce作業(yè)的任務(wù)中——Hadoop DistributedCache 98
4.11 在Hadoop上使用傳統(tǒng)應(yīng)用程序——Hadoop Streaming 103
4.12 添加MapReduce作業(yè)之間的依賴關(guān)系 106
4.13 用于報(bào)告自定義指標(biāo)的Hadoop計(jì)數(shù)器 108
第5章 Hadoop生態(tài)系統(tǒng) 110
5.1 簡(jiǎn)介 110
5.2 安裝HBase 111
5.3 使用Java客戶端API隨機(jī)存取數(shù)據(jù) 114
5.4 基于HBase(表輸入/輸出)運(yùn)行MapReduce作業(yè) 116
5.5 安裝Pig 120
5.6 運(yùn)行第一條Pig命令 121
5.7 使用Pig執(zhí)行集合操作(join,union)與排序 123
5.8 安裝Hive 125
5.9 使用Hive運(yùn)行SQL風(fēng)格的查詢 127
5.10 使用Hive執(zhí)行join 129
5.11 安裝Mahout 132
5.12 使用Mahout運(yùn)行K-means 133
5.13 可視化K-means結(jié)果 136
第6章 分析 138
6.1 簡(jiǎn)介 138
6.2 使用MapReduce的簡(jiǎn)單分析 139
6.3 使用MapReduce執(zhí)行Group-By 143
6.4 使用MapReduce計(jì)算頻率分布和排序 146
6.5 使用GNU Plot繪制Hadoop計(jì)算結(jié)果 148
6.6 使用MapReduce計(jì)算直方圖 151
6.7 使用MapReduce計(jì)算散點(diǎn)圖 154
6.8 用Hadoop解析復(fù)雜的數(shù)據(jù)集 158
6.9 使用MapReduce連接兩個(gè)數(shù)據(jù)集 164
第7章 搜索和索引 170
7.1 簡(jiǎn)介 170
7.2 使用Hadoop MapReduce生成倒排索引 170
7.3 使用Apache Nutch構(gòu)建域內(nèi)網(wǎng)絡(luò)爬蟲 175
7.4 使用Apache Solr索引和搜索網(wǎng)絡(luò)文檔 180
7.5 配置Apache HBase作為Apache Nutch的后端數(shù)據(jù)存儲(chǔ) 182
7.6 在Hadoop集群上部署Apache HBase 185
7.7 使用Hadoop/HBase集群構(gòu)建Apache Nutch全網(wǎng)爬蟲服務(wù) 188
7.8 用于索引和搜索的ElasticSearch 191
7.9 生成抓取網(wǎng)頁(yè)的內(nèi)鏈圖 193
第8章 聚類、推薦和關(guān)系發(fā)現(xiàn) 197
8.1 簡(jiǎn)介 197
8.2 基于內(nèi)容的推薦 198
8.3 層次聚類 204
8.4 對(duì)亞馬遜銷售數(shù)據(jù)集進(jìn)行聚類操作 208
8.5 基于協(xié)同過濾的推薦 212
8.6 使用樸素貝葉斯分類器的分類 216
8.7 使用Adwords平衡算法給廣告分配關(guān)鍵字 222
第9章 海量文本數(shù)據(jù)處理 231
9.1 簡(jiǎn)介 231
9.2 使用Hadoop Streaming和Python預(yù)處理數(shù)據(jù)(抽取、清洗和格式轉(zhuǎn)換) 231
9.3 使用Hadoop Streaming進(jìn)行數(shù)據(jù)去重 235
9.4 使用importtsv和批量加載工具把大型數(shù)據(jù)集加載到Apache HBase數(shù)據(jù)存儲(chǔ)中 237
9.5 創(chuàng)建用于文本數(shù)據(jù)的TF向量和TF-IDF向量 242
9.6 聚類文本數(shù)據(jù) 246
9.7 使用隱含狄利克雷分布(LDA)發(fā)現(xiàn)主題 249
9.8 使用Mahout的樸素貝葉斯分類器分類文件 252
第10章 云端部署——在云上使用Hadoop 255
10.1 簡(jiǎn)介 255
10.2 使用亞馬遜彈性MapReduce運(yùn)行Hadoop MapReduce計(jì)算 256
10.3 使用亞馬遜EC2競(jìng)價(jià)實(shí)例來執(zhí)行EMR作業(yè)流以節(jié)約開支 259
10.4 使用EMR執(zhí)行Pig腳本 261
10.5 使用EMR執(zhí)行Hive腳本 263
10.6 使用命令行界面創(chuàng)建亞馬遜EMR作業(yè)流 267
10.7 使用EMR在亞馬遜EC2云上部署Apache HBase集群 270
10.8 使用EMR引導(dǎo)操作來配置亞馬遜EMR作業(yè)的虛擬機(jī) 275
10.9 使用Apache Whirr在云環(huán)境中部署Apache Hadoop集群 277
10.10 使用Apache Whirr在云環(huán)境中部署Apache HBase集群 281
下載地址
人氣書籍
決戰(zhàn)Nginx系統(tǒng)卷:高性能Web服務(wù)器詳解與運(yùn)維 PDF掃描版[94MB]
Tomcat權(quán)威指南(第2版) PDF掃描版
Hadoop實(shí)戰(zhàn)(第2版)陸嘉恒著 PDF掃描版
Nginx高性能Web服務(wù)器詳解 pdf掃描版[178MB]
精通Windows Server 2008 R2 PDF掃描版[157MB]
大規(guī)模Web服務(wù)開發(fā)技術(shù) PDF掃描版[14MB]
Hadoop應(yīng)用開發(fā)技術(shù)詳解 pdf掃描版
深入剖析Tomcat (Paul Deck) pdf掃描版
Windows Server 2012 Hyper-V虛擬化管理實(shí)踐 PDF掃描版[223MB]
學(xué)習(xí)Nginx HTTP Server(中文版) PDF掃描版[23MB]
下載聲明
☉ 解壓密碼:chabaoo.cn 就是本站主域名,希望大家看清楚,[ 分享碼的獲取方法 ]可以參考這篇文章
☉ 推薦使用 [ 迅雷 ] 下載,使用 [ WinRAR v5 ] 以上版本解壓本站軟件。
☉ 如果這個(gè)軟件總是不能下載的請(qǐng)?jiān)谠u(píng)論中留言,我們會(huì)盡快修復(fù),謝謝!
☉ 下載本站資源,如果服務(wù)器暫不能下載請(qǐng)過一段時(shí)間重試!或者多試試幾個(gè)下載地址
☉ 如果遇到什么問題,請(qǐng)?jiān)u論留言,我們定會(huì)解決問題,謝謝大家支持!
☉ 本站提供的一些商業(yè)軟件是供學(xué)習(xí)研究之用,如用于商業(yè)用途,請(qǐng)購(gòu)買正版。
☉ 本站提供的Hadoop MapReduce實(shí)戰(zhàn)手冊(cè) 中文完整pdf掃描版[42MB] 資源來源互聯(lián)網(wǎng),版權(quán)歸該下載資源的合法擁有者所有。