Hadoop YARN權(quán)威指南 帶目錄完整pdf[41MB]
41.6MB / 08-16
Hadoop權(quán)威指南(第4版)(修訂版&升級版) 中文完整pdf掃描版[1
191.6MB / 07-20
Hadoop + Spark 大數(shù)據(jù)巨量分析與機器學(xué)習(xí)整合開發(fā)實戰(zhàn) 完整pdf
99.8MB / 07-13
Hadoop大數(shù)據(jù)開發(fā)案例教程與項目實戰(zhàn) 高清pdf掃描版[133MB]
133.3MB / 06-20
Hadoop硬實戰(zhàn) (美)霍姆斯著 帶書簽?zāi)夸浲暾鎝df[93MB]
93.8MB / 11-27
-
-
Zabbix v7.0使用手冊 中文版PDF 服務(wù)器 / 30MB
-
-
Nginx 安全配置指南技術(shù)手冊pdf版 服務(wù)器 / 488KB
-
DNS學(xué)習(xí)從入門到精通 完整PDF版 服務(wù)器 / 6.33MB
-
Windows Server 2016系統(tǒng)配置指南 完整pdf掃描版[155MB] 服務(wù)器 / 154.8MB
-
-
Windows Server 2016 Active Directory配置指南 中文PDF版 服務(wù)器 / 23.3MB
-
Windows Server 2012-2022 故障轉(zhuǎn)移群集 完整版PDF 服務(wù)器 / 6.64MB
-
vSAN操作指南 中文PDF完整版 服務(wù)器 / 6.11MB
詳情介紹
這是一本學(xué)習(xí)Hadoop MapReduce的一站式指南,完整介紹了Hadoop生態(tài)體系,包括Hadoop平臺安裝、部署、運維等,Hadoop生態(tài)系統(tǒng)成員Hive、Pig、HBase、Mahout等。最重要的是,書中包含豐富的示例和多樣的實際應(yīng)用場景,以一種簡單而直接的方式呈現(xiàn)了90個實戰(zhàn)攻略,并給出一步步的指導(dǎo)。本書從獲取Hadoop并在集群中運行講起,依次介紹了高級HDFS,高級Hadoop MapReduce管理,開發(fā)復(fù)雜的Hadoop MapReduce應(yīng)用程序,Hadoop的生態(tài)系統(tǒng),統(tǒng)計分析,搜索與索引,聚類、推薦和尋找關(guān)聯(lián),海量文本數(shù)據(jù)處理,云部署等內(nèi)容。
目錄
第1章 搭建Hadoop并在集群中運行 1
1.1 簡介 1
1.2 在你的機器上安裝Hadoop 2
1.3 寫WordCountMapReduce示例程序,打包并使用獨立的Hadoop運行它 3
1.4 給WordCount MapReduce程序增加combiner步驟 8
1.5 安裝HDFS 9
1.6 使用HDFS監(jiān)控UI 14
1.7 HDFS的基本命令行文件操作 15
1.8 在分布式集群環(huán)境中設(shè)置Hadoop 17
1.9 在分布式集群環(huán)境中運行WordCount程序 22
1.10 使用MapReduce監(jiān)控UI 24
第2章 HDFS進(jìn)階 26
2.1 簡介 26
2.2 HDFS基準(zhǔn)測試 27
2.3 添加一個新的DataNode 28
2.4 DataNode下架 30
2.5 使用多個磁盤/卷以及限制HDFS的磁盤使用情況 32
2.6 設(shè)置HDFS塊大小 33
2.7 設(shè)置文件冗余因子 34
2.8 使用HDFS的Java API 35
2.9 使用HDFS的C API(libhdfs) 40
2.10 掛載HDFS(Fuse-DFS) 45
2.11 在HDFS中合并文件 48
第3章 高級Hadoop MapReduce運維 49
3.1 簡介 49
3.2 調(diào)優(yōu)集群部署的Hadoop配置 49
3.3 運行基準(zhǔn)測試來驗證Hadoop的安裝 52
3.4 復(fù)用Java虛擬機以提高性能 54
3.5 容錯和推測執(zhí)行 54
3.6 調(diào)試腳本——分析任務(wù)失敗 55
3.7 設(shè)置失敗百分比以及跳過不良記錄 59
3.8 共享用戶的Hadoop集群——使用公平調(diào)度器和其他調(diào)度器 61
3.9 Hadoop的安全性——整合使用Kerberos 62
3.10 使用Hadoop的工具接口 69
第4章 開發(fā)復(fù)雜的Hadoop MapReduce應(yīng)用程序 72
4.1 簡介 72
4.2 選擇合適的Hadoop數(shù)據(jù)類型 73
4.3 實現(xiàn)自定義的Hadoop Writable數(shù)據(jù)類型 75
4.4 實現(xiàn)自定義Hadoop key類型 79
4.5 從mapper中輸出不同值類型的數(shù)據(jù) 83
4.6 為輸入數(shù)據(jù)格式選擇合適的Hadoop InputFormat 87
4.7 添加新的輸入數(shù)據(jù)格式的支持——實現(xiàn)自定義的InputFormat 90
4.8 格式化MapReduce計算的結(jié)果——使用Hadoop的OutputFormat 94
4.9 Hadoop的中間(map到reduce)數(shù)據(jù)分區(qū) 96
4.10 將共享資源傳播和分發(fā)到MapReduce作業(yè)的任務(wù)中——Hadoop DistributedCache 98
4.11 在Hadoop上使用傳統(tǒng)應(yīng)用程序——Hadoop Streaming 103
4.12 添加MapReduce作業(yè)之間的依賴關(guān)系 106
4.13 用于報告自定義指標(biāo)的Hadoop計數(shù)器 108
第5章 Hadoop生態(tài)系統(tǒng) 110
5.1 簡介 110
5.2 安裝HBase 111
5.3 使用Java客戶端API隨機存取數(shù)據(jù) 114
5.4 基于HBase(表輸入/輸出)運行MapReduce作業(yè) 116
5.5 安裝Pig 120
5.6 運行第一條Pig命令 121
5.7 使用Pig執(zhí)行集合操作(join,union)與排序 123
5.8 安裝Hive 125
5.9 使用Hive運行SQL風(fēng)格的查詢 127
5.10 使用Hive執(zhí)行join 129
5.11 安裝Mahout 132
5.12 使用Mahout運行K-means 133
5.13 可視化K-means結(jié)果 136
第6章 分析 138
6.1 簡介 138
6.2 使用MapReduce的簡單分析 139
6.3 使用MapReduce執(zhí)行Group-By 143
6.4 使用MapReduce計算頻率分布和排序 146
6.5 使用GNU Plot繪制Hadoop計算結(jié)果 148
6.6 使用MapReduce計算直方圖 151
6.7 使用MapReduce計算散點圖 154
6.8 用Hadoop解析復(fù)雜的數(shù)據(jù)集 158
6.9 使用MapReduce連接兩個數(shù)據(jù)集 164
第7章 搜索和索引 170
7.1 簡介 170
7.2 使用Hadoop MapReduce生成倒排索引 170
7.3 使用Apache Nutch構(gòu)建域內(nèi)網(wǎng)絡(luò)爬蟲 175
7.4 使用Apache Solr索引和搜索網(wǎng)絡(luò)文檔 180
7.5 配置Apache HBase作為Apache Nutch的后端數(shù)據(jù)存儲 182
7.6 在Hadoop集群上部署Apache HBase 185
7.7 使用Hadoop/HBase集群構(gòu)建Apache Nutch全網(wǎng)爬蟲服務(wù) 188
7.8 用于索引和搜索的ElasticSearch 191
7.9 生成抓取網(wǎng)頁的內(nèi)鏈圖 193
第8章 聚類、推薦和關(guān)系發(fā)現(xiàn) 197
8.1 簡介 197
8.2 基于內(nèi)容的推薦 198
8.3 層次聚類 204
8.4 對亞馬遜銷售數(shù)據(jù)集進(jìn)行聚類操作 208
8.5 基于協(xié)同過濾的推薦 212
8.6 使用樸素貝葉斯分類器的分類 216
8.7 使用Adwords平衡算法給廣告分配關(guān)鍵字 222
第9章 海量文本數(shù)據(jù)處理 231
9.1 簡介 231
9.2 使用Hadoop Streaming和Python預(yù)處理數(shù)據(jù)(抽取、清洗和格式轉(zhuǎn)換) 231
9.3 使用Hadoop Streaming進(jìn)行數(shù)據(jù)去重 235
9.4 使用importtsv和批量加載工具把大型數(shù)據(jù)集加載到Apache HBase數(shù)據(jù)存儲中 237
9.5 創(chuàng)建用于文本數(shù)據(jù)的TF向量和TF-IDF向量 242
9.6 聚類文本數(shù)據(jù) 246
9.7 使用隱含狄利克雷分布(LDA)發(fā)現(xiàn)主題 249
9.8 使用Mahout的樸素貝葉斯分類器分類文件 252
第10章 云端部署——在云上使用Hadoop 255
10.1 簡介 255
10.2 使用亞馬遜彈性MapReduce運行Hadoop MapReduce計算 256
10.3 使用亞馬遜EC2競價實例來執(zhí)行EMR作業(yè)流以節(jié)約開支 259
10.4 使用EMR執(zhí)行Pig腳本 261
10.5 使用EMR執(zhí)行Hive腳本 263
10.6 使用命令行界面創(chuàng)建亞馬遜EMR作業(yè)流 267
10.7 使用EMR在亞馬遜EC2云上部署Apache HBase集群 270
10.8 使用EMR引導(dǎo)操作來配置亞馬遜EMR作業(yè)的虛擬機 275
10.9 使用Apache Whirr在云環(huán)境中部署Apache Hadoop集群 277
10.10 使用Apache Whirr在云環(huán)境中部署Apache HBase集群 281
下載地址
人氣書籍
決戰(zhàn)Nginx系統(tǒng)卷:高性能Web服務(wù)器詳解與運維 PDF掃描版[94MB]
Tomcat權(quán)威指南(第2版) PDF掃描版
Hadoop實戰(zhàn)(第2版)陸嘉恒著 PDF掃描版
Nginx高性能Web服務(wù)器詳解 pdf掃描版[178MB]
精通Windows Server 2008 R2 PDF掃描版[157MB]
大規(guī)模Web服務(wù)開發(fā)技術(shù) PDF掃描版[14MB]
Hadoop應(yīng)用開發(fā)技術(shù)詳解 pdf掃描版
深入剖析Tomcat (Paul Deck) pdf掃描版
Windows Server 2012 Hyper-V虛擬化管理實踐 PDF掃描版[223MB]
學(xué)習(xí)Nginx HTTP Server(中文版) PDF掃描版[23MB]
下載聲明
☉ 解壓密碼:chabaoo.cn 就是本站主域名,希望大家看清楚,[ 分享碼的獲取方法 ]可以參考這篇文章
☉ 推薦使用 [ 迅雷 ] 下載,使用 [ WinRAR v5 ] 以上版本解壓本站軟件。
☉ 如果這個軟件總是不能下載的請在評論中留言,我們會盡快修復(fù),謝謝!
☉ 下載本站資源,如果服務(wù)器暫不能下載請過一段時間重試!或者多試試幾個下載地址
☉ 如果遇到什么問題,請評論留言,我們定會解決問題,謝謝大家支持!
☉ 本站提供的一些商業(yè)軟件是供學(xué)習(xí)研究之用,如用于商業(yè)用途,請購買正版。
☉ 本站提供的Hadoop MapReduce實戰(zhàn)手冊 中文完整pdf掃描版[42MB] 資源來源互聯(lián)網(wǎng),版權(quán)歸該下載資源的合法擁有者所有。