亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

大數(shù)據(jù)搜索引擎原理分析及編程實(shí)現(xiàn) 帶目錄高清版pdf[13MB]

大數(shù)據(jù)搜索引擎原理下載

  • 書籍大小:13.8MB
  • 書籍語言:簡體中文
  • 書籍類型:國產(chǎn)軟件
  • 書籍授權(quán):免費(fèi)軟件
  • 書籍類別:網(wǎng)絡(luò)相關(guān)
  • 應(yīng)用平臺(tái):PDF
  • 更新時(shí)間:2019-04-28
  • 購買鏈接:
  • 網(wǎng)友評分:
360通過 騰訊通過 金山通過

情介紹

1、適合對自然語言處理及機(jī)器學(xué)習(xí)應(yīng)用領(lǐng)域有興趣的讀者。 2、適合對現(xiàn)代搜索引擎相關(guān)算法有興趣的讀者。 3、適合對大數(shù)據(jù)分析、數(shù)據(jù)挖掘應(yīng)用有興趣的讀者。 4、適合互聯(lián)網(wǎng)行業(yè)的不同層次從業(yè)者。 5、適合從事搜索引擎優(yōu)化的網(wǎng)絡(luò)營銷讀者。 6、適合高校中學(xué)習(xí)計(jì)算機(jī)、軟件工程等相關(guān)專業(yè)的讀者。

本書向讀者提供了一套完整的大數(shù)據(jù)時(shí)代背景下的搜索引擎解決方案,詳盡地介紹了搜索引擎的技術(shù)架構(gòu)、算法體系及取得的效果,以模塊化的方式進(jìn)行組織。著重介紹了機(jī)器學(xué)習(xí)在搜索引擎中的應(yīng)用,包括中文分詞、聚類、分類等核心的機(jī)器學(xué)習(xí)算法,并結(jié)合示例加以介紹和分析,使讀者可以更好地理解機(jī)器學(xué)習(xí)在搜索引擎中的價(jià)值。還闡述了大數(shù)據(jù)給搜索引擎帶來的新特性,結(jié)合目前大數(shù)據(jù)分析的主流工具,在搜索引擎中構(gòu)建知識圖譜,以及進(jìn)行日志反饋學(xué)習(xí)機(jī)制,使得搜索引擎更加智能。本書適合作為互聯(lián)網(wǎng)行業(yè)從業(yè)者的技術(shù)參考書,也適合作為搜索引擎愛好者的參考讀物。

目錄

第1章 引論 1
1.1 搜索引擎的過去 1
1.2 搜索引擎的現(xiàn)在 2
1.3 搜索引擎的未來 4
1.4 大數(shù)據(jù)與搜索引擎 6
1.4.1 搜索價(jià)值提升 6
1.4.2 用戶價(jià)值提升 7
1.5 大數(shù)據(jù)與人工智能 7
1.5.1 人工智能發(fā)展 7
1.5.2 人工智能技術(shù) 9
1.6 本章小結(jié) 11
第2章 搜索引擎原理與技術(shù) 12
2.1 基本工作原理 12
2.2 基本模塊結(jié)構(gòu) 13
2.2.1 爬蟲服務(wù) 14
2.2.2 索引服務(wù) 15
2.2.3 緩存服務(wù) 16
2.2.4 搜索服務(wù) 17
2.2.5 日志服務(wù) 19
2.3 技術(shù)概要 20
2.3.1 自然語言處理 20
2.3.2 知識圖譜技術(shù) 21
2.3.3 海量數(shù)據(jù)存儲(chǔ) 23
2.3.4 分布式計(jì)算 25
2.3.5 搜索排序技術(shù) 26
2.4 本章小結(jié) 27
第3章 自然語言處理框架 28
3.1 英文分詞 28
3.2 中文分詞 30
3.2.1 中文分詞概述 30
3.2.2 基于詞庫的分詞技術(shù) 31
3.2.3 基于條件隨機(jī)場的中文分詞 33
3.2.4 分詞粒度 41
3.3 詞性標(biāo)注 41
3.3.1 隱馬爾科夫模型概要 42
3.3.2 隱馬爾科夫模型與詞性標(biāo)注 43
3.4 語義相似度 51
3.5 依存句法分析 53
3.5.1 依存句法分析概要 53
3.5.2 依存句法分析實(shí)現(xiàn) 56
3.6 情感傾向分析 59
3.7 文檔關(guān)鍵詞抽取 61
3.7.1 關(guān)鍵詞抽取概述 61
3.7.2 基于TF-IDF算法 62
3.7.3 基于TextRank算法 64
3.8 文檔句子相似度分析 67
3.8.1 句子相似度 68
3.8.2 文檔相似度 70
3.9 文檔核心句抽取 71
3.10 聚類分類 74
3.10.1 文本分類 75
3.10.2 文本聚類 80
3.11 語種檢測 84
3.12 本章小結(jié) 87
第4章 構(gòu)建大數(shù)據(jù)存儲(chǔ)引擎 88
4.1 架構(gòu)體系 89
4.1.1 結(jié)構(gòu)概要 89
4.1.2 服務(wù)器上線 92
4.1.3 服務(wù)器下線 92
4.1.4 數(shù)據(jù)讀取 93
4.2 數(shù)據(jù)模型 94
4.3 數(shù)據(jù)壓縮 96
4.4 負(fù)載均衡 97
4.5 數(shù)據(jù)存儲(chǔ)邏輯視圖 100
4.6 本章小結(jié) 103
第5章 構(gòu)建分布式實(shí)時(shí)計(jì)算 104
5.1 概述 104
5.2 設(shè)計(jì)架構(gòu) 106
5.2.1 設(shè)計(jì)思想 106
5.2.2 基本框架 108
5.3 運(yùn)行模式 110
5.4 負(fù)載均衡 111
5.5 通信設(shè)計(jì) 112
5.5.1 基本方式 113
5.5.2 分布式遠(yuǎn)程服務(wù)調(diào)用 113
5.6 容災(zāi)恢復(fù) 114
5.7 數(shù)據(jù)容錯(cuò)原理 115
5.8 數(shù)據(jù)處理設(shè)計(jì)示例 117
5.9 本章小結(jié) 118
第6章 分布式可擴(kuò)展爬蟲 119
6.1 爬蟲體系架構(gòu) 119
6.1.1 主從分布式結(jié)構(gòu)爬蟲 120
6.1.2 對等分布式結(jié)構(gòu)爬蟲 120
6.1.3 基于分布式計(jì)算平臺(tái)爬蟲 121
6.2 網(wǎng)頁解析 122
6.2.1 狀態(tài)碼處理 123
6.2.2 鏈接去重 123
6.2.3 廣告識別 125
6.2.4 網(wǎng)站地圖 128
6.2.5 非網(wǎng)頁數(shù)據(jù)獲取 129
6.2.6 網(wǎng)頁去重 130
6.2.7 鏈接提取 134
6.2.8 爬蟲協(xié)議 135
6.3 網(wǎng)頁結(jié)構(gòu)化 137
6.3.1 網(wǎng)頁的編碼信息 137
6.3.2 網(wǎng)頁的正文信息 138
6.3.3 網(wǎng)站的關(guān)鍵詞信息 142
6.3.4 網(wǎng)站的標(biāo)題 142
6.3.5 網(wǎng)頁的發(fā)布時(shí)間 144
6.3.6 網(wǎng)站語言檢測 144
6.3.7 其他結(jié)構(gòu)化數(shù)據(jù) 145
6.4 網(wǎng)頁抓取策略 146
6.5 爬蟲權(quán)限應(yīng)對 147
6.6 深網(wǎng)抓取 150
6.7 抓取更新策略 151
6.8 本章小結(jié) 153
第7章 大數(shù)據(jù)構(gòu)建知識圖譜 154
7.1 概述 154
7.2 搜索引擎與知識圖譜 155
7.3 可靠數(shù)據(jù)源選擇 157
7.4 實(shí)體抽取 158
7.5 關(guān)系抽取 159
7.5.1 關(guān)系抽取概述 160
7.5.2 隱藏關(guān)系抽取 161
7.5.3 結(jié)構(gòu)化確定關(guān)系抽取 164
7.5.4 非結(jié)構(gòu)化確定關(guān)系抽取 166
7.6 知識圖譜檢測 171
7.6.1 實(shí)體關(guān)系修正 171
7.6.2 實(shí)體對齊整合 172
7.6.3 實(shí)體歧義分析 174
7.7 知識推理與計(jì)算 175
7.7.1 知識推理 175
7.7.2 知識計(jì)算 176
7.8 知識聚類 179
7.9 智能搜索實(shí)現(xiàn) 181
7.9.1 模式匹配 181
7.9.2 知識拆解 182
7.9.3 合并求解 184
7.10 智能搜索擴(kuò)展 186
7.10.1 常識性智能搜索 186
7.10.2 實(shí)時(shí)信息智能搜索 187
7.10.3 可交互式智能搜索 187
7.11 本章小結(jié) 189
第8章 索引構(gòu)建機(jī)制 190
8.1 倒排索引 190
8.1.1 倒排索引概述 191
8.1.2 索引結(jié)構(gòu) 192
8.1.3 構(gòu)建過程 194
8.1.4 排序規(guī)則 195
8.1.5 索引壓縮 196
8.1.6 更新策略 202
8.2 分布式存儲(chǔ) 202
8.2.1 存儲(chǔ)劃分方式 203
8.2.2 存儲(chǔ)平衡策略 204
8.3 存儲(chǔ)索引 209
8.3.1 二叉搜索樹 210
8.3.2 B樹 211
8.3.3 B+樹 213
8.3.4 B+樹與文件索引 214
8.4 字典樹索引 216
8.4.1 字典樹索引概述 217
8.4.2 字典樹索引構(gòu)建 219
8.4.3 字典樹查詢優(yōu)化 221
8.5 本章小結(jié) 221
第9章 搜索服務(wù)構(gòu)建 223
9.1 概述 223
9.1.1 體系結(jié)構(gòu) 223
9.1.2 七何分析法 224
9.1.3 搜索語法 225
9.1.4 相關(guān)性排序 227
9.1.5 不安全信息過濾 231
9.2 大數(shù)據(jù)分布式緩存 235
9.2.1 緩存結(jié)構(gòu)設(shè)計(jì) 235
9.2.2 緩存更新策略 236
9.3 文本糾錯(cuò)算法 237
9.3.1 中文文本糾錯(cuò) 237
9.3.2 英文文本糾錯(cuò) 241
9.4 結(jié)果顯示算法 242
9.4.1 動(dòng)態(tài)摘要 243
9.4.2 關(guān)鍵詞高亮算法 246
9.4.3 網(wǎng)頁快照 250
9.5 搜索智能提示 250
9.6 網(wǎng)頁排序 254
9.6.1 基于PageRank的網(wǎng)頁重要性評價(jià) 254
9.6.2 基于Hits算法的網(wǎng)頁權(quán)威性評價(jià) 257
9.6.3 Hilltop算法 259
9.6.4 網(wǎng)頁作弊評價(jià) 260
9.6.5 網(wǎng)頁排序調(diào)試 263
9.7 個(gè)性化搜索 264
9.7.1 個(gè)性化搜索示例 264
9.7.2 人工神經(jīng)網(wǎng)絡(luò)與個(gè)性化搜索 265
9.7.3 地理位置搜索 266
9.8 圖片搜索 271
9.8.1 基于內(nèi)容的圖片搜索 271
9.8.2 基于文本的圖片搜索 272
9.9 搜索與廣告 274
9.9.1 廣告投放策略 275
9.9.2 基于User-Based協(xié)同過濾的廣告投放 275
9.9.3 基于Item-Based協(xié)調(diào)過濾的廣告投放 277
9.9.4 基于混合模式廣告投放 278
9.9.5 廣告投放評價(jià) 279
9.10 搜索引擎評價(jià) 282
9.10.1 搜索評價(jià)概述 282
9.10.2 基于準(zhǔn)確率、召回率及F值評價(jià) 283
9.10.3 歸一化折扣累計(jì)增益 285
9.11 本章小結(jié) 288
第10章 基于用戶日志的反饋學(xué)習(xí) 290
10.1 基于用戶搜索詞語的分析 290
10.1.1 發(fā)現(xiàn)搜索詞的價(jià)值 291
10.1.2 發(fā)現(xiàn)不明意圖下的用戶行為 292
10.2 基于用戶點(diǎn)擊日志的分析 293
10.2.1 時(shí)間與搜索意圖的關(guān)系 293
10.2.2 地理位置與搜索意圖的關(guān)系 294
10.2.3 點(diǎn)擊日志與同義詞 296
10.2.4 點(diǎn)擊日志與詞語權(quán)重 297
10.2.5 點(diǎn)擊日志與新詞分類 298
10.2.6 點(diǎn)擊日志與知識圖譜 300
10.2.7 點(diǎn)擊日志與網(wǎng)頁重排序 301
10.2.8 點(diǎn)擊日志與網(wǎng)頁評價(jià) 303
10.3 基于用戶的特征分析 304
10.3.1 用戶跟蹤 305
10.3.2 用戶群體特征 306
10.3.3 用戶個(gè)體特征 308
10.4 本章小結(jié) 309

載地址

下載錯(cuò)誤?【投訴報(bào)錯(cuò)】

大數(shù)據(jù)搜索引擎原理分析及編程實(shí)現(xiàn) 帶目錄高清版pdf[13MB]

      氣書籍

      載聲明

      ☉ 解壓密碼:chabaoo.cn 就是本站主域名,希望大家看清楚,[ 分享碼的獲取方法 ]可以參考這篇文章
      ☉ 推薦使用 [ 迅雷 ] 下載,使用 [ WinRAR v5 ] 以上版本解壓本站軟件。
      ☉ 如果這個(gè)軟件總是不能下載的請?jiān)谠u論中留言,我們會(huì)盡快修復(fù),謝謝!
      ☉ 下載本站資源,如果服務(wù)器暫不能下載請過一段時(shí)間重試!或者多試試幾個(gè)下載地址
      ☉ 如果遇到什么問題,請?jiān)u論留言,我們定會(huì)解決問題,謝謝大家支持!
      ☉ 本站提供的一些商業(yè)軟件是供學(xué)習(xí)研究之用,如用于商業(yè)用途,請購買正版。
      ☉ 本站提供的大數(shù)據(jù)搜索引擎原理分析及編程實(shí)現(xiàn) 帶目錄高清版pdf[13MB] 資源來源互聯(lián)網(wǎng),版權(quán)歸該下載資源的合法擁有者所有。