Mysql實(shí)現(xiàn)全文檢索、關(guān)鍵詞跑分的方法實(shí)例
一、前言
今天一個(gè)同事問我,如何使用 Mysql 實(shí)現(xiàn)類似于 ElasticSearch 的全文檢索功能,并且對檢索關(guān)鍵詞跑分?我當(dāng)時(shí)腦子里立馬產(chǎn)生了疑問?為啥不直接用es呢?簡單好用還賊快。但是聽他說,數(shù)據(jù)量不多,客戶給的時(shí)間非常有限,根本沒時(shí)間去搭建es,所以還是看一下 Mysql 的全文檢索功能吧!
MySQL 從 5.7.6 版本開始,MySQL就內(nèi)置了ngram全文解析器,用來支持中文、日文、韓文分詞。在 MySQL 5.7.6 版本之前,全文索引只支持英文全文索引,不支持中文全文索引,需要利用分詞器把中文段落預(yù)處理拆分成單詞,然后存入數(shù)據(jù)庫。本篇文章測試的時(shí)候,采用的 Mysql 5.7.6 ,InnoDB數(shù)據(jù)庫引擎。mysql全文檢索
二、全文解析器ngram
ngram就是一段文字里面連續(xù)的n個(gè)字的序列。ngram全文解析器能夠?qū)ξ谋具M(jìn)行分詞,每個(gè)單詞是連續(xù)的n個(gè)字的序列。
例如,用ngram全文解析器對“你好世界”進(jìn)行分詞:
n=1: '你', '好', '世', '界' n=2: '你好', '好世', '世界' n=3: '你好世', '好世界' n=4: '你好世界'
MySQL 中使用全局變量 ngram_token_size 來配置 ngram 中 n 的大小,它的取值范圍是1到10,默認(rèn)值是 2。通常ngram_token_size設(shè)置為要查詢的單詞的最小字?jǐn)?shù)。如果需要搜索單字,就要把ngram_token_size設(shè)置為 1。在默認(rèn)值是 2 的情況下,搜索單字是得不到任何結(jié)果的。因?yàn)橹形膯卧~最少是兩個(gè)漢字,推薦使用默認(rèn)值 2。
咱們看一下Mysql默認(rèn)的ngram_token_size大小:
show variables like 'ngram_token_size'
ngram_token_size 變量的兩種設(shè)置方式:
1、啟動(dòng)mysqld命令時(shí)指定
mysqld --ngram_token_size=2
2、修改mysql配置文件
[mysqld] ngram_token_size=2
三、全文索引
以某文書數(shù)據(jù)為例,新建數(shù)據(jù)表 t_wenshu ,并且針對文書內(nèi)容字段創(chuàng)建全文索引,導(dǎo)入10w條測試數(shù)據(jù)。
1、建表時(shí)創(chuàng)建全文索引
CREATE TABLE `t_wenshu` ( `province` varchar(255) DEFAULT NULL, `caseclass` varchar(255) DEFAULT NULL, `casenumber` varchar(255) DEFAULT NULL, `caseid` varchar(255) DEFAULT NULL, `types` varchar(255) DEFAULT NULL, `title` varchar(255) DEFAULT NULL, `content` longtext, `updatetime` varchar(255) DEFAULT NULL, FULLTEXT KEY `content` (`content`) WITH PARSER `ngram` ) ENGINE=InnoDB DEFAULT CHARSET=utf8;
2、通過 alter table 方式
ALTER TABLE t_wenshu ADD FULLTEXT INDEX content_index (content) WITH PARSER ngram;
3、通過 create index 方式
CREATE FULLTEXT INDEX content_index ON t_wenshu (content) WITH PARSER ngram;
四、檢索模式
自然語言檢索
(IN NATURAL LANGUAGE MODE)自然語言模式是 MySQL 默認(rèn)的全文檢索模式。自然語言模式不能使用操作符,不能指定關(guān)鍵詞必須出現(xiàn)或者必須不能出現(xiàn)等復(fù)雜查詢。
布爾檢索
(IN BOOLEAN MODE)剔除一半匹配行以上都有的詞,例如,每行都有this這個(gè)詞的話,那用this去查時(shí),會(huì)找不到任何結(jié)果,這在記錄條數(shù)特別多時(shí)很有用,原因是數(shù)據(jù)庫認(rèn)為把所有行都找出來是沒有意義的,這時(shí),this幾乎被當(dāng)作是stopword(中斷詞);布爾檢索模式可以使用操作符,可以支持指定關(guān)鍵詞必須出現(xiàn)或者必須不能出現(xiàn)或者關(guān)鍵詞的權(quán)重高還是低等復(fù)雜查詢。
● IN BOOLEAN MODE的特色:
·不剔除50%以上符合的row。
·不自動(dòng)以相關(guān)性反向排序。
·可以對沒有FULLTEXT index的字段進(jìn)行搜尋,但會(huì)非常慢。
·限制最長與最短的字符串。
·套用Stopwords。● 搜索語法規(guī)則:
+ 一定要有(不含有該關(guān)鍵詞的數(shù)據(jù)條均被忽略)。
- 不可以有(排除指定關(guān)鍵詞,含有該關(guān)鍵詞的均被忽略)。
> 提高該條匹配數(shù)據(jù)的權(quán)重值。
< 降低該條匹配數(shù)據(jù)的權(quán)重值。
~ 將其相關(guān)性由正轉(zhuǎn)負(fù),表示擁有該字會(huì)降低相關(guān)性(但不像-將之排除),只是排在較后面權(quán)重值降低。
* 萬用字,不像其他語法放在前面,這個(gè)要接在字符串后面。
" " 用雙引號將一段句子包起來表示要完全相符,不可拆字。
查詢擴(kuò)展檢索
注釋:(WITH QUERY EXPANSION)由于查詢擴(kuò)展可能帶來許多非相關(guān)性的查詢,謹(jǐn)慎使用!
五、檢索查詢
1)查詢 content 中包含“盜竊罪”的記錄,查詢語句如下
select caseid,content, MATCH ( content) AGAINST ('盜竊罪') as score from t_wenshu where MATCH ( content) AGAINST ('盜竊罪' IN NATURAL LANGUAGE MODE)
2)查詢 content 中包含“尋釁滋事”的記錄,查詢語句如下
select caseid,content, MATCH ( content) AGAINST ('尋釁滋事') as score from t_wenshu where MATCH ( content) AGAINST ('尋釁滋事' IN NATURAL LANGUAGE MODE) ;
3)單個(gè)漢字,查詢 content 中包含“我”的記錄,查詢語句如下
select caseid,content, MATCH ( content) AGAINST ('我') as score from t_wenshu where MATCH ( content) AGAINST ('我' IN NATURAL LANGUAGE MODE) ;
備注:因?yàn)樵O(shè)置的全局變量 ngram_token_size 的值為 2。如果想查詢單個(gè)漢字,需要在配置文件 my.ini 中修改 ngram_token_size = 1 ,并重啟 mysqld 服務(wù),此處不做嘗試了。
4)查詢字段 content 中包含 “危險(xiǎn)駕駛”和“尋釁滋事”的語句如下:
select caseid,content, MATCH (content) AGAINST ('+危險(xiǎn)駕駛 +尋釁滋事') as score from t_wenshu where MATCH (content) AGAINST ('+危險(xiǎn)駕駛 +尋釁滋事' IN BOOLEAN MODE);
5)查詢字段 content 中包含 “危險(xiǎn)駕駛”,但不包含“尋釁滋事”的語句如下:
select caseid,content, MATCH (content) AGAINST ('+危險(xiǎn)駕駛 -尋釁滋事') as score from t_wenshu where MATCH (content) AGAINST ('+危險(xiǎn)駕駛 -尋釁滋事' IN BOOLEAN MODE);
6)查詢字段 conent 中包含“危險(xiǎn)駕駛”或者“尋釁滋事”的語句如下:
select caseid,content, MATCH (content) AGAINST ('危險(xiǎn)駕駛 尋釁滋事') as score from t_wenshu where MATCH (content) AGAINST ('危險(xiǎn)駕駛 尋釁滋事' IN BOOLEAN MODE);
六、總結(jié)
1)使用 Mysql 全文索引之前,搞清楚各版本支持情況;
2)全文索引比 like + % 快 N 倍,但是可能存在精度問題;
3)如果需要全文索引的是大量數(shù)據(jù),建議先添加數(shù)據(jù),再創(chuàng)建索引;
4)對于中文,可以使用 MySQL 5.7.6 之后的版本,或者 Sphinx、Lucene 等第三方的插件;
5)MATCH()函數(shù)使用的字段名,必須要與創(chuàng)建全文索引時(shí)指定的字段名一致,且只能是同一個(gè)表的字段不能跨表;
到此這篇關(guān)于Mysql實(shí)現(xiàn)全文檢索、關(guān)鍵詞跑分的文章就介紹到這了,更多相關(guān)Mysql全文檢索、關(guān)鍵詞跑分內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
win11設(shè)置mysql開機(jī)自啟的實(shí)現(xiàn)方法
本文主要介紹了win11設(shè)置mysql開機(jī)自啟的實(shí)現(xiàn)方法,要通過命令行方式設(shè)置,具有一定的參考價(jià)值,感興趣的可以了解一下2024-03-03MySQL數(shù)據(jù)更新操作的兩種辦法(數(shù)據(jù)可視化工具和SQL語句)
MySQL是最常用的數(shù)據(jù)庫,在數(shù)據(jù)庫操作中,基本都是增刪改查操作,簡稱CRUD,下面這篇文章主要給大家介紹了關(guān)于MySQL數(shù)據(jù)更新操作的兩種辦法,需要的朋友可以參考下2023-03-03MySQL中MAX()和MIN()函數(shù)的高效使用及技巧
在SQL數(shù)據(jù)庫中,最大/最小值函數(shù)—MAX()/MIN()是經(jīng)常要用到的,下面這篇文章主要給大家介紹了關(guān)于MySQL中MAX()和MIN()函數(shù)的高效使用及技巧的相關(guān)資料,文中通過代碼介紹的非常詳細(xì),需要的朋友可以參考下2024-06-06Mysql存儲(chǔ)過程學(xué)習(xí)筆記--建立簡單的存儲(chǔ)過程
我們常用的操作數(shù)據(jù)庫語言SQL語句在執(zhí)行的時(shí)候需要要先編譯,然后執(zhí)行,而存儲(chǔ)過程(Stored Procedure)是一組為了完成特定功能的SQL語句集,經(jīng)編譯后存儲(chǔ)在數(shù)據(jù)庫中,用戶通過指定存儲(chǔ)過程的名字并給定參數(shù)(如果該存儲(chǔ)過程帶有參數(shù))來調(diào)用執(zhí)行它。2014-08-08mysql 數(shù)據(jù)同步 出現(xiàn)Slave_IO_Running:No問題的解決方法小結(jié)
mysql replication 中slave機(jī)器上有兩個(gè)關(guān)鍵的進(jìn)程,死一個(gè)都不行,一個(gè)是slave_sql_running,一個(gè)是Slave_IO_Running,一個(gè)負(fù)責(zé)與主機(jī)的io通信,一個(gè)負(fù)責(zé)自己的slave mysql進(jìn)程。2011-05-05Windows10下mysql 8.0.22 安裝配置方法圖文教程
這篇文章主要為大家詳細(xì)介紹了Windows10下mysql 8.0.22 安裝配置方法圖文教程,文中安裝步驟介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2020-11-11