elasticsearch索引index之merge底層機(jī)制的合并講解
merge是lucene的底層機(jī)制,merge過(guò)程會(huì)將index中的segment進(jìn)行合并,生成更大的segment,提高搜索效率。
segment是lucene索引的一種存儲(chǔ)結(jié)構(gòu),每個(gè)segment都是一部分?jǐn)?shù)據(jù)的完整索引,它是lucene每次flush或merge時(shí)候形成。
每次flush就是將內(nèi)存中的索引寫出一個(gè)獨(dú)立segment的過(guò)程。所以隨著數(shù)據(jù)的不斷增加,會(huì)形成越來(lái)越多的segment。
因?yàn)閟egment是不可變的,刪除操作不會(huì)改變segment內(nèi)部數(shù)據(jù),只是會(huì)在另外的地方記錄某些數(shù)據(jù)刪除,這樣可能會(huì)導(dǎo)致segment中存在大量無(wú)用數(shù)據(jù)。
搜索時(shí),每個(gè)segment都需要一個(gè)reader來(lái)讀取里面的數(shù)據(jù),大量的segment會(huì)嚴(yán)重影響搜索效率。
而merge過(guò)程,會(huì)將小的segment寫到一起形成一個(gè)大的segment,減少其數(shù)量。同時(shí)重寫過(guò)程會(huì)拋棄那些已經(jīng)刪除的數(shù)據(jù)。因此segment的merge是有利于查詢效率的。
elasticsearch的merge其實(shí)就是lucene的merge機(jī)制。merge過(guò)程是lucene有一個(gè)后臺(tái)線程,它會(huì)根據(jù)merge策略來(lái)決定是否進(jìn)行merge,一旦merge的條件滿足,就會(huì)啟動(dòng)后臺(tái)merge。
merge策略分為兩種,這也是大多數(shù)大數(shù)據(jù)框架所采用的,segment的大小和segment中doc的數(shù)量。
以這兩個(gè)標(biāo)準(zhǔn)為基礎(chǔ)實(shí)現(xiàn)了三種merge策略:TieredMergePolicy、LogDocMergePolicy 及LogByteSizeMergePolicy。
elasticsearch這一部分就是對(duì)這三種合并策略的封裝,并提供了對(duì)于的配置。
它的實(shí)現(xiàn)方式如下所示:

底層mergeprovider實(shí)現(xiàn)了對(duì)三種合并策略的初始化和配置,并通過(guò)getMergePolicy()方法對(duì)外提供。
這三種合并策略中LogDocMergePolicy是根據(jù)doc數(shù)量進(jìn)行合并,其它兩種都是根據(jù)segment的大小,只是TieredMergePolicy合并過(guò)程是分層進(jìn)行,它會(huì)把小于某一值的所有segment合并成一個(gè)大的segment,然后再一次進(jìn)行。
以上是合并策略,除了合并策略還有一個(gè)要說(shuō)的就是合并線程。前面說(shuō)過(guò),merge是通過(guò)獨(dú)立線程完成的,lucene對(duì)于線程策略也有兩種,一種是順序,另外一種就是并發(fā)。
順序合并策略會(huì)阻止索引的進(jìn)行,因此多數(shù)情況先不會(huì)使用,而并發(fā)合并則是和index過(guò)程同時(shí)進(jìn)行,這樣不會(huì)影響索引和搜索。
elasticsearch同樣通過(guò)provider的形式提供這兩種合并線程配置。
merge能夠通過(guò)減少segment數(shù)量來(lái)提高搜索速度。但是merge的過(guò)程會(huì)對(duì)索引吞吐量及搜索速度有一定的影響,因此需要配置適當(dāng)?shù)暮喜⒉呗詤?shù)。對(duì)于資源不足的環(huán)境,最好禁止自動(dòng)merge,選擇空閑時(shí)段手動(dòng)進(jìn)行merge。
以上就是elasticsearch索引index之merge底層機(jī)制的合并講解的詳細(xì)內(nèi)容,更多關(guān)于elasticsearch索引index merge合并的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
VS2019創(chuàng)建MFC程序的實(shí)現(xiàn)方法
這篇文章主要介紹了VS2019創(chuàng)建MFC程序的實(shí)現(xiàn)方法,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-08-08
idea集成Git實(shí)現(xiàn)團(tuán)隊(duì)合作分工的原理詳解
這篇文章主要介紹了idea集成Git實(shí)現(xiàn)團(tuán)隊(duì)合作分工的原理,本文通過(guò)圖文實(shí)例相結(jié)合給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友參考下吧2020-12-12
為Jenkins創(chuàng)建定時(shí)構(gòu)建任務(wù)
這篇文章介紹了為Jenkins創(chuàng)建定時(shí)構(gòu)建任務(wù)的方法,對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2022-03-03

