使用Django和Postgres進(jìn)行全文搜索的實(shí)例代碼
這些天,我需要全文搜索。這個(gè)區(qū)塊中最酷的孩子們是Elastic Search和Sorl:他們快速,靈活,資源消耗沉重并且需要Java,這幾乎是我想要的一個(gè)5美元的數(shù)字海洋飛車上運(yùn)行的寵物項(xiàng)目所需的所有東西。
放棄這些選項(xiàng)后,我剩下了Xapian和postgres全文搜索的功能,而xapian似乎功能更豐富,我決定從postgres開(kāi)始,因?yàn)樗cdjango進(jìn)行了本機(jī)集成,并且對(duì)這個(gè)特定項(xiàng)目的要求不高。
項(xiàng)目及其要求
您可能已經(jīng)注意到,我正在運(yùn)行工作板。 Voorjob基本上是從lever.co聚合工作,并讓用戶搜索它。目前,我在數(shù)據(jù)庫(kù)中大約有25,000個(gè)工作,這個(gè)數(shù)字增長(zhǎng)緩慢,每增加2或3個(gè)工作,就會(huì)關(guān)閉另一個(gè)工作。是的,如果我采用了彈性搜索路徑,那將是一本教科書(shū)過(guò)度設(shè)計(jì)的情況。
實(shí)施
從9.4版開(kāi)始,postgres添加了一些允許全文本搜索的功能。不久之后,Django在postgres特定功能中鏡像了這些功能。
要開(kāi)始使用此新功能,我基本上需要在模型中使用SearchVectorField,并需要使用矢量化的職位描述來(lái)更新此字段的方法:
from django.contrib.postgres.search import SearchVectorField, SearchVector class Job(models.Model): title = models.CharField(max_length=200, blank=True) location = models.CharField(max_length=50, blank=True) body = models.TextField(null=True) body_vector = SearchVectorField(null=True) def make_search_vector(): self.body_vector=SearchVector('body') def save(self, *args, **kwargs): self.make_search_vector() super(Model, self).save(*args, **kwargs)
這種方法適用于很少更新的工作,例如工作板,但是如果您的應(yīng)用程序經(jīng)常更新,則應(yīng)避免使用此策略,并應(yīng)定期執(zhí)行一些任務(wù)來(lái)填充向量:
Job.objects.all().update(body_vector=SearchVector('body'))
甚至更好的是,您可以通過(guò)閱讀本文檔,使用postgres觸發(fā)器直接進(jìn)行操作。
查詢工作
現(xiàn)在您已經(jīng)準(zhǔn)備好數(shù)據(jù)庫(kù),現(xiàn)在可以查詢它了,讓我們看一下voorjob搜索視圖的教學(xué)版本:
from django.contrib.postgres.search import SearchQuery class Index(ListView): model = Job paginate_by = 30 def get_queryset(self): search = self.request.GET.get("search", None) queryset = Job.objects.all() if search: if '"' in search: query = SearchQuery(search.replace('"', ''), search_type='phrase') else: query = SearchQuery(search) queryset = queryset.filter(body_vector=query) else: queryset = queryset return queryset
我基本上在這里考慮兩種查詢:?jiǎn)卧~存在和“精確表達(dá)式”。是的,該邏輯中存在一些缺陷,請(qǐng)繼續(xù)起訴我:D
還有很多可以改進(jìn)的地方,django支持加權(quán)查詢:
vector = SearchVector('title',weight ='A')+ SearchVector('body',weight ='B') Job.objects.all()。update(body_vector = vector)
這最終將以更好的順序返回結(jié)果,其中標(biāo)題中的匹配比正文中的匹配更重。
查詢系統(tǒng)也更加靈活,允許進(jìn)行邏輯運(yùn)算OR / AND和NOT。在不久的將來(lái),我將改善對(duì)工作板的搜索,并更新此帖子以描述所做的更改。
性能
在開(kāi)發(fā)過(guò)程中,我使用了具有16GB內(nèi)存和不錯(cuò)的NVMe的I5。對(duì)本地計(jì)算機(jī)中的25k作業(yè)運(yùn)行查詢基本上是瞬時(shí)的。
當(dāng)我將項(xiàng)目轉(zhuǎn)移到生產(chǎn)環(huán)境時(shí)(每滴5美元),事情變得越來(lái)越慢了。
運(yùn)行密西西比基準(zhǔn)測(cè)試,我得到以下結(jié)果:
在/ django rest framework上搜索((1個(gè)密西西比州以掃描5K條目))
在/ full /上搜索“ django rest framework”(-3個(gè)密西西比州,掃描25K條目)
不是最好的性能,但現(xiàn)在可以使用。本文將進(jìn)行更新以反映任何性能改進(jìn)。
考慮到我的搜索需求不高-超過(guò)25k的條目,且字?jǐn)?shù)過(guò)多的文章并不比本文大很多-使用postgres作為我的全文搜索的后端,對(duì)于此早期MVP來(lái)說(shuō)效果很好?,F(xiàn)在,我比每天給我20個(gè)用戶提供最快的體驗(yàn),對(duì)嘗試事物和擴(kuò)大董事會(huì)成員更感興趣。
更新(2020年2月9日)
好消息! 我了解到可以將索引添加到SearchVectorField中:
from django.contrib.postgres.indexes import GinIndex class Job(models.Model): class Meta: indexes = (GinIndex(fields=["body_vector"]),) title = models.CharField(max_length=200, blank=True) location = models.CharField(max_length=50, blank=True) body = models.TextField(null=True) body_vector = SearchVectorField(null=True) def make_search_vector(): self.body_vector=SearchVector('body') def save(self, *args, **kwargs): self.make_search_vector() super(Model, self).save(*args, **kwargs)
現(xiàn)在,所有情況下的搜索時(shí)間均降至1個(gè)密西西比州。 由于我的數(shù)據(jù)很小,因此用于該索引的內(nèi)存量可以忽略不計(jì)。
總結(jié)
以上所述是小編給大家介紹的使用Django和Postgres進(jìn)行全文搜索的實(shí)例代碼,希望對(duì)大家有所幫助!
相關(guān)文章
機(jī)器學(xué)習(xí)的框架偏向于Python的13個(gè)原因
這篇文章主要為大家詳細(xì)介紹了機(jī)器學(xué)習(xí)的框架偏向于Python的13個(gè)原因,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2017-12-12python?import模塊時(shí)有錯(cuò)誤紅線的原因
這篇文章主要介紹了python?import模塊時(shí)有錯(cuò)誤紅線的原因及解決,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-02-02Pycharm創(chuàng)建Django項(xiàng)目示例實(shí)踐
本文主要介紹了Pycharm創(chuàng)建Django項(xiàng)目示例,文中通過(guò)示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2022-03-03Pycharm配置導(dǎo)入torch報(bào)錯(cuò)Traceback的問(wèn)題及解決
這篇文章主要介紹了Pycharm配置導(dǎo)入torch報(bào)錯(cuò)Traceback的問(wèn)題及解決方案,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-12-12記錄一下scrapy中settings的一些配置小結(jié)
這篇文章主要介紹了記錄一下scrapy中settings的一些配置小結(jié),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-09-09Python實(shí)現(xiàn)讀取Excel文件并復(fù)制指定的數(shù)據(jù)行
這篇文章主要介紹了如何基于Python語(yǔ)言,讀取Excel表格文件數(shù)據(jù),并基于其中某一列數(shù)據(jù)的值,將這一數(shù)據(jù)處于指定范圍的那一行加以復(fù)制,感興趣的可以了解一下2023-07-07Python 實(shí)現(xiàn)文件打包、上傳與校驗(yàn)的方法
今天小編就為大家分享一篇Python 實(shí)現(xiàn)文件打包、上傳與校驗(yàn)的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-02-02有關(guān)pycharm登錄github時(shí)有的時(shí)候會(huì)報(bào)錯(cuò)connection reset的問(wèn)題
這篇文章主要介紹了有關(guān)pycharm登錄github時(shí)有的時(shí)候會(huì)報(bào)錯(cuò)connection reset的問(wèn)題,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-09-09Python操作SQLite數(shù)據(jù)庫(kù)的方法詳解【導(dǎo)入,創(chuàng)建,游標(biāo),增刪改查等】
這篇文章主要介紹了Python操作SQLite數(shù)據(jù)庫(kù)的方法,簡(jiǎn)單說(shuō)明了sqlite數(shù)據(jù)庫(kù)的相關(guān)概念,并結(jié)合實(shí)例形式較為詳細(xì)的分析了Python針對(duì)sqlite數(shù)據(jù)庫(kù)的導(dǎo)入,創(chuàng)建,游標(biāo),增刪改查等操作技巧,需要的朋友可以參考下2017-07-07