Corporate Search: A Small World – Apache Lucene og Solr 9.0 søk på flere språk

Apache Solr- og Lucene-prosjektene ble utgitt i versjon 9.0. Solr-bedriftssøkeserveren tilbyr denne gangen plugins for posisjonering av replikaer, struper søkehastigheter og tilbyr et nytt SQL-søkegrensesnitt i brukergrensesnittet. Den nye hovedversjonen av Apache Lucene-søkemotorbiblioteket, skrevet utelukkende i Java og ansett som spesielt kraftig, har en rekke tilleggsfunksjoner. Søkemotorteknologi passer for nesten alle applikasjoner som krever strukturert søk, fulltekstsøk, fasettsøk, men også stavekontroll eller foreslåtte søk.

Hovedversjonen av Apache Lucene støtter indeksering av store digitale vektorer for Nearest Neighbor Search. For å gjøre dette bruker den en algoritme for en hierarkisk navigerbar Small World Graph, en velkjent modell i matematikk. I dette nettverket er naboene til en node sannsynligvis naboer til andre noder (noder), og de fleste av nodene kan nås i noen få skritt fra enhver annen node.

Milestone-versjonen utvider Lucenes» språkkunnskaper ved å legge til analysatorer for serbisk, nepali og tamil til biblioteket. Den tilbyr nå japanske søkeforslag og inkluderer stemmer for blant annet hindi, indonesisk og jiddisk. En ny stamstandardisering for svensk og norsk kompletterer de språklige trekkene. Lucene-teamet forbedret også ytelsen. Så fasetten av taksonomien forventes å være 400 % raskere, og flerdimensjonal indeksering av poeng har også fått fart, ifølge blogginnlegget fra Apache-utviklerne.

Akselerert sortering av punktindekserte felt er nå standard med et ekskluderingsalternativ. Alle som har jobbet med Lucene i lang tid har vært kjent med dette alternativet: akselerert multippelsortering var allerede mulig i høyere versjoner 8.x, på det tidspunktet fortsatt i opt-in. Siden ConcurrentMergeScheduler Start nå med rask input/output (I/O), som redaktørene sier skal forbedre indekseringsarbeidsflyten. For å spare plass byttet Lucene-teamet fra «annonseliste»-modus til «annonser»-modus. FOR-delta til PFOR-delta den er endret.

Lucene 9.0 bruker ikke lenger delte pakker, noe som krever å endre navn på noen pakker (bortsett fra lucene-kjerne JAR) og tilpasse importen. Et modulsystem er fortsatt eksperimentelt, det bør modnes i de neste 9.x-versjonene.

Mer detaljert informasjon om Apache Lucene finner du i blogginnlegget for hovedversjon 9.0. Når det gjelder endringene til Solr-søkeserveren, er den endelige bloggen ennå ikke publisert. Endringsloggen og en liste over endrede innstillinger er allerede tilgjengelig, med ytterligere kommentarer fra Solr-teamet. De som ønsker det kan allerede utdype Raw Notes.

Osgar Glaziere

"Tilsatt for anfall av apati. Reiseelsker. TV-spesialist. Frilansskribent. Webaholic."

Legg att eit svar

Epostadressa di blir ikkje synleg. Påkravde felt er merka *