Vyhledávání v katalogu

Last modified by Jan Šimeček on 2024/08/13 11:29

 

Aktuálně probíhá návrh úplně nového mechanismu vyhledávání pro Tritius. Od doby vzniku Tritia pokročily technologie, posbírali jsme mnoho zpětné vazby i profesních zkušeností a tak jsme se rozhodli, že je na čase vymyslet vyhledání znovu na zelené louce. Cíle nového vyhledávání jsou:

  • Maximální rychlost vyhledávání
  • Významně lepší určování relevance
  • Rychlejší indexace dokumentů bez nežádoucí ztráty výkonu Tritia
  • Specializovaná podpora pro vyhledávání např. zkratek, iniciálů namísto jmen a další vychytávky

Přepokládaný termín dokončení je přelom roku 2022/2023.

Vyhledávání je předmětem neustálého vývoje a co platí dnes nemusí platit zítra. Pro vyhledávání v SOLRu neexistují univerzální návody nebo postupy, jak by mělo fungovat a co funguje na e-shopu nebude fungovat pro knihovnu. Jde o neustálou práci pokusů, omylů a drobných vylepšení na základě postupně získávaných zkušeností.

Obecné informace

  • Vyhledávání standardně nehledí na diakritiku - je jedno, jestli vyhledáváte Novák nebo Novak
  • Vyhledávání standardně nehledí na velikost písmen - je jedno, jestli vyhledáváte Novak nebo novak.
  • Je možné používat speciální znaky pro vyhledávání
    • hvězdička - začíná/končí
      • Jan* - nalezne Jan, Jana, Janák, ...
      • *jany - nalezne Jany, Svijany, ...
    • uvozovky - vyhledává fráze
      • "Jan Novák" - nalezne záznamy, ve kterých je Jan Novák

Úprava relevance neknižních dokumentů

Tritius umožňuje nastavit dvě úrovně základního boostup pro dokumenty vyjmenovaných typů.

  • SOLR_MAX_BOOST_TYPES - Seznam ID typů dokumentů s maximálním boostem. Defaultně pouze knihy.
  • SOLR_OTHER_BOOST - Hodnota boostup pro ostatní dokumenty. Defaultně je to 0,25.

Jednoduché vyhledávání

  • vyhledává téměř ve všech položkách z děl,
  • nevyhledává v informacích ze svazků (přírůstková čísla apod) - lze to nastavit, ale z důvodu rychlosti je to ve výchozím stavu vypnuté,
  • je možné vyhledávat zároveň ve všech informacích, nebo zvolit nějakou skupinu informací
  • při vyhledávání více slov je mezi každým slovem operátor nebo
    • vyhledávání Jan Novák - nalezne všechny díla, u kterých se vyskytuje "Jan" nebo "Novák"
  • Je-li vybráno konkrétní vyhledávané pole (Autor, název), potom se mezi slovy použije AND.
  • Pokud se nenajde žádný výsledek, pak se zkusí hledaný výraz rozšířit o hvězdičky a vyhledává se tedy fráze začínající na hledaný výraz.

Pokročilé vyhledávání

  • v rámci jednoho pole pro vyhledávání je mezi jednotlivými slovy vztah a
    • "Jan Novák" - nalezne záznamy, ve kterých se vyskytují obě slova "Jan" a "Novák"
  • vztah mezi vyhledávanými poli je a, např. vyhledávání
    • autor: Jan Novák, název: Hrady - nalezne dokumenty s názvem který obsahuje "Hrady" a jejichž autorem je "Jan Novák"

Kombinované vyhledávání

  • v rámci jednoho pole pro vyhledávání je mezi jednotlivými slovy vztah a
    • "Jan Novák" - nalezne záznamy, ve kterých se vyskytují obě slova "Jan" a "Novák"
  • vztah mezi vyhledávanými poli je možné zvolit mezi nebo
    • Vztah A: autor: Jan Novák, název: Hrady - nalezne dokumenty s názvem který obsahuje "Hrady" a jejichž autorem je "Jan Novák"
    • Vztah NEBO: autor: Jan Novák, název: Hrady - nalezne dokumenty s názvem který obsahuje "Hrady" nebo jejichž autorem je "Jan Novák"
  • Dostupné operátory - vyhledávané dotazy je možné kombinovat se speciálními znaky
    • rovno - u záznamu je uloženo "Novák, Jan"
      • je třeba vyhledávat přesně Novák, Jan (včetně čárky a správného pořadí, všechny ostatní varianty nenaleznou požadovaný záznam - např. Novák Jan, Jan Novák atd)
    • obsahuje - má význam obsahuje slova (hledá celá slova), u záznamu je uloženo "Lučištník. 1. Hledání svatého grálu"
      • je možné hledat (aby záznam byl nalezen):
        • lučištník
        • Lučištník hledání grálu
        • Hledání grálu
        • Hledání svatého grálu
        • atd.
    • neobsahuje - je opakem pro obsahuje, u záznamu je uloženo "Lučištník. 1. Hledání svatého grálu"
      • je možné hledat (aby záznam byl nalezen):
        • hory
        • hokej
        • noviny
        • atd. - informace které nejsou v záznamu uloženy
    • začíná na - vyhledává celá slova, u záznamu je uloženo "Lučištník. 1. Hledání svatého grálu". Operátor začíná se vztahuje na celou uloženou hodnotu (ne začátek slova)
      • je možné hledat (aby záznam byl nalezen):
        • lučištník
        • lučištník. 1.
        • Lučištník. 1. Hledání svatého
        • atd.
    • nezačíná - vyhledává celá slova, u záznamu je uloženo "Lučištník. 1. Hledání svatého grálu". Operátor nezačíná se vztahuje na celou uloženou hodnotu (ne začátek slova)
      • je možné hledat (aby záznam byl nalezen):
        • hory
        • hokej
        • noviny
        • atd. - informace které nejsou v záznamu uloženy
    • vyplněno - pole, ve kterém se vyhledává je uložena libovolná hodnota
      • pokud se bude vyhledávat v poli Autor, pak hledaný dokument musí mít vyplněného alespoň jednoh autora
    • nevyplněno - pole, ve kterém se vyhledává je prázdné
      • pokud se bude vyhledávat v poli Autor, pak hledaný dokument nesmí mít vyplněného žádného autora

Kalendárium

Kalendárium lze vypnout nastavením CATALOG_CALENDARIUM_ENABLED.

Speciální případy vyhledávání

ISXN

  • u záznamu je uloženo např. "978-80-247-3656-3 (brož.)", je možné vyhledávat:
    • 978-80-247-3656-3 (brož.)
    • 978-80-247-3656-3
    • 9788024736563