Wiki source code of Vyhledávání v katalogu

Version 1.1 by Jan Šimeček on 2024/08/02 09:24

Show last authors
1
2
3 |(((
4 Aktuálně probíhá návrh úplně nového mechanismu vyhledávání pro Tritius. Od doby vzniku Tritia pokročily technologie, posbírali jsme mnoho zpětné vazby i profesních zkušeností a tak jsme se rozhodli, že je na čase vymyslet vyhledání znovu na zelené louce. Cíle nového vyhledávání jsou:
5
6 * Maximální rychlost vyhledávání
7 * Významně lepší určování relevance
8 * Rychlejší indexace dokumentů bez nežádoucí ztráty výkonu Tritia
9 * Specializovaná podpora pro vyhledávání např. zkratek, iniciálů namísto jmen a další vychytávky
10
11
12 Přepokládaný termín dokončení je přelom roku 2022/2023.
13 )))
14
15
16 |Vyhledávání je předmětem neustálého vývoje a co platí dnes nemusí platit zítra. Pro vyhledávání v SOLRu neexistují univerzální návody nebo postupy, jak by mělo fungovat a co funguje na e-shopu nebude fungovat pro knihovnu. Jde o neustálou práci pokusů, omylů a drobných vylepšení na základě postupně získávaných zkušeností.
17
18 = Obecné informace =
19
20 * Vyhledávání standardně nehledí na diakritiku - je jedno, jestli vyhledáváte Novák// //nebo Novak
21 * Vyhledávání standardně nehledí na velikost písmen - je jedno, jestli vyhledáváte Novak nebo novak.
22 * Je možné používat **speciální znaky** pro vyhledávání
23 ** hvězdička - začíná/končí
24 *** Jan* - nalezne Jan, Jana, Janák, ...
25 *** *jany - nalezne Jany, Svijany, ...
26 ** uvozovky - vyhledává fráze
27 *** "Jan Novák" - nalezne záznamy, ve kterých je Jan Novák
28
29 == Úprava relevance neknižních dokumentů ==
30
31 Tritius umožňuje nastavit dvě úrovně základního boostup pro dokumenty vyjmenovaných typů.
32
33 * SOLR_MAX_BOOST_TYPES - Seznam ID typů dokumentů s maximálním boostem. Defaultně pouze knihy.
34 * SOLR_OTHER_BOOST - Hodnota boostup pro ostatní dokumenty. Defaultně je to 0,25.
35
36 = Jednoduché vyhledávání =
37
38 * **vyhledává** téměř ve všech položkách z děl,
39 * **nevyhledává** v informacích ze svazků (přírůstková čísla apod) - lze to nastavit, ale z důvodu rychlosti je to ve výchozím stavu vypnuté,
40 * je možné vyhledávat zároveň ve všech informacích, nebo zvolit nějakou skupinu informací
41 * při vyhledávání více slov je mezi každým slovem operátor **nebo**
42 ** vyhledávání Jan Novák - nalezne všechny díla, u kterých se vyskytuje "Jan" nebo "Novák"
43 * Je-li vybráno konkrétní vyhledávané pole (Autor, název), potom se mezi slovy použije AND.
44 * Pokud se nenajde žádný výsledek, pak se zkusí hledaný výraz rozšířit o hvězdičky a vyhledává se tedy fráze začínající na hledaný výraz.
45
46 = Pokročilé vyhledávání =
47
48 * v rámci jednoho pole pro vyhledávání je mezi jednotlivými slovy vztah **a**
49 ** "Jan Novák" - nalezne záznamy, ve kterých se vyskytují obě slova "Jan" a "Novák"
50 * vztah mezi vyhledávanými poli je **a**, např. vyhledávání
51 ** autor: Jan Novák, název: Hrady - nalezne dokumenty s názvem který obsahuje "Hrady" a jejichž autorem je "Jan Novák"
52
53 = Kombinované vyhledávání =
54
55 * v rámci jednoho pole pro vyhledávání je mezi jednotlivými slovy vztah **a**
56 ** "Jan Novák" - nalezne záznamy, ve kterých se vyskytují obě slova "Jan" a "Novák"
57 * vztah mezi vyhledávanými poli je možné zvolit mezi **a **a **nebo**
58 ** Vztah **A: **autor: Jan Novák, název: Hrady - nalezne dokumenty s názvem který obsahuje "Hrady" **a** jejichž autorem je "Jan Novák"
59 ** Vztah **NEBO: **autor: Jan Novák, název: Hrady - nalezne dokumenty s názvem který obsahuje "Hrady" **nebo** jejichž autorem je "Jan Novák"
60 * Dostupné operátory - vyhledávané dotazy je možné kombinovat **se speciálními znaky**
61 ** **rovno **- u záznamu je uloženo "Novák, Jan"
62 *** je třeba vyhledávat přesně Novák, Jan (včetně čárky a správného pořadí, všechny ostatní varianty nenaleznou požadovaný záznam - např. Novák Jan, Jan Novák atd)
63 ** **obsahuje** - má význam obsahuje slova (hledá celá slova), u záznamu je uloženo "Lučištník. 1. Hledání svatého grálu"
64 *** je možné hledat (aby záznam byl nalezen):
65 **** lučištník
66 **** Lučištník hledání grálu
67 **** Hledání grálu
68 **** Hledání svatého grálu
69 **** atd.
70 ** **neobsahuje** - je opakem pro obsahuje, u záznamu je uloženo "Lučištník. 1. Hledání svatého grálu"
71 *** je možné hledat (aby záznam byl nalezen):
72 **** hory
73 **** hokej
74 **** noviny
75 **** atd. - informace které nejsou v záznamu uloženy
76 ** **začíná na** - vyhledává celá slova, u záznamu je uloženo "Lučištník. 1. Hledání svatého grálu". Operátor začíná se vztahuje na celou uloženou hodnotu (ne začátek slova)
77 *** je možné hledat (aby záznam byl nalezen):
78 **** lučištník
79 **** lučištník. 1.
80 **** Lučištník. 1. Hledání svatého
81 **** atd.
82 ** **nezačíná** - vyhledává celá slova, u záznamu je uloženo "Lučištník. 1. Hledání svatého grálu". Operátor nezačíná se vztahuje na celou uloženou hodnotu (ne začátek slova)
83 *** je možné hledat (aby záznam byl nalezen):
84 **** hory
85 **** hokej
86 **** noviny
87 **** atd. - informace které nejsou v záznamu uloženy
88 ** **vyplněno** - pole, ve kterém se vyhledává je uložena libovolná hodnota
89 *** pokud se bude vyhledávat v poli Autor, pak hledaný dokument **musí mít** vyplněného alespoň jednoh autora
90 ** **nevyplněno** - pole, ve kterém se vyhledává je prázdné
91 *** pokud se bude vyhledávat v poli Autor, pak hledaný dokument **nesmí mít** vyplněného žádného autora
92
93 = Kalendárium =
94
95 Kalendárium lze vypnout nastavením **CATALOG_CALENDARIUM_ENABLED**.
96
97 = Speciální případy vyhledávání =
98
99 == ISXN ==
100
101 * u záznamu je uloženo např. "978-80-247-3656-3 (brož.)", je možné vyhledávat:
102 ** 978-80-247-3656-3 (brož.)
103 ** 978-80-247-3656-3
104 ** 9788024736563