Adobe Search&Promote - II.díl

V první částí jsem v krátkosti představil S&P. V druhém díle se podíváme na způsob indexování a vyhledávání.

Indexace

Indexace webu začíná zadáním vstupních bodů, ze kterých mají roboti začít. Takových vstupních bodů může být více a nejsou vázány na konkrétní doménu. Můžete tedy s jedním účtem indexovat více různých domén. Robotů může současně pracovat až deset. Jde tedy vyvážit rychlost indexace a počet současných dotazů na servery.

Zpracování každé stránky a budování indexu je založeno na systému metatagů. Automaticky jsou připravené záznamy pro běžná pole (Title, body, apod.). Dále je možné definovat metatagy vlastní. S jejich pomocí jde do indexu dostat mnoho doplňujících informací. Protože hodnoty metatagů jdou vracet ve výsledcích, jde je také použít na předávání informací do výsledků vyhledávání. Pro každý metatag se dá nastavit několik parametrů. Základem je něco tak triviálního jako jméno. Mnohem zajímavější je možnost nastavit datový typ. Od něj se pak odvozuje jakým způsobem jsou hodnoty zpracovány a jak se v nich vyhledává. Jednoduché možnosti jako "text" a "číslo" ocení každý. Pro náročné pak jsou připraveny složitosti jako "ZIP kód". Parametr váha je pak zásadní při vyhledávání . Říká jak významná je shoda s hledaným výrazem v tomto metatagu. Tímto způsobem se tedy dá nastavit, že title je důležitější než body. Protože předem připravené záznamy nejde smazat, tak nastavení váhy slouží i k jejich vypnutí.

Pokud není možné na stránky metatagy vložit, nabízí S&P možnost je na stránky doplnit až během indexace. Používají se k tomu v PERLu napsané skripty.

Některé části webu v indexu mít nechceme a ani nepotřebujeme. Pro tento případ je připraven nástroj URL masek. S jeho pomocí se dají definovat pomocí regulárních výrazů masky URL a nastavit jestli mají být do indexu zařazeny, nebo ne. Jde tak vytvořit pravidla jako "z galerie indexuj jen sekci novinek". Druhým využitím tohoto nástroje je odstranění duplicitních výsledků z indexu. S&P se při vytváření indexu řídí pomocí URL. Stránka se stejným obsahem, ale různou URL se tedy do indexu dostane několikrát. Pomocí masek je možné tyto duplicitní záznamy odstranit.

Samotná indexace může probíhat jedním ze tří způsobů. Základem je úplný index. Při něm je zpracován celý web a všechny vstupní body. Druhou možností je přírůstkový index. Ten slouží k doplnění úplného indexu o změny v některých částech webu. Úplný i přírůstkový index se plánují a probíhají periodicky – úplný v řádu dnů a přírůstkový v řádu minut až hodin. Třetí možností je pak skriptovaný index. Ten funguje v principu stejně jako přírůstkový, ale spouští se příkazem přes API a ne pomocí časovače. V ideálním případě tedy jednou za několik dní provedeme úplný index. Části webu, které se často mění (novinky, fórum,...) indexujeme přírůstkově mnohem častěji. A v administraci webu připravíme UI na ruční starty skriptovaných indexů.

Tím máme indexaci nastavenou a můžeme se začít věnovat samotnému vyhledávání.

Vyhledávání

Celé vyhledávání – formulář, stránku s výsledky – je možné nastavit (včetně vzhledu) přímo v administraci S&P. Výsledek se pak vloží do vlastního webu. Druhou možností je použít REST API a vyhledávání/výsledky zobrazovat pomocí vlastních stránek ve vlastním webu. API se ovládá zadanými parametry a vrací výsledky podle nastavené šablony. V dotazu se kromě hledaného výrazu dají poslat i další doplňkové parametry. Například jestli se má hledat celá fráze ze zadaného výrazu, nebo jednotlivá slova. Šablonu odpovědi je možné upravit podle konkrétních požadavků na formát i data. Kromě samotných výsledků může obsahovat i linky pro stránkování, pro výběr způsobu řazení, nebo pro omezení výsledků podle hodnot některého metatagu. Tak se dá snadno vytvořit omezení výsledků podle kategorie. Tedy pokud si definujete metatag "kategorie". I pro výsledky je možné nastavit jaká se o něm vrací data. Chceme URL? Skóre? Titulek? Hodotu metatagu "kategorie"? Není problém.

Když víme jak položit S&P dotaz a jak dostat odpověd, tak zbývá už jen ta nejdůležitější otázka. Jaké výsledky dostaneme? Odpověď velmi záleží na tom jak si vyhledávání nastavíme. A nastavit se toho dá opravdu mnoho. Na nejzákladnější úrovni se nastavují váhy jednotlivých metatagů a podle shody s hledaným výrazem se počítá skóre výsledků. Tím jsme se ale dostali jen zpět na začátek našeho popisu. Skvělé skóre budou mít i "špatné" výsledky z fóra. Naštěstí nám ale pomohou dvě funkce S&P – Ranking rules a Business rules.

Ranking rules je systém pravidel na úpravu skóre výsledku podle hodnot jeho metatagů. Nejprve se nastaví jaký podíl ze skóre tvoří relevance a jaký pravidla. Pokud většinu skóre tvoří relevance, tak se pravidla neprojeví, nebo se projeví jen neznatelně. Naopak, pokud se skóre bude určovat především pravidly, tak nebude příliš důležité co vlastně uživatel hledal. Uvidí to, co jsme chtěli aby našel. Je proto velmi důležité najít správný poměr. Dále je potřeba určit jak jsou důležitá jednotlivá pravidla. A nakonec se nastaví u pravidla jak významné jsou jednotlivé hodnoty metatagu. Pro náš příklad s fórem tedy vytvoříme pravidlo, které říká, že pokud metatag "sekce" má hodnotu "fórum", tak se má skóre snížit. Hlavní výhodou, ale i nevýhodou tohoto systému je, že pracuje na základě poměrů. Dokonce se ovládá pomocí rozdělování koláčového grafu. Pokud naše pravidlo o malém významu fóra tvoří jen 10% z 30% vyhrazených pro pravidla, tak ve skutečnosti skóre téměř neovlivní. Je proto důležité najít na všech úrovních ty správné poměry a počty pravidel.

Systém Business rules pracuje na principu vytváření pravidel formulovaných jako "pokud je splněna podmínka X proveď akci Y". Jedná se o velmi silný nástroj, který umožňuje opravdu masivní manipulaci s výsledky. Možností jak sestavit podmínku je mnoho. Od jednoduchých porovnání hodnot až po složité agregace dat. Podmínky jde skládat do složitějších výrazů. Podobně rozsáhlé jsou i možnosti při sestavování akcí. Jde přidávat, přesouvat i odebírat výsledky. Jak jednotlivě, tak celé skupiny. Dají se přepínat návratové šablony a tedy i formát odpovědi. Nebo také změnit obsah bannerů. Jedna podmínka může spustit více akcí. Pro vytváření pravidel je k dispozici editor na principu formuláře. V něm pomocí checkboxů, drop-downů a textových polí sestavíte pravidlo. Pro editaci je také k dispozici tzv. Vizuální editor. V něm se uživateli zobrazí vyhledávací formulář a výpis výsledků. Uživatel pak vytváří pravidla přetahováním jednotlivých výsledků. Tento editor velmi dobře zapadá do koncepce S&P jako nástroje, který dokáže ovládat každý. Je ale otázka jak kvalitní a rozumná pravidla editor sestaví. Je výhodnější si dát práci a pravidla napsat ručním editorem. Mimo jiné i proto, že nabízí širší výběr podmínek a akcí.

V příštím díle rozebereme praktické zkušenosti s nasazením S&P.

Článek obsahuje 0 komentářů