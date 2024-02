Když se před rokem naplno rozjela mánie okolo AI chatbotů, mnozí prorokovali, že je pouze otázkou času, než převálcují klasické vyhledávače.

Tuto víru nicméně později nahlodalo zjištění, že si velké jazykové modely často vymýšlejí. A že si vymýšlejí tak dobře a přesvědčivě – ostatně, je to jejich práce –, že jim ty lži zbaštíme i s navijákem.

AI s ručením omezeným

Krátce to tehdy pocítil i Google, který zkraje loňského února představil svého Barda (dnes Gemini). V ukázce ale Bard odpověděl špatně, čehož si až později všimli novináři, pořádně to rozmázli a Alphabet se kvůli tomuto reputačnímu faux pas dočasně propadl na burze.



Podstata AI je založená na počítání pravděpodobnosti – není to kalkulačka. Všichni operátoři se proto v patičce zbavují odpovědnosti

Nedílnou součástí všech AI chatbotů je proto i patnáct měsíců po startu ChatGPT hláška, že mohou chybovat a že se tím pádem jejich provozovatelé fakticky zbavují veškeré odpovědnosti.

Klasické vyhledávače toto řešit nemusejí, jsou to totiž jen hloupé telefonní seznamy, které finální volbu nechávají čistě na nás.

Gartner: Vyhledávače do roku 2026 ztratí 25 %

Analytici ale i tak věští generativní umělé inteligenci skvělou budoucnost – čerstvě se přidal i Gartner, který je ve své předpovědi dokonce nebývale odvážný.

Podle jeho analýzy už v roce 2026 klesne kvůli AI aktivita současných internetových vyhledávačů o celých 25 procent. Ještě jednou a slovy: O celou čtvrtinu a už v horizontu dvou let.



AI chatbot dokáže klasický vyhledávač zastoupit třeba v úlohách, kdy přesně nevíme, na co se ptáme, a tak nemůže zvolit to správné klíčové slovo

Kdybychom se takovým číslům byť jen přiblížili, byl by to ohromný problém zejména pro Google, který je dodnes živ v prvé řadě z reklamy ve svém klasickém vyhledávači a je otázkou, jestli by mohl stejně úspěšně obalit reklamou i výsledky v Gemini, kde je mnohem silnější konkurence.

A je to opravdu výhra?

Dlouho do noci by se ovšem nesvítilo pouze v zasedačkách Mountain View. Kdyby chatboti začali skutečně nahrazovat současné internetové vyhledávače, bude to obrovský otazník pro celý webový ekosystém.



Pokud by se klasické vyhledávače propadly třeba v této kategorii dotazů, znamená to, že se propadne i návštěvnost webů, které k těmto dotazům indexují

Pokud by totiž o celou čtvrtinu klesla návštěvnost třeba zrovna Googlu, neznamená to nic jiného, než že se musí analogicky propadnout i počet prokliků na cílové weby a jejich vlastní návštěvnost. Proč by na ně kdokoliv chodil pro odpověď, když tu syntetizovanou a finální nabídne rovnou ChatGPT, Gemini, Copilot a další, kteří teprve přijdou.

Regulace AI má zajistit, aby chatboti nekradli

I proto bude pro nadcházející roky důležitá plošná regulace AI. Tu evropskou jedni považují za brzdu rozvoje a druzí naopak za geniální předlohu pro ostatní. Ať už stojíte na jakékoliv straně barikády, faktem zůstává, že potřebujeme přinejmenším nějakou autoritu, která zajistí, aby umělá inteligence nekradla.

Tvůrci obsahu zejména z Evropy dlouhé roky kritizovali Google za to, že právě na zprostředkovávání jejich obsahu vydělává miliardy a málo vrací zpět. Firma z Mountain View se naopak bránila slovy, že samotnou dohledatelností webových stránek vyrábí jejich dosah a návštěvnost.

Komunita si v tomto sporu mohla vybrat stranu, ale ten byl jinak vcelku jasný a transparentní, protože si každý mohl ověřit, jestli na Googlu je, či není. A jestli proti tomu chce bojovat – respektive jestli za to chce od internetové jedničky nějaké to euro.

Jak ale zjistit, jestli AI opravdu krade?

V případě velkých jazykových modelů nevíme zhola nic. Za poslední rok a čtvrt se sice objevilo několik autorskoprávních sporů na základě toho, že autor v odpovědi AI chatbota údajně rozpoznal svoje vlastní slova, nicméně pokud se nebude jednat o jasně doložitelné plagiáty celých knižních pasáží, těžko tuto domněnku někdy vyřeší jakýkoliv soud.

„To je můj kód,“ píše profesor Tim Davis z Texas A&M University:

Jak například doložit, že se bude nějaký chatbot zítřka při neustálém učení inspirovat třeba závěry recenze na nová sluchátka z webu XYZ, kterou tím pádem nebudete muset vůbec číst?

Poctivé zdrojování by bylo astronomické

Právě proto se v prvních návrzích regulace AI nejen z Evropy objevují požadavky na to, aby součástí každého takového jazykového modelu byla strojově zpracovatelná informace, na jakých konkrétních datech se učil a zdali k tomu měl patřičnou licenci.

Otazníkem ovšem zůstává, zdali je to vůbec technicky proveditelné a jestli by podobná metadata nebyla rozměrnější než AI samotná. Otázkou také je, kdo a jak by je dokázal při takovém objemu vůbec auditovat a nalézat případné pirátské sdílení. Vždyť i automatičtí boti, kteří už dnes hledají pirátský obsah v indexu Googlu, trpí relativně vysokou chybovostí.

Mohl by pomoci robots.txt, nebo je to chiméra?

Ze stejného důvodu je jen velmi těžko prokazatelné, zdali by fungovala už dnes hojně rozšířená technika robots.txt. Tedy soubor textových pravidel (fakticky vzato ale jen doporučení), které jsou k dispozici v kořenovém adresáři každého druhého webu, no a které dávají najevo indexovacím robotům, jestli na tomto webu smějí, či nesmějí sbírat informace.



Obsah robots.txt pro web Poslanecké sněmovny

I zde totiž platí, že jestli robot Googlu, Bingu, Seznamu a dalších náš web navštívil a i přes zákaz indexoval, ověříme prostým dotazem do vyhledávače. Ale jak to chcete zkontrolovat ve velkém jazykovém modelu, který se v tomto směru chová vlastně docela podobně jako člověk?

Jak chcete dokázat, že si Vašek Pádlo z Chrudimi nastudoval problematiku rozmnožování špačků právě na vašem ornitologickém webu a ne na některém z těch desítek a stovek dalších?

AI (zatím) potřebuje lidi, kteří tvoří informace

Až Vaška jednou nahradí chatbot, který vám vykrade web, aniž byste to mohli spolehlivě prokázat, možná vás to demotivuje a s dalším psaním skončíte. Jenže to se dostáváme do bludného kruhu. Kde se pak bude AI učit, co je nového ve světě špačků?



Web crawler analyzuje stránku o špačcích pro potřeby LLM

Stejně jako v případě vyhledávačů a sporů, jestli to nejsou jen černí pasažéři, se tedy i v této kauze jedná o spojené nádoby. AI se (zatím) učí na datech, která vyrobil člověk, takže provozovatelé AI potřebují, aby byl člověk motivovaný tato data dále vytvářet.

A právě člověk bude podle Gartneru nakonec i záchranou pro vyhledávače. Homo sapiens je totiž drahý a pomalý, takže brzy začneme velké jazykové modely používat i k syntéze obsahu, který doposud vytvářel on sám.

Vyhledávače budou třídit podle skutečné kvality

Už se to vlastně děje a web časem zaplaví hromada umělého a levně vyrobeného obsahu – do jisté míry další formy spamu a vaty –, která bude precizně připravená pro dnešní skórovací metriky. PageRank, chcete-li.

To podle Gartneru přinutí vyhledávače k dramatické proměně jejich algoritmů, které se budou ještě více soustředit na kvalitu, čímž se (v ideálním případě a po určitou dobu) odliší od AI.



Role člověkem tvořené Wikipedie ještě zesílí, bude totiž dost možná majákem v moři syntetizovaného znalostního obsahu

Už bude zcela irelevantní, v jakém množství se na kýžené stránce nachází hledané klíčové slovo, ale jestli je stránka obsahově opravdu kvalitní a věrohodná – jestli o špačcích psal ornitolog s hromadou nenahraditelných životních zkušeností, anebo ten nejpitomější chatbot, který jen nabifloval základní encyklopedickou omáčku z Wikipedie.

To vše jsou ale jen vize a předpovědi. Jak se současný web a vyhledávače pod tlakem AI skutečně promění – řekněme do roku 2030 – dnes netuší naprosto nikdo.