Jak LLM modely fungují
Přejít na sekci
Proč potřebujete mentální model
Nemusíte rozumět neuronům a lineární algebře. Ale základní představa o tom, jak LLM modely fungují, vám pomůže psát výrazně lepší prompty. Je to jako s autem — nemusíte být mechanik, ale pomůže vědět, že benzín patří do nádrže a ne do ostřikovačů.
Většina chyb v promptování pramení z mylných představ o tom, co AI je a jak funguje. Lidé čekají, že AI 'pochopí' jejich záměr, 'si zapamatuje' předchozí konverzace, nebo 'ví' aktuální informace. Když pochopíte realitu, přestanete dělat tyto chyby a vaše prompty se dramaticky zlepší.
LLM = nejpokročilejší automat na dokončování textu
Velké jazykové modely (Large Language Models) fungují na jednom základním principu: předpovídají další slovo. Přesněji další token. Celá ta 'magie' je sofistikovaná predikce: na základě toho, co jste napsali, model odhaduje, co by mělo následovat. Neplánuje dopředu, nemá skrytý záměr — generuje text token po tokenu.
To neznamená, že výstupy jsou jednoduché. Moderní modely mají stovky miliard parametrů a byly trénovány na bilionech tokenů textu. Výsledkem je systém, který produkuje překvapivě koherentní, užitečné a často geniální odpovědi — ale stále na základě predikce, ne porozumění.
Praktický důsledek: AI negeneruje celou odpověď najednou a pak ji zobrazí. Doslova skládá větu slovo po slovu. Proto se občas 'zamotá' — předchozí slova ji nasměrují špatně a nemůže se vrátit. Proto také pomáhá chain-of-thought (lekce 3) — nutí model generovat mezikroky, které nasměrují predikci správným směrem.
Tokeny: jak AI čte váš text
Token není slovo. Je to kousek textu — může to být celé slovo, část slova, nebo třeba jen písmeno. Anglické 'hello' je jeden token. České 'přepočítávat' může být tři nebo čtyři tokeny. Čísla se tokenizují po jednotlivých číslicích. Proč na tom záleží? Protože limity AI se měří v tokenech, ne ve slovech — a čeština je 'dražší' než angličtina.
Moderní modely mají kontextové okno — celkový počet tokenů, se kterými můžou pracovat najednou. To zahrnuje váš prompt I odpověď AI. GPT-4o má 128K tokenů, Claude Sonnet má 200K tokenů, nejnovější modely zvládnou i milion. Když překročíte limit, model 'zapomene' začátek konverzace — informace na začátku se ztratí.
Praktický odhad: 1 token je přibližně 0.75 anglického slova nebo 0.5 českého slova. Takže 200K tokenů je asi 150K anglických slov nebo 100K českých slov. Pro představu: celá kniha Harryho Pottera (Kámen mudrců) má asi 77K anglických slov — vejde se do kontextového okna.
Temperature a top-p: proč AI odpovídá pokaždé jinak
Všimli jste si, že stejný prompt dává pokaždé trochu jinou odpověď? To není chyba — je to záměr. Parameter 'temperature' řídí míru náhodnosti. Nízká teplota (0-0.3) = konzistentnější, předvídatelnější odpovědi — ideální pro faktické úlohy, kód, analýzu. Vysoká teplota (0.7-1.0) = kreativnější, rozmanitější odpovědi — ideální pro brainstorming, kreativní psaní, generování nápadů.
Většina chatbotů vám nedovolí měnit temperature přímo. Ale můžete ji ovlivnit promptem. 'Odpověz přesně a fakticky, drž se pouze ověřitelných informací' tlačí model k nižší teplotě. 'Buď kreativní, překvap mě, zkus neobvyklé přístupy' naopak k vyšší.
Pozornostní mechanismus: ne všechny tokeny jsou si rovny
LLM modely používají mechanismus zvaný 'attention' (pozornost). Při generování každého tokenu model 'zvažuje' všechny předchozí tokeny — ale ne stejnou měrou. Některým věnuje více pozornosti než jiným. Prakticky to znamená: instrukce na začátku a na konci promptu mají typicky větší vliv než ty uprostřed. Tomuto se říká 'lost in the middle' efekt.
Častý mýtus: 'AI rozumí, co chci.' Nerozumí. AI predikuje statisticky nejpravděpodobnější pokračování vašeho textu. Čím přesněji formulujete, tím lepší predikci dostanete — ne proto, že by vás AI 'pochopila', ale proto, že jste zúžili prostor možných odpovědí.
Co z toho plyne pro promptování
Znalost, jak model funguje, přímo ovlivňuje strategii promptování. Když víte, že model předpovídá další token, pochopíte, proč pomáhá jasná struktura — navádí predikci správným směrem. Když víte, že model nemá paměť mezi konverzacemi, přestanete čekat, že si 'pamatuje' minulý chat. Když víte o 'lost in the middle' efektu, dáte klíčové instrukce na začátek a konec promptu.
Tři pravidla, která z toho vyplývají
Za prvé: buďte explicitní, ne implicitní. Model neuhádne, co máte v hlavě — vychází jen z toho, co napíšete. Za druhé: pořadí informací matters. Model zpracovává text zleva doprava, token po tokenu. Důležité instrukce dejte na začátek. Za třetí: když odpověď není dobrá, problém je skoro vždy v promptu, ne v modelu. Přeformulujte místo toho, abyste se zlobili.
Zadejte AI dvě verze stejného požadavku: Verze A: 'Napiš mi něco o produktivitě.' Verze B: 'Jsem manažer malého týmu (5 lidí), který pracuje remote. Napiš mi 5 konkrétních tipů, jak zlepšit týmovou produktivitu. Každý tip naformátuj jako: název tipu tučně, 2 věty vysvětlení, 1 konkrétní příklad implementace.' Porovnejte výsledky. Všimněte si, jak struktura promptu přímo ovlivňuje strukturu odpovědi — protože model generuje tokeny tak, aby odpovídaly vzoru, který jste mu dali.
Nápověda
Verze B by měla dát výrazně strukturovanější a použitelnější odpověď. Klíčové je, že jste modelu dali formát výstupu — to funguje jako 'šablona', kterou model sleduje token po tokenu.
Zadejte AI stejnou úlohu, ale s klíčovou instrukcí na různém místě: Verze A: 'Napiš 5 tipů na úsporu energie v domácnosti. Odpovídej jako energetický konzultant. Každý tip max 2 věty. Formát: číslovaný seznam.' Verze B: 'Každý tip max 2 věty. Napiš 5 tipů na úsporu energie v domácnosti. Formát: číslovaný seznam. Odpovídej jako energetický konzultant.' Porovnejte: dodrželo AI limit 2 vět u obou verzí? Která verze lépe dodržuje všechny instrukce?
Nápověda
Instrukce na začátku a konci promptu mají typicky větší vliv. Pokud je pro vás nejdůležitější délka odpovědi, dejte tento limit na začátek.
Začněte konverzaci s AI a postupně ji prodlužujte. V první zprávě řekněte AI konkrétní fakt: 'Moje oblíbené číslo je 42 a jmenuji se Albatros.' Pak veďte konverzaci na libovolné téma (10+ zpráv). Na konci se zeptejte: 'Jaké je moje oblíbené číslo? Jak se jmenuji?' Dokáže si AI vzpomenout? Zkuste totéž s delší konverzací. V jakém bodě AI začne zapomínat?
Nápověda
Toto cvičení ukazuje, jak funguje kontextové okno v praxi. U krátkých konverzací si AI pamatuje vše. U dlouhých (stovky zpráv) může začít zapomínat informace ze začátku — obzvlášť u menších modelů.
Prompt Engineering — kompletní kurz
- LLM modely předpovídají další token — neplánují, nerozumí, predikují
- Tokeny nejsou slova — čeština je 'dražší' než angličtina (cca 2x více tokenů)
- Kontextové okno je omezené — zahrnuje prompt i odpověď dohromady
- Temperature ovlivňuje kreativitu vs. konzistenci — můžete ji ovlivnit formulací promptu
- Pořadí matters: klíčové instrukce dejte na začátek a konec promptu
- Explicitní, strukturovaný prompt = lepší predikce = lepší odpověď