Как на самом деле работают LLM
Перейти к разделу
Зачем нужна ментальная модель
Вам не нужно разбираться в нейронах и линейной алгебре. Но базовое понимание того, как работают LLM, поможет писать значительно лучшие промпты. Это как с вождением автомобиля — не обязательно быть механиком, но полезно знать, что топливо заливается в бак, а не в бачок стеклоомывателя.
Большинство ошибок в промптинге вытекают из неверных представлений о том, что такое ИИ и как он работает. Люди ожидают, что ИИ «поймёт» их намерение, «запомнит» предыдущие разговоры или «знает» актуальную информацию. Когда понимаешь реальность, перестаёшь совершать эти ошибки, и промпты резко улучшаются.
LLM = самое продвинутое автодополнение в мире
Большие языковые модели работают по одному фундаментальному принципу: они предсказывают следующее слово. Точнее — следующий токен. Вся «магия» — это сложная система предсказаний: на основе того, что вы написали, модель оценивает, что должно быть дальше. Она не планирует заранее, у неё нет скрытых мотивов — она генерирует текст токен за токеном.
Это не значит, что результаты простые. Современные модели имеют сотни миллиардов параметров и обучались на триллионах токенов текста. Результат — система, которая выдаёт удивительно связные, полезные и нередко блестящие ответы, но всё равно на основе предсказания, а не понимания.
Практическое следствие: ИИ не генерирует весь ответ сразу, а потом показывает его. Он буквально строит предложение слово за словом. Именно поэтому он иногда «запутывается» — предыдущие слова ведут его в неверном направлении, и вернуться он не может. Именно поэтому помогает цепочка рассуждений (урок 3) — она заставляет модель генерировать промежуточные шаги, которые направляют предсказание в правильную сторону.
Токены: как ИИ читает ваш текст
Токен — это не слово. Это фрагмент текста: целое слово, часть слова или даже просто символ. Английское «hello» — один токен. Слово «unbelievable» может быть двумя-тремя токенами. Числа токенизируются поцифрово. Почему это важно? Потому что лимиты ИИ измеряются в токенах, а не в словах — и некоторые языки «дороже» других с точки зрения токенов на слово.
Современные модели имеют контекстное окно — общее количество токенов, с которыми они могут работать одновременно. В него входят и ваш промпт, и ответ ИИ. У GPT-4o — 128K токенов, у Claude Sonnet — 200K, последние модели обрабатывают миллион и более. При превышении лимита модель «забывает» начало разговора — информация из начала теряется.
Практическая оценка: 1 токен — примерно 0,75 английского слова. Значит, 200K токенов — около 150K английских слов. Для сравнения: вся книга «Гарри Поттер и философский камень» содержит около 77K английских слов — она вмещается в контекстное окно.
Температура и top-p: почему ИИ каждый раз отвечает по-разному
Замечали, что один и тот же промпт каждый раз даёт немного другой ответ? Это не баг — это замысел. Параметр «температура» управляет случайностью. Низкая температура (0–0,3) = более стабильные, предсказуемые ответы — идеально для фактических задач, кода, анализа. Высокая температура (0,7–1,0) = более творческие, разнообразные ответы — идеально для брейнсторминга, творческого письма, генерации идей.
Большинство чат-ботов не позволяют напрямую менять температуру. Но вы можете влиять на неё через промпт. Фраза «Отвечай точно и по фактам, опирайся только на проверенную информацию» смещает модель в сторону низкой температуры. «Будь креативным, удиви меня, попробуй нестандартные подходы» — в противоположную.
Механизм внимания: не все токены равны
LLM используют механизм «внимания». При генерации каждого токена модель «взвешивает» все предыдущие токены — но не одинаково. Одним она уделяет больше внимания, другим меньше. На практике это означает: инструкции в начале и в конце промпта, как правило, оказывают большее влияние, чем те, что находятся в середине. Это называется эффектом «потерянного в середине».
Распространённый миф: «ИИ понимает, чего я хочу». Нет. ИИ предсказывает статистически наиболее вероятное продолжение вашего текста. Чем точнее вы формулируете, тем лучше предсказание — не потому что ИИ «понял» вас, а потому что вы сузили пространство возможных ответов.
Что это значит для промптинга
Понимание того, как работает модель, напрямую влияет на вашу стратегию промптинга. Зная, что модель предсказывает следующий токен, понимаешь, почему помогает чёткая структура — она направляет предсказание в нужную сторону. Зная, что у модели нет памяти между разговорами, перестаёшь ожидать, что она «вспомнит» чат прошлой недели. Зная об эффекте «потерянного в середине», размещаешь ключевые инструкции в начале и конце промпта.
Три правила, которые из этого следуют
Первое: будьте явными, а не неявными. Модель не будет угадывать, что у вас в голове — она работает только с тем, что вы написали. Второе: порядок важен. Модель обрабатывает текст слева направо, токен за токеном. Ставьте важные инструкции на первое место. Третье: если ответ плохой, проблема почти всегда в промпте, а не в модели. Переформулируйте вместо того, чтобы раздражаться.
Дайте ИИ два варианта одного и того же запроса: Вариант А: «Напиши мне что-нибудь о продуктивности.» Вариант Б: «Я менеджер небольшой удалённой команды (5 человек). Напиши 5 конкретных советов по улучшению командной продуктивности. Оформи каждый совет так: название совета жирным шрифтом, 2 предложения объяснения, 1 конкретный пример применения.» Сравните результаты. Обратите внимание, как структура вашего промпта напрямую влияет на структуру ответа — потому что модель генерирует токены, повторяя заданный вами шаблон.
Подсказка
Вариант Б должен дать значительно более структурированный и полезный ответ. Ключ в том, что вы дали модели формат вывода — он работает как «шаблон», которому модель следует токен за токеном.
Дайте ИИ одно и то же задание, но с ключевой инструкцией в разных позициях: Вариант А: «Напиши 5 советов по экономии энергии в доме. Отвечай как энергетический консультант. Каждый совет максимум 2 предложения. Формат: нумерованный список.» Вариант Б: «Каждый совет максимум 2 предложения. Напиши 5 советов по экономии энергии в доме. Формат: нумерованный список. Отвечай как энергетический консультант.» Сравните: соблюдал ли ИИ лимит в 2 предложения в обоих вариантах? Какой вариант лучше следует всем инструкциям?
Подсказка
Инструкции в начале и конце промпта, как правило, оказывают большее влияние. Если ограничение по длине ответа — ваш главный приоритет, поставьте это ограничение на первое место.
Начните разговор с ИИ и постепенно его удлиняйте. В первом сообщении сообщите ИИ конкретный факт: «Моё любимое число — 42, а моё имя — Альбатрос.» Затем поговорите на любую тему (10+ сообщений). В конце спросите: «Какое моё любимое число? Как меня зовут?» Помнит ли ИИ? Попробуйте то же самое с более длинным разговором. В какой момент ИИ начинает забывать?
Подсказка
Это упражнение показывает, как работает контекстное окно на практике. В коротких разговорах ИИ помнит всё. В длинных (сотни сообщений) он может начать забывать информацию из начала — особенно на небольших моделях.
Prompt Engineering — полный курс
- LLM предсказывают следующий токен — они не планируют, не понимают, они предсказывают
- Токены — не слова: некоторые языки «дороже» других (примерно в 2 раза больше токенов)
- Контекстное окно ограничено — в него входят и промпт, и ответ вместе
- Температура влияет на творчество vs. стабильность — вы можете влиять на неё формулировкой промпта
- Порядок важен: ставьте ключевые инструкции в начало и конец промпта
- Явный, структурированный промпт = лучшее предсказание = лучший ответ