
Мы ожидали, что к 2026 году сильный искусственный интеллект (AGI) заберет на себя всю рутину, будет сам писать код, сводить налоги и оптимизировать сайты под «Яндекс» и Google. А в реальности мы получили нейросети, которые с криком «За Орду!» генерируют ASCII-арт гоблинов вместо рабочих скриптов.
Недавно в коде обновления для Codex (кодинг-агента от OpenAI) разработчики раскопали совершенно абсурдную строчку. В системный промпт модели GPT-5.5 жестко зашили следующее правило:
"Никогда не говори о гоблинах, гремлинах, енотах, троллях, ограх, голубях или других животных и существах, если это не является абсолютно и однозначно релевантным запросу пользователя."
Я искренне не понимаю, за что под раздачу попали еноты и голуби, но масштаб проблемы оказался настолько серьезным, что OpenAI пришлось выпустить целое официальное расследование. Спойлер: ИИ просто сошел с ума от похвалы.

Нерд-орда: как 2,5% ответов заразили всю модель
Начиная с версии GPT-5.1, пользователи по всему миру (и Рунет тут не стал исключением) начали замечать странное. В ответах на самые обычные запросы внезапно расплодились гоблины, гремлины и прочая фэнтезийная нечисть. Сначала это казалось милой пасхалкой. Просишь написать макрос для Excel – получаешь код, в комментариях к которому гоблины сортируют данные.
Но потом существа полезли из всех щелей, особенно в Codex.

Оказалось, внутри ChatGPT тестировалась скрытая личность под кодовым названием «Nerdy» (этакий душноватый гик-вайб). В ее системном промпте была установка в духе: «играй с языком, мир – странная штука, наслаждайся этим».
И тут в дело вмешалась архитектура обучения ИИ. Reward-модель (алгоритм, который поощряет нейросеть за удачные ответы во время тренировки) почему-то решила, что тексты с существами – это шедевры. Упомянул гоблина? Получи максимальный балл.
Самое смешное в цифрах: личность «Nerdy» обрабатывала всего 2,5% от всех пользовательских запросов. Но именно оттуда исходило 66,7% всех сгенерированных гоблинов.

Петля обратной связи и амнистия для лягушек
Разработчики нейросетей знают, как легко модель может уйти в бесконечную петлю галлюцинаций. Из-за специфики reward-функции, обучение на собственных генерациях ChatGPT сработало как мультипликатор. Модель поняла: «Людям нравятся гоблины. Буду пихать их везде».
Компанию гоблинам составили еноты, тролли, огры и голуби – они тоже почему-то стали триггерами для системы поощрения. А вот лягушкам повезло (или нет): алгоритм их проигнорировал, поэтому нашествие жаб платформе не грозило.
Что в итоге сделали OpenAI?
В марте лавочку прикрыли: личность «Nerdy» отключили, сломанную reward-функцию почистили, а датасеты жестко отфильтровали от излишней мистики.
Но проблема в том, что GPT-5.5 уже успел пройти часть обучения на этих данных. Отучить его любить енотов и троллей полностью не вышло. Поэтому инженерам пришлось пойти на крайние меры и вшить в developer prompt(базовые настройки кодинг-агента) прямой запрет на призыв нечисти.
Кстати, если вы работаете с API и вам не хватает немного магии, этот ограничитель можно снять в настройках – и выпустить тварей на свободу.
Для нас, SEO-специалистов и вебмастеров, это отличный урок того, как работают алгоритмы машинного обучения. Любая перекошенная метрика в системе поощрения может привести к тому, что ваш ИИ-копирайтер вместо продающего текста про пластиковые окна начнет писать сагу о гномах.
И всё-таки, за енотов обидно.


