Мы ожидали, что к 2026 году сильный искусственный интеллект (AGI) заберет на себя всю рутину, будет сам писать код, сводить налоги и оптимизировать сайты под «Яндекс» и Google. А в реальности мы получили нейросети, которые с криком «За Орду!» генерируют ASCII-арт гоблинов вместо рабочих скриптов.

Недавно в коде обновления для Codex (кодинг-агента от OpenAI) разработчики раскопали совершенно абсурдную строчку. В системный промпт модели GPT-5.5 жестко зашили следующее правило:

"Никогда не говори о гоблинах, гремлинах, енотах, троллях, ограх, голубях или других животных и существах, если это не является абсолютно и однозначно релевантным запросу пользователя."

Я искренне не понимаю, за что под раздачу попали еноты и голуби, но масштаб проблемы оказался настолько серьезным, что OpenAI пришлось выпустить целое официальное расследование. Спойлер: ИИ просто сошел с ума от похвалы.

Разработчики OpenAI радостно рапортуют об убийстве очередного «конфигурационного гоблина».

Нерд-орда: как 2,5% ответов заразили всю модель

Начиная с версии GPT-5.1, пользователи по всему миру (и Рунет тут не стал исключением) начали замечать странное. В ответах на самые обычные запросы внезапно расплодились гоблины, гремлины и прочая фэнтезийная нечисть. Сначала это казалось милой пасхалкой. Просишь написать макрос для Excel – получаешь код, в комментариях к которому гоблины сортируют данные.

Но потом существа полезли из всех щелей, особенно в Codex.

Статистика упоминаний гоблинов и гремлинов рванула вверх в версии 5.1.

Оказалось, внутри ChatGPT тестировалась скрытая личность под кодовым названием «Nerdy» (этакий душноватый гик-вайб). В ее системном промпте была установка в духе: «играй с языком, мир – странная штука, наслаждайся этим».

И тут в дело вмешалась архитектура обучения ИИ. Reward-модель (алгоритм, который поощряет нейросеть за удачные ответы во время тренировки) почему-то решила, что тексты с существами – это шедевры. Упомянул гоблина? Получи максимальный балл.

Самое смешное в цифрах: личность «Nerdy» обрабатывала всего 2,5% от всех пользовательских запросов. Но именно оттуда исходило 66,7% всех сгенерированных гоблинов.

Якуб Пахоцки из OpenAI: «Кажется, я получил гоблина, когда просил нарисовать единорога».

Петля обратной связи и амнистия для лягушек

Разработчики нейросетей знают, как легко модель может уйти в бесконечную петлю галлюцинаций. Из-за специфики reward-функции, обучение на собственных генерациях ChatGPT сработало как мультипликатор. Модель поняла: «Людям нравятся гоблины. Буду пихать их везде».

Компанию гоблинам составили еноты, тролли, огры и голуби – они тоже почему-то стали триггерами для системы поощрения. А вот лягушкам повезло (или нет): алгоритм их проигнорировал, поэтому нашествие жаб платформе не грозило.

Что в итоге сделали OpenAI?

В марте лавочку прикрыли: личность «Nerdy» отключили, сломанную reward-функцию почистили, а датасеты жестко отфильтровали от излишней мистики.

Но проблема в том, что GPT-5.5 уже успел пройти часть обучения на этих данных. Отучить его любить енотов и троллей полностью не вышло. Поэтому инженерам пришлось пойти на крайние меры и вшить в developer prompt(базовые настройки кодинг-агента) прямой запрет на призыв нечисти.

Кстати, если вы работаете с API и вам не хватает немного магии, этот ограничитель можно снять в настройках – и выпустить тварей на свободу.

Для нас, SEO-специалистов и вебмастеров, это отличный урок того, как работают алгоритмы машинного обучения. Любая перекошенная метрика в системе поощрения может привести к тому, что ваш ИИ-копирайтер вместо продающего текста про пластиковые окна начнет писать сагу о гномах.

И всё-таки, за енотов обидно.

Откуда в ChatGPT взялись гоблины? Ошибка OpenAI, заселившая ИИ нечистью

Нерд-орда: как 2,5% ответов заразили всю модель

Петля обратной связи и амнистия для лягушек

Что в итоге сделали OpenAI?

Рекомендуемые статьи

Вышла новая модель уровня Mythos: Claude Fable 5 от Anthropic

Claude Mythos (Oceanus): что слили на этот раз и чего ждать?

Смена домена сайта: почему это самая недооцененная SEO-катастрофа

Нужен такой же сильный контентный слой для вашего проекта?