Как обнаружить сгенерированный ИИ текст: мнение исследователей

Сгенерированный искусственным интеллектом (ИИ) текст, например с помощью ChatGPT, начинает встречаться всё чаще в повседневной жизни. С тем, как модели генеративного ИИ становятся публично доступны, вероятность столкнуться с синтетическим контентом в интернете растёт. Это могут быть как безобидные случаи вроде автоматически сгенерированных викторин, так и более серьёзные, например изощрённые пропагандистские кампании.

Исследователи ищут способы определить, был ли текст написан программой вроде ChatGPT или человеком. Вот некоторые признаки, указывающие на ИИ-авторство:

Недостаток непредсказуемости

ИИ генераторы по сути являются сложными машинами по имитации паттернов. Они хорошо копируют стиль, но плохо вносят элемент неожиданности. Человеческой речи свойственна определённая доля непредсказуемости и спонтанности, которой пока не хватает ИИ.

Инструменты оценки энтропии

Уже несколько лет существуют алгоритмы, способные имитировать естественную письменную речь. В 2019 Гарвард и Лаборатория ИИ MIT-IBM Watson представили экспериментальный инструмент, сканирующий текст и выделяющий слова на основе их уровня случайности.

Похожий открытый инструмент GPTZero, ориентированный на преподавателей, оценивает вероятность генерации текста ChatGPT на основе двух параметров:

«Непредсказуемость» (perplexity) — мера случайности
«Взрывчатость» (burstiness) — мера вариативности

Сама OpenAI, создавшая ChatGPT, выпустила инструмент для анализа текстов длиннее 1000 символов. Правда, компания признаёт его ограничения, такие как ложные срабатывания и сниженная эффективность на языках кроме английского.

Недостаток фактической точности

Хотя ChatGPT и подобные модели умеют генерировать грамотный и осмысленный текст, они пока уступают человеку в фактической точности. ИИ склонен время от времени «галлюцинировать», выдавая несуществующие факты. Для таких задач как журналистика это может стать серьёзным препятствием.

Ограничения существующих подходов

По мнению Тома Гольдштейна (Tom Goldstein), профессора информатики Университета Мэриленда, по мере развития обработки естественного языка, простые детекторы ИИ-текста могут потерять эффективность. Ведь цель компаний — сделать машинный текст максимально близким к человеческому.

Голдштейн работал над исследованием возможных методов «водяных знаков», встраиваемых прямо в языковые модели. Идея в том, чтобы при генерации исключить определённые паттерны слов. Тогда при анализе текста множественные нарушения этих паттернов будут указывать на человеческое авторство. Метод неидеален, но интересен.

Альтернативные подходы

Митч Массер (Micah Musser), аналитик Центра безопасности и новых технологий Университета Джорджтауна, предлагает другой подход на основе исследований по выявлению сгенерированных ИИ изображений от Meta.

Вместо опоры на изменения модели её создателями, разработчики и издатели могут «отравлять» обучающие данные специально подготовленным контентом. Затем этот «радиоактивный» контент можно искать в выдаче обученной на нём модели.

Впрочем, в случае с текстом это сложнее, чем с изображениями — ведь картинки состоят из массива пикселей, а текст из ограниченного набора слов.

Уникальность человеческого письма

Ной Смит (Noah Smith), профессор Вашингтонского университета и исследователь обработки естественного языка, отмечает, что хотя языковые модели кажутся свободно владеющими языком, им не хватает преднамеренности. Это новое явление — беглость без остального.

В будущем для определения синтетичности медиа понадобятся специальные инструменты. Но совет, как писать не по-машинному, останется прежним — избегайте шаблонов и будьте непредсказуемы. Пока это лучшее отличие человека от ИИ.

Выводы

Обнаружение генерированного искусственным интеллектом текста — развивающаяся область на стыке ИИ и информационной безопасности. Существующие подходы фокусируются на анализе паттернов и случайности, но пока не являются серебряной пулей.

По мере того как языковые модели совершенствуются, экспертам придётся разрабатывать более изощрённые методы различения машинного и человеческого текста. В конечном счёте некоторая непредсказуемость и нешаблонность могут оказаться неотъемлемыми чертами человеческого творчества.

wired.com