|

Гиганты ИИ делают ставку на синтетические данные для обучения моделей

Гиганты ИИ делают ставку на синтетические данные для обучения моделей

В погоне за созданием все более мощных систем искусственного интеллекта, технологические гиганты сталкиваются с острой потребностью в огромных объемах высококачественных данных. Однако количество доступной в интернете информации ограничено, что вынуждает компании искать альтернативные пути.

Microsoft, Google, Meta * и другие лидеры индустрии ИИ все чаще обращаются к синтетическим, или «фейковым» данным. Эта технология позволяет генерировать реалистичный контент с помощью уже обученных моделей, создавая своеобразный «бесконечный двигатель генерации данных». Такой подход помогает обойти юридические, этические и конфиденциальные аспекты, связанные со сбором реальной информации.

Идея синтетических данных не нова, но прогресс в сфере генеративного ИИ вывел ее на новый уровень. Anthropic использовала этот метод для обучения модели, лежащей в основе чат-бота Claude. Meta, Google и DeepMind также применяли синтетические данные в своих проектах.

«Внезапно у вас появляется гораздо больше контроля, — отмечает Себастьян Бубек из Microsoft. — Вы можете решать на гораздо более детальном уровне, чему именно должна учиться ваша модель».

Однако некоторые эксперты предупреждают о рисках такого подхода. Исследователи из Оксфорда и Кембриджа обнаружили, что модели, обученные на синтетических данных, могут демонстрировать «необратимые дефекты» и усиливать предвзятость. Есть и философский вопрос: не приведет ли бесконечный цикл обучения ИИ на собственном контенте к тому, что машины будут имитировать язык других машин, а не человеческий интеллект?

Приверженцы синтетических данных уверены, что при должном подходе модели, созданные таким образом, могут быть не менее точными и полезными. Но ясно одно: полностью исключить человека из этого процесса невозможно.

«Синтетические данные — это не кнопка «сделать данные», — подчеркивает Бубек. — Это очень сложный процесс, требующий большого объема человеческого труда».

bloomberg.com

Похожие записи