Qwen1.5-110B: мощная многоязычная LLM с потенциалом

Гонка гигантских языковых моделей (LLM) продолжает набирать обороты. И хотя Meta недавно установила высокую планку с моделью Llama3-70B, команда Qwen не остается в стороне. Их новый релиз Qwen1.5-110B ¹, первый в серии с более чем 100 миллиардами параметров, демонстрирует впечатляющие результаты как в стандартных бенчмарках, так и в чат-тестах.

Qwen1.5-110B: Ключевые Особенности

Новая модель Qwen1.5-110B построена на той же архитектуре Transformer decoder, что и предыдущие версии серии Qwen1.5. Среди ее основных особенностей:

Grouped Query Attention (GQA), позволяющий эффективно использовать модель
Поддержка контекста длиной до 32 000 токенов
Многоязычность — работа с широким спектром языков, включая английский, китайский, французский, испанский, немецкий, русский, корейский, японский, вьетнамский, арабский и др.

Возросшее Качество Модели

Qwen провели серию тестов, сравнивая Qwen1.5-110B с ведущими LLM моделями — Meta Llama3-70B и Mixtral-8x22B. Результаты говорят сами за себя:

Тест	Qwen1.5-110B	Qwen1.5-72B	Llama-3-70B	Mixtral-8x22B
MMLU	80.4	77.5	79.5	77.8
TheoremQA	34.9	29.3	32.0	35.9
GPQA	35.9	36.3	36.4	34.3
Hellaswag	87.5	86.0	88.0	88.7
BBH	74.8	65.5	76.6	69.2
ARC-C	69.6	65.9	68.8	70.7
GSM8K	85.4	79.5	79.2	78.6
MATH	49.6	34.1	41.0	41.7
HumanEval	52.4	41.5	45.7	45.1
MBPP	58.1	53.4	55.1	71.2

Новая 110B модель как минимум не уступает Llama-3-70B по базовым возможностям. При этом в Qwen не сильно меняли процесс пре- и пост-обучения, что говорит о ключевой роли увеличения размера модели.

Также Qwen1.5-110B продемонстрировала превосходные результаты в чат-тестах MT-Bench и AlpacaEval 2.0:

Модель	MT-Bench Avg. Score	AlpacaEval 2.0 Win Rate
Llama-3-70B-Instruct	8.85	34.40
Qwen1.5-72B-Chat	8.61	36.60
Qwen1.5-110B-Chat	8.88	43.90

Перспективы Развития и Интеграции

При работе с Qwen1.5-110B рекомендуется использовать инструменты и фреймворки из экосистемы Qwen1.5:

Transformers
vLLM
llama.cpp
Ollama
LMStudio
SkyPilot
Axolotl
LLaMA-Factory

Это позволит раскрыть потенциал модели и эффективно интегрировать ее в различные приложения от чат-ботов до поисковых систем и виртуальных ассистентов.

Выводы и Дальнейшие Планы

Qwen1.5-110B, самая крупная модель серии Qwen1.5 на сегодня, показала, что дальнейшее увеличение числа параметров все еще дает значимый прирост качества. При этом успех конкурентов демонстрирует и важность масштабирования данных для обучения.

Команда Qwen верит, что сочетание роста размерности моделей и объемов данных позволит добиться впечатляющих результатов в следующих релизах. С нетерпением ждем анонса серии Qwen2!

А пока рекомендуем разработчикам и исследователям присмотреться к Qwen1.5-110B. С ее мощью и многоязычностью открываются широкие перспективы для создания продвинутых NLP приложений и интеллектуальных систем нового поколения. Не упустите возможность оседлать эту волну!

*Деятельность Meta Platforms Inc. и принадлежащих ей социальных сетей Facebook и Instagram запрещена на территории РФ.