Qwen1.5-110B: Первая 100B+ Модель из Серии Qwen1.5 Покоряет Бенчмарки
Гонка гигантских языковых моделей (LLM) продолжает набирать обороты. И хотя Meta недавно установила высокую планку с моделью Llama3-70B, команда Qwen не остается в стороне. Их новый релиз Qwen1.5-110B 1, первый в серии с более чем 100 миллиардами параметров, демонстрирует впечатляющие результаты как в стандартных бенчмарках, так и в чат-тестах.
Qwen1.5-110B: Ключевые Особенности
Новая модель Qwen1.5-110B построена на той же архитектуре Transformer decoder, что и предыдущие версии серии Qwen1.5. Среди ее основных особенностей:
- Grouped Query Attention (GQA), позволяющий эффективно использовать модель
- Поддержка контекста длиной до 32 000 токенов
- Многоязычность — работа с широким спектром языков, включая английский, китайский, французский, испанский, немецкий, русский, корейский, японский, вьетнамский, арабский и др.
Возросшее Качество Модели
Qwen провели серию тестов, сравнивая Qwen1.5-110B с ведущими LLM моделями — Meta Llama3-70B и Mixtral-8x22B. Результаты говорят сами за себя:
Тест | Qwen1.5-110B | Qwen1.5-72B | Llama-3-70B | Mixtral-8x22B |
---|---|---|---|---|
MMLU | 80.4 | 77.5 | 79.5 | 77.8 |
TheoremQA | 34.9 | 29.3 | 32.0 | 35.9 |
GPQA | 35.9 | 36.3 | 36.4 | 34.3 |
Hellaswag | 87.5 | 86.0 | 88.0 | 88.7 |
BBH | 74.8 | 65.5 | 76.6 | 69.2 |
ARC-C | 69.6 | 65.9 | 68.8 | 70.7 |
GSM8K | 85.4 | 79.5 | 79.2 | 78.6 |
MATH | 49.6 | 34.1 | 41.0 | 41.7 |
HumanEval | 52.4 | 41.5 | 45.7 | 45.1 |
MBPP | 58.1 | 53.4 | 55.1 | 71.2 |
Новая 110B модель как минимум не уступает Llama-3-70B по базовым возможностям. При этом в Qwen не сильно меняли процесс пре- и пост-обучения, что говорит о ключевой роли увеличения размера модели.
Также Qwen1.5-110B продемонстрировала превосходные результаты в чат-тестах MT-Bench и AlpacaEval 2.0:
Модель | MT-Bench Avg. Score | AlpacaEval 2.0 Win Rate |
---|---|---|
Llama-3-70B-Instruct | 8.85 | 34.40 |
Qwen1.5-72B-Chat | 8.61 | 36.60 |
Qwen1.5-110B-Chat | 8.88 | 43.90 |
Перспективы Развития и Интеграции
При работе с Qwen1.5-110B рекомендуется использовать инструменты и фреймворки из экосистемы Qwen1.5:
- Transformers
- vLLM
- llama.cpp
- Ollama
- LMStudio
- SkyPilot
- Axolotl
- LLaMA-Factory
Это позволит раскрыть потенциал модели и эффективно интегрировать ее в различные приложения от чат-ботов до поисковых систем и виртуальных ассистентов.
Выводы и Дальнейшие Планы
Qwen1.5-110B, самая крупная модель серии Qwen1.5 на сегодня, показала, что дальнейшее увеличение числа параметров все еще дает значимый прирост качества. При этом успех конкурентов демонстрирует и важность масштабирования данных для обучения.
Команда Qwen верит, что сочетание роста размерности моделей и объемов данных позволит добиться впечатляющих результатов в следующих релизах. С нетерпением ждем анонса серии Qwen2!
А пока рекомендуем разработчикам и исследователям присмотреться к Qwen1.5-110B. С ее мощью и многоязычностью открываются широкие перспективы для создания продвинутых NLP приложений и интеллектуальных систем нового поколения. Не упустите возможность оседлать эту волну!
*Деятельность Meta Platforms Inc. и принадлежащих ей социальных сетей Facebook и Instagram запрещена на территории РФ.