Новая архитектура нейросетей KAN создана по теоремам Колмогорова и Арнольда

Kolmogorov-Arnold Networks - новая архитектура ИИ

Исследователи из США представили революционную архитектуру нейронных сетей Kolmogorov-Arnold Networks (KAN) 1. В отличие от традиционных многослойных перцептронов (MLP), у KAN обучаемые функции активации расположены на ребрах, а не в узлах сети.

Цзымин Лю, ведущий автор исследования, пояснил: «В то время как в MLP функции активации детерминированы и находятся в нейронах, в KAN они становятся объектами обучения и перемещаются на веса внутри сети».

Математической основой KAN служит теорема об аппроксимации, доказанная советскими учеными Андреем Колмогоровым и Владимиром Арнольдом. Эта теорема утверждает, что любую непрерывную функцию можно представить через суперпозицию одномерных функций.

Несмотря на кажущуюся простоту изменения, KAN превосходят MLP по точности и интерпретируемости. Они требуют меньше параметров для достижения сравнимых результатов. KAN также более наглядны и позволяют эффективнее взаимодействовать с пользователями.

Новая архитектура открывает перспективы для дальнейшего развития моделей глубокого обучения. KAN способны адаптироваться к новым данным без катастрофического забывания, быстрее обучаться и более точно контролировать вклад признаков. Потенциально это позволит создавать нейросети, принципиально превосходящие существующие аналоги в решении сложных задач.

Ссылки

  1. https://arxiv.org/abs/2404.19756[]

Похожие записи