10/10/2024
--""Магнетизм нейросетей
Где Нобелевский комитет видит границы современной физики"" -
Нобелевскую премию по физике 2024 года разделили между собой Джон Хопфилд и Джеффри Хинтон — за разработки в области искусственных нейронных сетей. Никакой опечатки здесь нет: это действительно Нобелевская премия по физике, а не ее аналог в области информатики премия Тьюринга (которой, кстати, в 2018 году уже наградили одного из нобелиатов этого года).
Физику тут найти можно: ученые описали две важных архитектуры нейросетей, действительно вдохновившись физическими моделями. А сегодня подобные нейросети используют в том числе физики в своих исследованиях. Но что на самом деле имел в виду Нобелевский комитет, когда присуждал премию по физике за исследования нейросетей?
Думать как мозг
В апреле 1982 года биофизик-теоретик Джон Хопфилд опубликовал работу, в которой объединил два, хоть и схожих, но все-таки довольно разных сюжета. В своей статье он описал искусственную нейронную сеть, которая умеет помнить «записанные» в ней устойчивые конфигурации. Эта математическая структура была составлена из отдельных элементов-нейронов, связанных между собой дискретными сигналами, но для ее описания ученый использовал язык статистической физики — до этого применяли для ферромагнетиков, магнитных веществ, «запоминающих» поле, в которое их помещали раньше.
Идея формализовать процессы, происходящие в мозге человека, с помощью дискретных моделей, была к этому моменту уже сильно не нова: первые достижения в зарождающейся отрасли искусственного интеллекта появились еще в 1950-х (подробнее о первых математических моделях человеческого мозга можно прочитать в материале «Зоопарк алгоритмов»). Но несмотря на наличие и прикладного запроса: научить вычислительные машины запоминать и распознавать образы, — к первым подобным схемам относились в первую очередь не как к потенциальному инструменту, а именно как фундаментальным моделям. Автор практической реализации одной из первых искусственных нейронных сетей — перцептрона, Фрэнк Розенблатт, в 1961 году в самой известной своей работе «Принципы нейродинамики» писал: «Программа „перцептрон“ в первую очередь связана не с изобретением устройств для „искусственного интеллекта“, а скорее с исследованием физических структур и нейродинамических принципов, лежащих в основе „естественного интеллекта“. Перцептрон — прежде всего модель мозга, а не изобретение для распознавания изображений».
Центральной идеей в основе большинства математических моделей мозга уже давно были связанные между собой логическими связями искусственные нейроны. Теоретическую базу для этой модели в довольно общем виде представили Уоррен Мак-Каллок и Уолтер Питтс еще в 1943 году, а простейшую практически полезную архитектуру реализовал и проанализировал именно Розенблатт. Визуально общую идею этих схем можно представить в виде ориентированного графа.
Каждый нейрон отправляет в качестве выходящего сигнала число — в простейших нейросетях это либо 0 (нейрон спит и не подает никакого сигнала), либо 1 (нейрон активен). Это число зависит от взвешенной суммы входных сигналов, передаваемых по входящим ребрам от других нейронов или от внешнего возбудителя. В примитивном случае зависимость пороговая: если взвешенная сумма превышает некоторое число, то нейрон активируется, иначе — спит.
Ребрам графа в каждой сумме приписываются веса, которые описывают связи между нейронами: чем больше абсолютное значение веса, тем сильнее сигнал нейрона-отправителя или внешнего возбудителя влияет на возбуждение нейрона-получателя. Веса и пороги активации первоначально не фиксированы — это обучаемые параметры нейросети. Обучение модели состоит в том, чтобы подобрать оптимальные значения в контексте данной задачи.
В первых практических реализациях перцептрон Розенблатта имел конфигурацию, в которой сигнал распространялся от входа к выходу последовательно, слой за слоем. Однако в «Принципах нейродинамики» описаны и другие виды связей, например когда нейроны могут получать информацию не только от соседей, которые находятся на схематическом графе ближе к входному сигналу, но и от более отдаленных узлов.
Помнить как магнит
Сеть Хопфилда была построена по аналогичной схеме, но с важным отличием. В его модели не было выделенного направления — все нейроны взаимодействовали со всеми. В качестве входного сигнала для этой модели задавалось начальное состояние, а на выходе нейроны в такой схеме формировали коллективный выходной сигнал. Поэтому подход к обучению такой схемы должен был быть немного другим.
Реализовать такую схему ученому помогла модель из статистической физики, которая описывает поведение ферромагнетиков на микроуровне. В этой модели тоже есть отдельные элементы, есть заданное начальное состояние и есть общее конечное состояние, которое формируется после изменений внешних условий через взаимодействий всех элементов со всеми.
Аналогия человеческого мозга и магнитных материалов была к тому моменту уже тоже довольно популярна — в первую очередь из-за эффекта памяти. Вещества-ферромагнетики устроены так, что под действием внешнего поля не только намагничиваются в том же направлении, но и сохраняют эту намагниченность уже после исчезновения внешнего воздействия, как бы запоминая намагнитившее их поле.
Умение магнитных материалов «запоминать» стали использовать на практике задолго до попыток подражать человеческому мозгу: еще в конце девятнадцатого века стали пытаться записывать звук на магнитную ленту. В 1930-е появились первые магнитофоны. А в середине 1950-х этот же принцип лег в основу работы первых жестких дисков.
В модели ферромагнетика, которую использовал Хопфилд, каждому атому приписывается одно из двух состояний: с направлением магнитного момента вдоль (+1) или против (-1) некоторой выделенной оси. Вместе с тем, каждый отдельно взятый магнитный момент чувствует совокупное магнитное поле остальных. В каждый момент времени (но с фиксированным средним темпом обновлений) этот магнитный момент может либо переориентироваться под действием общего внешнего поля остальных, либо сохранить текущее состояние.
Для такой системы можно ввести энергию взаимодействия для каждого отдельно взятого атома с окружающим магнитным полем его соседей как половину произведения магнитного момента на величину поля. Динамика системы магнитных моментов устроена так, что при переориентации спинов энергия не возрастает — то есть любое начальное состояние самопроизвольно стремится к ближайшему локальному минимуму по энергии под влиянием коллективных взаимодействий.
Модель взаимодействующих магнитных моментов оказалась во многих смыслах естественнее, чем четко упорядоченный граф. Для эффекта памяти здесь уже не требуется особенное геометрическое расположение нейронов, а нужные паттерны возникают естественным образом в результате коллективных взаимодействий многих нейронов.
От атомов к нейронам
На язык нейросети взаимодействие магнитных моментов в ферромагнетике переводится так: каждый нейрон-атом связан со всеми остальными, кроме себя самого. В качестве направления магнитного момента выступает выходящий сигнал, в качестве магнитного поля — взвешенная сумма входных сигналов, а переориентация магнитных моментов превращается в активацию/деактивацию нейронных сигналов.
Главная польза от такой аналогии в том, что динамика состояний нейронов в такой сети тоже имеет направленное течение с точки зрения псевдоэнергии системы — и математически это оказывается та же самая задача! Получается, что любая исходная конфигурация нейронов с течением времени как бы притягивается к ближайшей устойчивой. Нейроны как бы выстраиваются в известный узор из памяти, наиболее близкий к первоначальному — подобно тому, как человеческая память может воспроизвести известную информацию по наводящим входным данным.
Устойчивые конфигурации системы однозначно определяются весами сети: подобрав правильные значения весов, можно организовать локальный энергетический минимум на одной или нескольких конфигурациях нейронов, и таким образом вложить в память сети нужные образы.
Спустя два года после первой работы Хопфилд опубликовал статью, в которой описал более общую версию модели. Ученый показал, что от строгой бинаризации сигналов нейрона можно отказаться в пользу плавного спектра значений — то есть позволить нейрону испускать промежуточные сигналы между 0 и 1 в окрестности порога активации, превратив такой заменой пороговое значение в пороговую полосу. Эта модификация позволила сгладить динамику системы: скачкообразные изменения сигналов и сопутствующие резкие изменения энергии сменились более плавными приращениями, а полезные коллективные свойства памяти при этом все равно сохранились.
Более того, стационарные состояния таких аналоговых нейронов в предельном переходе к нулевой ширине пороговой полосы переходили в стационарные состояния из бинарной задачи. Это позволило ускорить дискретную оптимизацию с помощью вспомогательных задач непрерывной оптимизации, где найти минимум энергии проще.
Больше статистической физики
Между двумя статьями Хопфилда, другую важную модификацию модели искусственной нейронной сети предложил, вместе с коллегами, Джеффри Хинтон — тоже вдохновившись моделью из статистической физики. Ученые использовали ту же архитектуру, что и Хопфилд, но вместо детерминированных переходов в состояние с меньшей энергией предложили двигаться в пространстве состояний по стохастической траектории.
Энергия в модели Хинтона не должна была убывать на каждом шаге эволюции, но всe равно была определяющим фактором: вероятности переходов подчинялись распределению Больцмана (вычислительную модель так и назвали — машиной Больцмана). В этой модели предпочтительными стали переходы в состояние с меньшими энергиями, тогда как состояния с высокой энергией экспоненциально подавлены по вероятности отношением энергии к параметру температуры. Такое поведение характерно для равновесных термодинамических систем с фиксированной средней энергией и широко встречается в физических задачах (так можно описывать в том числе и поведение системы магнитных моментов при конечной температуре).
Изменения состояния такой системы были не детерминированы, а происходили по вероятностному принципу. Из-за этого у нее появилось новое полезное свойство: локальные минимумы по энергии стали различаться по значимости. Если сеть Хопфилда, оказавшись в ближайшем стационарном состоянии, застревала в нем, не делая разницы между глубиной энергетических уровней, то машина Больцмана, предложенная Хинтоном, стала ориентироваться и на конфигурацию сигналов. Чем ниже энергия сигнала, тем вероятнее он проявится в нейросети, и наоборот.
Еще одной особенностью новой сети стало разделение нейронов на две группы: видимые и скрытые. Состояние сети на выходе определялось только конфигурацией видимых нейронов, но в вероятностной динамике они участвовали наравне со скрытыми.
Из-за своей стохастической природы новая модель утратила способность гарантированно «вспоминать» записанные образы по их обрывкам из-за элемента случайности, зато взамен ей досталась новая способность: в ходе обучения сеть могла запоминать статистическое распределение тренировочных объектов вместо них самих. И самостоятельно генерировать новые, ранее неизвестные состояния из такого распределения. Эту особенность машины Больцмана, впрочем, в полной мере реализовать в итоге не смогли: обучение оказалось слишком вычислительно громоздким и плохо масштабируемым на большое число нейронов.
Второй всплеск популярности эти сети получили в начале 2000-х — когда Хинтон предложил вычислительно эффективный алгоритм обучения, предназначенный для особого подкласса — ограниченных машин Больцмана, в которых удалены все связи между нейронами одного типа, а немногим позже свел задачу обучения многослойных полносвязных сетей к обучению таких ограниченных машин.
Сегодня когда-то популярные детища Хопфилда и Хинтона практически вытеснены из широкой практики более современными архитектурными решениями, хотя и находят иногда нишевые приложения, например в квантовых вычислениях. Правда, применение ограниченных машин Больцмана для предварительного обучения глубоких сетей возродило интерес к глубокому обучению, которое до этого было не очень эффективным — и в некотором смысле послужило толчком к развитию новых моделей. Возможно, без вдохновленных магнетизмом архитектур прогресс в области искусственного интеллекта не был бы таким стремительным.
Физика за пределами физики
Решение Нобелевского комитета дать за эти работы премию можно воспринимать по-разному. С одной стороны, эти исследования вряд ли можно назвать «открытиями или изобретениями в области физики», как завещал Альфред Нобель: это методологические работы, оторванные от каких-либо конкретных физических задач, и тем более — от научного открытия.
С другой стороны, это прямое продолжение инструментария статистической физики, повлиявшее на глобальные тренды развития искусственных нейронных сетей, которые сегодня прочно вошли в повседневную жизнь и работу — и в том числе и самих физиков, например при обработке больших массивов данных ускорительных экспериментов или в задачах астрофизики.
К тому же, это не первое неочевидное решение Нобелевского комитета, и в их последовательности можно проследить определенную тенденцию. Например, многие не поняли решения комитета в 2021 году, когда половина премии по физике ушла исследователям климата. Связь между работами Джорджо Паризи, который занимался как раз системами взаимодействующих спинов, и исследованиями паттернов в неравновесной климатической системе Земли, многим казалась неочевидной.
Но в премиях по физике пытаются объединять в одной премии то, что сочетается не всегда самым ясным образом. Это могут быть связанные общей тематикой довольно практическая разработка оптического пинцета и фундаментальные работы по генерации коротких лазерных импульсов. Это может быть непроверяемое теоретическое предсказание в сочетании с реальными астрономическими наблюдениями в премии 2020 года. Это может быть фундаментальная физика и климатология, объединенные идеей о возникновении общих принципов и правил в неупорядоченных системах. В этом году премия не поделена на две разнородных половины, но сама по себе она объединяет в себе вдохновленный физикой подход, который работает на важную, но не физическую модель, которая в свою очередь работает и на физические исследования.
Нобелевский комитет продолжает искать границы современной физики, которая везде вокруг, даже если на первый взгляд не очень понятно, где именно.