Оптические нейронные сети

Оптические нейронные сети — это физические реализации искусственных нейронных сетей с использованием оптических компонентов. Ранние оптические нейронные сети использовали фоторефрактивные объёмные голограммы для соединения массивов входных нейронов с массивами выходов, при этом веса синапсов были пропорциональны интенсивности мультиплексированной голограммы[1]. Объёмные голограммы были дополнительно мультиплексированы с использованием эффекта прожига спектральных дыр (spectral hole burning), что дало возможность использовать дополнительное измерение длины волны, обеспечивая четырёхмерную коммутацию двумерных массивов входов и выходов нейросети[2]. Эти исследования привели к активному поиску альтернативных решений для реализации межнейронных связей с помощью оптических соединений[3].

Некоторые искусственные нейронные сети, реализованные в виде оптических нейронных сетей, включают нейронную сеть Хопфилда[4] и карту самоорганизующейся карты Кохонена с использованием пространственных модуляторов света на основе жидких кристаллов[5]. Оптические нейронные сети могут также строиться на принципах нейроморфного проектирования, формируя так называемые нейроморфные фотонные системы. Как правило, такая система кодирует информацию с помощью спайков (импульсов), имитируя работу спайковых нейронных сетей в оптическом и фотонном оборудовании. К фотонным устройствам с доказанными нейроморфными функциями относятся, среди прочих, лазеры с вертикальным излучающим резонатором, интегральные фотонные модуляторы[6], оптоэлектронные системы на основе сверхпроводящих джозефсоновых переходов[7] или системы на диодах с резонансным туннелированием.

Электрохимические и оптические нейронные сети

Биологические нейронные сети функционируют на электрохимической основе, в то время как оптические нейронные сети используют электромагнитные волны. Оптические интерфейсы к биологическим нейронным сетям могут быть созданы методами оптогенетики, однако это не то же самое, что оптическая нейронная сеть. В биологических нейросетях существует множество механизмов динамического изменения состояния нейронов, включая кратковременную и долговременную синаптическую пластичность. Синаптическая пластичность — один из электрофизиологических феноменов, управляющих эффективностью передачи сигнала синапсом: долговременная пластичность — для обучения и памяти, а кратковременная — для временных изменений эффективности передачи. Реализация подобного поведения с помощью оптических компонентов сложна и, в идеале, требует создания продвинутых фотонных материалов. Важными свойствами фотонных материалов для оптических нейронных сетей является способность изменять эффективность передачи света в зависимости от интенсивности поступающего излучения.

Современные архитектуры

Дифракционные глубокие нейронные сети (D²NN)

Концепция дифракционной глубокой нейронной сети (D²NN) была предложена в 2018 году группой исследователей под руководством Сюня Линя (Xun Lin)[8]. D²NN представляет собой физическую реализацию нейронной сети, состоящую из последовательности пассивных дифракционных слоёв (фазовых масок), которые обрабатывают оптическую информацию со скоростью света. Каждый пиксель на этих слоях функционирует как искусственный нейрон, модулируя фазу проходящего через него света[8]. Обучение сети происходит на обычном компьютере с помощью алгоритмов глубокого обучения, после чего вычисленные фазовые профили физически изготавливаются в виде масок (например, с помощью 3D-печати или литографии) и собираются в единую оптическую систему[9][10].

В 2019 году была представлена усовершенствованная архитектура — дифракционная сеть в пространстве Фурье (F-D²NN), в которой модулирующие слои размещались в Фурье-плоскости оптической системы. Внедрение оптической нелинейности с помощью фоторефрактивных кристаллов позволило повысить точность классификации до 98,1 % на наборе данных MNIST и решать более сложные задачи, такие как выделение значимых объектов (saliency detection)[11]. В 2020 году другие научные группы продолжили развитие технологии: была повышена точность классификации до 97,18 % за счёт изменения функции потерь при обучении[12], а также предложено применение D²NN для шифрования изображений[13].

В 2021 году технология нашла применение в области полностью оптической количественной фазовой визуализации (Quantitative Phase Imaging, QPI), где сеть преобразует фазовую информацию от прозрачного образца (например, биологической клетки) в видимое изображение интенсивности без использования цифровых алгоритмов[14]. В 2022 году были предложены методы повышения производительности, такие как оптимизация с помощью числа Френеля[15], а также разработаны многозадачные сети, использующие мультиплексирование по длине волны[16] и поляризации[17].

2023 год был отмечен разработками, направленными на преодоление статичности D²NN. Была предложена архитектура RubikONNs, позволяющая одной сети выполнять несколько задач путём физического поворота её слоёв[18]. Точность была повышена за счёт внедрения оптоэлектронных нелинейных функций активации (OReLU) и итеративных алгоритмов «обрезки» (pruning) связей[9][19]. Расширилась и сфера применения: были созданы двухволновые дифференциальные D²NN (DW-D²NN) для более точной классификации[20], сети для восстановления изображений объектов за рассеивающими средами[21] и сверхбыстрые классификаторы для считывания данных в системах голографической памяти[22].

В 2024 году фокус сместился на создание гибридных и программируемых систем, таких как MDR-HDONN, объединяющих свободно-пространственную оптику с реконфигурируемой интегральной фотоникой[23]. Были усовершенствованы методы проектирования масок на основе полиномов Цернике[24]. D²NN были успешно применены в адаптивной оптике для восстановления волновых фронтов[25] и в системах голографической памяти, где точность классификации достигла 99 %[22]. В 2025 году был представлен интегрированный «Оптический механизм извлечения признаков» (OFE2), способный обрабатывать данные со скоростью 12,5 ГГц для задач реального времени, например, в финансовом трейдинге[26]. Также появились реализации D²NN на основе оптоволокна, что открывает перспективы для их применения в телекоммуникациях[27].

Введение временного измерения

Первые исследования, направленные на введение времени как дополнительного измерения в D²NN, появились в 2022 году. В августе была предложена схема «time-lapse» классификации, которая использует информацию от последовательных во времени смещений объекта или самой сети для улучшения точности и обобщающей способности, осуществляя таким образом пространственно-временной анализ входных данных[28].

В январе 2024 года была представлена более комплексная архитектура — пространственно-временная дифракционная глубокая нейронная сеть (STD²NN), предназначенная для обработки пространственно-временных сигналов[29]. В этой модели дифракционные решётки преобразуют сигнал из частотной области (связанной со временем) в пространственную, после чего он проходит через несколько слоев, состоящих из пространственных линз и пространственных световых модуляторов (SLM), которые выполняют пространственно-временную фазовую модуляцию[29]. Для обучения сети был предложен полностью оптический алгоритм обратного распространения ошибки[29]. В качестве доказательства концепции была продемонстрирована генерация динамического слова «OPTICA» и работа мультиплексора, преобразующего гауссовы пучки в пространственно-временные оптические вихревые волновые пакеты[29].

Дальнейшее развитие технология получила в 2025 году с разработкой архитектуры, использующей проекцию пространства-времени. Этот подход позволяет преобразовывать пространственное распределение интенсивности света во временные изменения, что даёт возможность обойти ограничения по скорости, свойственные традиционным двумерным детекторам[30]. На основе этого принципа была продемонстрирована работа полностью оптических логических вентилей[30].

Гибридные оптико-электронные сети

Концепция гибридных оптико-электронных нейронных сетей предполагает объединение оптических и электронных вычислений для повышения общей энергоэффективности и производительности. В 2018 году группа исследователей из Стэнфордского университета под руководством Джули Чанг (Julie Chang) и Гордона Вецштейна (Gordon Wetzstein) представила архитектуру, в которой первый, наиболее вычислительно затратный, свёрточный слой нейросети реализуется оптически[31]. В этой системе свет от наблюдаемой сцены проходит через пассивный дифракционный оптический элемент (DOE) — тонкую прозрачную пластину со специально рассчитанным микрорельефом. Этот элемент выполняет операцию свёртки со скоростью света, после чего результат фиксируется обычным сенсором изображения и передаётся для дальнейшей обработки в стандартную электронную нейронную сеть[32][33]. Такой подход позволяет значительно снизить энергопотребление и задержку, а также обходит одну из главных проблем полностью оптических систем — сложность реализации нелинейных функций активации, оставляя эту задачу электронной части сети[31].

Эта работа стала частью более широкого научного направления, известного как «глубокая оптика» (Deep Optics), которое предполагает совместную сквозную оптимизацию оптических компонентов (аппаратной части) и алгоритмов обработки (программной части)[32]. После 2018 года та же исследовательская группа продолжила развивать этот подход, применяя его для решения таких задач, как оценка глубины, обнаружение объектов и создание нейронных сенсоров[32].

Идея гибридных вычислений получила развитие и в работах других научных групп. В 2023 году были предложены схожие архитектуры, например, гибридная сеть на основе оптического преобразования Фурье[34] и система, в которой вместо дифракционных слоёв используются слои рассеяния[35].

Свёрточные сети на основе 4F-систем

Одной из архитектур для оптической реализации свёрточных нейронных сетей (CNN) является 4F-система, также известная как оптический коррелятор. Эта система состоит из двух фурье-линз и позволяет выполнять операцию свёртки со скоростью света, преобразуя вычислительно затратную математическую операцию в физические процессы: прямое преобразование Фурье, поточечное умножение в фурье-плоскости и обратное преобразование Фурье[36][37].

Ключевым элементом системы является модулирующая маска, размещённая в фурье-плоскости, которая кодирует веса нейронной сети (ядро свёртки). В зависимости от задачи используются два типа масок[36]:

  • Программируемые маски — как правило, пространственные модуляторы света (SLM) или цифровые микрозеркальные устройства (DMD). Они позволяют динамически изменять веса сети, что необходимо для обучения, исследований и прототипирования[36][38].
  • Фиксированные маски — дифракционные оптические элементы (DOE), изготовленные, например, методом литографии. Они применяются для инференса в уже обученных сетях, обеспечивая максимальную скорость и энергоэффективность, но лишены гибкости и возможности переобучения[23][36].

В ходе развития технологии были достигнуты значительные результаты. В 2021 году экспериментально была продемонстрирована точность классификации 91 % на наборе данных MNIST[39]. В 2023 году были предложены более сложные архитектуры, такие как оптические дифракционные сверточные нейронные сети (ODCNN), объединяющие 4F-систему с дифракционными сетями для формирования нескольких карт признаков одновременно[40]. В том же году была представлена сеть 4K-DMDNet для генерации голограмм высокого разрешения[41]. Важным открытием 2024 года стало применение частично когерентного света, что позволило повысить экспериментальную точность за счёт подавления нежелательных оптических эффектов, таких как спекл-шум[42].

Несмотря на прогресс, 4F-системы сталкиваются с рядом проблем. Одной из ключевых является высокая чувствительность к ошибкам юстировки оптических компонентов: исследование 2022 года показало, что даже незначительные смещения могут кардинально ухудшить точность классификации[37]. Другие ограничения связаны с характеристиками DMD-устройств: их относительно невысокая частота переключения (около 20 кГц) уступает современным GPU по пропускной способности, а способность модулировать только интенсивность (а не фазу) света усложняет реализацию комплексных фильтров[36]. Для решения последней проблемы сети обучают со специально адаптированными вещественными фурье-фильтрами[36]. Кроме того, для преодоления статичности фиксированных масок в 2024 году были предложены методы системной реконфигурации, позволяющие изменять функциональность сети путём физического поворота масок или изменения длины волны света[23].

Другие реализации

В 2007 году существовала модель оптической нейронной сети: программируемый оптический массивный аналоговый компьютер (Programmable Optical Array/Analogic Computer, POAC). Он был реализован в 2000 году и описан на базе модифицированного объединённого коррелятора Фурье-преобразований (Joint Fourier Transform Correlator, JTC) и бактериородопсина (BR) в качестве голографической оптической памяти[43]. POAC предлагал преимущества полной параллельности, большого размера массивов и высокой скорости — до скорости света — для реализации оптических сверточных нейронных сетей (CNN). Эти свойства исследовались, были выявлены практические ограничения, что позволило создать первый переносной вариант POAC[44].

Подробности аппаратных (оптические установки) и программных (оптические шаблоны) решений POAC были опубликованы[45]. При этом POAC является универсальным программируемым массивным компьютером с широким спектром применений, включая:

После 2007 года упоминания о проекте POAC под его первоначальным названием практически исчезают из научных публикаций[45]. По всей видимости, проект был завершён или трансформирован, в то время как общая сфера оптических вычислений продолжила развиваться в сторону других архитектур, таких как оптические нейронные сети и программируемые фотонные схемы[46].

Прогресс

Тайчи — гибридная оптическая нейронная сеть, разработанная в университете Цинхуа в Пекине, объединяющая энергоэффективность и параллелизм оптической дифракции с возможностью перенастройки через оптические интерферометры. Тайчи содержит 13,96 миллиона параметров. Она позволяет избегать высокой ошибки, характерной для глубоких (многослойных) сетей, следующим образом: кластеры дифракционных модулей с меньшим числом слоёв сочетаются с массивами интерферометров для перенастраиваемых вычислений. Протокол кодирования делит крупные модели на подмодели, которые могут исполняться параллельно на разных чиплетах[47]. При этом для обучения нейросети чип первого поколения, представленный в апреле 2024 года, требовал использования электронных компьютеров[48].

Тайчи продемонстрировал точность 91,89 % в тестах на базе Omniglot и был использован для генерации музыки в стиле Баха, а также изображений в стилях Ван Гога и Мунка[47].

Авторы отмечают энергоэффективность до 160 триллионов операций в секунду на ватт и площадную эффективность в 880 триллионов операций умножения-сложения на мм², что в 10³ раз эффективнее по энергии чем NVIDIA H100, а также в 100 раз эффективнее по энергии и в 10 раз — по занимаемой площади по сравнению с предыдущими ONN[47].

В августе 2024 года та же команда исследователей представила чип нового поколения — «Taichi-II», описанный в журнале Nature как первый в мире полностью оптический чип для искусственного интеллекта[48]. Ключевым усовершенствованием стала возможность проводить обучение и моделирование полностью на основе света, что устранило необходимость в электронных компьютерах для этих процессов[48]. В основе «Taichi-II» лежит архитектура «Fully Forward Mode» (FFM), позволяющая выполнять машинное обучение непосредственно на оптическом чипе[49][50]. Согласно опубликованным данным, новая версия ускорила обучение оптических сетей на порядок, повысила точность классификации на 40 % и улучшила энергоэффективность на шесть порядков в задачах обработки изображений при низкой освещённости[48].

Примечания