Коннекционизм

Коннекционизм (англ. connectionism) — подход в когнитивных науках и исследовании человеческих психических процессов, основанный на использовании математических моделей, известных как коннекционистские сети или искусственные нейронные сети^[1].

В развитии коннекционизма выделяют несколько «волн». Первая волна началась в 1943 году с работ Уоррена МакКаллока и Уолтера Питтса, которые стремились математически описать нейронные цепи^[2], и Фрэнка Розенблатта, который в 1958 году опубликовал статью «Перцептрон: вероятностная модель хранения и организации информации в мозге» в Psychological Review, работая в Корнелльской аэрокосмической лаборатории^[3]. Завершилась первая волна в 1969 году после выхода книги Марвина Минского и Сеймура Пейперта, критикующей ограничения исходного перцептрона, что привело к снижению финансирования исследований в этой области в США^[4]. Термин «коннекционистская модель» был вновь введён Джеромом Фельдманом и Даной Баллардом в статье 1982 года в журнале Cognitive Science.

Вторая волна началась в конце 1980-х годов, после выхода в 1987 году книги о параллельной распределенной обработке (Parallel Distributed Processing) Джеймса МакКлелланда, Дэвида Румельхарта и соавторов, где были представлены усовершенствования простой идеи перцептрона: введение промежуточных «скрытых» слоев и использование сигмоидальной функции активации (активации) вместо прежней пороговой функции. Их работа базировалась на исследованиях Джона Хопфилда, изучавшего математические характеристики сигмоидальных функций активации^[3]. В конце 1980-х и начале 1990-х годов в психологии и философии обсуждалась возможность парадигмального сдвига в сторону коннекционизма^[5]. Преимуществами такого подхода стали универсальность, структурная близость к биологическим нейронным сетям, низкая требовательность к врожденным структурам, способность к грациозной деградации^[6]. К недостаткам относили сложность понимания внутренней работы ИНС или объяснения композициональности психических представлений, а также трудности объяснения феноменов на более высоком уровне^[7].

Современная, «третья» волна связана с развитием глубинного обучения, что позволило создавать большие языковые модели^[3]. Успех глубоких нейронных сетей за последнее десятилетие значительно повысил популярность этого подхода, однако сложность и масштаб таких сетей привели к новым проблемам интерпретируемости^[8].

Центральная идея коннекционизма состоит в том, что психические явления могут быть описаны через взаимосвязанные сети простых и, как правило, однородных элементов. Форма связей и сами элементы могут различаться в зависимости от модели. Так, элементы сети могут моделировать нейроны, а связи — синапсы, как в мозге человека. Этот принцип рассматривается как альтернатива подходу традиционного ИИ (GOFAI) и классическим теориям разума, основанным на символьных вычислениях, однако вопрос о совместимости этих подходов остаётся предметом обсуждений^[8].

Функция активации

Внутренние состояния сети меняются во времени благодаря передаче сигналов от нейронов одного слоя к следующему (в прямой сети) или к предыдущему (в рекуррентных сетях). Открытие нелинейных функций активации позволило реализовать вторую волну коннекционизма.

Память и обучение

Нейронные сети основаны на двух принципах:

Любое ментальное состояние можно представить как n-мерный вектор числовых значений активации по элементам сети.
Память и обучение возникают за счет модификации «весов» связей между элементами сети, как правило, в виде n×m матрицы. Веса корректируются по определённому правилу обучения или алгоритму, например, по принципу Гебба.

Различия между моделями обусловлены:

Интерпретацией элементов: элементы могут пониматься как отдельные нейроны или их группы.
Определением активации: активация может задаваться по-разному, например, в машине Больцмана — это, скорее, вероятность генерации сигнала и определяется через логистическую функцию по сумме входов.
Алгоритмом обучения: различные сети модифицируют связи разными способами. Любые математически задаваемые изменения весов называются «алгоритмом обучения».

Биологическая правдоподобность

Работы в области коннекционизма, как правило, не требуют строгого соответствия биологическим процессам^[9]. Одной из областей, где модели считаются биологически малореалистичными, является обратное распространение ошибки, необходимое для обучения^[10], однако такие процессы могут объяснять часть биологических проявлений активности мозга при исследовании вызванных потенциалов — например, компонентов N400 и P600 в нейрофизике^[11]. Многие рекуррентные сети также используют теорию динамических систем. Исследователи, такие как Пол Смоленский, считают, что коннекционистские модели станут полностью непрерывными, многомерными нелинейными динамическими системами.

Истоки коннекционистских принципов можно проследить в работах ранней психологии, таких как труды Уильяма Джеймса^[12]. В конце XIX века были популярны психологические теории, основывающиеся на знании о мозге человека. Уже в 1869 году невролог Джон Хаглингс-Джексон рассматривал распределённые системы с несколькими уровнями. Вслед за ним Герберт Спенсер («Principles of Psychology», 3-е изд., 1872) и Зигмунд Фрейд («Проект научной психологии», 1895) также развивали коннекционистские или близкие к ним теории. Эти теории часто имели спекулятивный характер. В начале XX века Эдвард Торндайк уже рассматривал обучение человека как процесс, реализуемый коннекционистской сетью^[13].

Сети Хопфилда имеют предшественников в модели Изинга, разработанной Вильгельмом Ленцем (1920) и Эрнстом Изингом (1925), хотя их модель не принимала во внимание время. Компьютерное моделирование по методу Монте-Карло для задачи Изинга стало возможным только с появлением ЭВМ в 1950-х годах^[14].

Первая волна началась в 1943 году с работ Уоррена МакКаллока и Уолтера Питтса, которые математически моделировали нейронные цепи. МакКаллок и Питтс показали, что нейронные системы могут реализовать логику первого порядка: их классическая статья «Логическое исчисление идей, скрытых в деятельности нервной системы» (1943) считается ключевой для этого направления. Они испытали влияние работ Николая Рашевского 1930-х годов и идей из Principia Mathematica^[2].

Доналд Хебб предложил принцип обучения — Геббовское обучение, а Карл Лешли отстаивал идею распределённых представлений, поскольку не смог найти локализованных энграмм в ходе многочисленных экспериментов по повреждению мозга. Фридрих Хайек независимо пришёл к подобной модели сначала в неопубликованной рукописи 1920 года^[15],^[16] затем — в книге 1952 года^[17].

Машины-перцептроны были предложены и реализованы Фрэнком Розенблаттом, который в 1958 году опубликовал статью «Перцептрон: вероятностная модель хранения и организации информации в мозге», ссылаясь на Хебба, Хайека, Аттли и Эшби.

Другой вариант коннекционистской модели — реляционная сеть, разработанная лингвистом Сидни Лэмбом в 1960-х.

Группа под руководством Видро экспериментально искала методы обучения двухслойных сетей ADALINE (MADALINE), хотя успех был ограничен^[18].

Метод обучения многослойных перцептронов произвольной глубины был опубликован Алексеем Ивахненко и Валентином Лапой в 1965 году — так называемый метод группового учёта аргументов (МГУА). Этот способ предполагает поэтапное обучение слоями с регрессионным анализом и отсевом лишних узлов на промежуточных слоях на основе валидационных выборок^[19].

В 1967 году Сюнъити Амари опубликовал работу об обучении многослойных перцептронов методом стохастического градиентного спуска^[20]. Эксперименты Амари и его ученика Сайто с 5-слойным МЛП с двумя изменяемыми слоями подтвердили формирование внутренних представлений для классификации нелинейно неразделимых образцов^[21].

В 1972 году Сюнъити Амари предложил один из первых примеров самоорганизующейся нейросети^[22].

В конце 1960-х в сообществе искусственного интеллекта возникли сомнения о реальной пользе нейронных сетей. Примерно с конца 1960-х по 1970-е наблюдался спад исследований и публикаций в этой области, так называемая «зима нейросетей», когда ИИ переключился на символные методы. Публикация книги Perceptrons (1969) считается катализатором этого явления.

Вторая волна началась в начале 1980-х. Ключевыми публикациями считаются статьи Джона Хопфилда (1982)^[23], популяризовавшие сети Хопфилда, статья 1986 года об обратном распространении ошибки^[24], и двухтомник Parallel Distributed Processing (PDP, 1987) Дж. МакКлелланда, Д. Румельхарта и др., где описаны такие усовершенствования, как скрытые слои и сигмоидальная функция активации.

Вклад Хопфилда заключался в применении методов статистической механики для обоснования математики нейросетей^[3].

Важной вехой стала теорема о универсальной аппроксимации функций искусственными нейронными сетями^[25].

В этот период появились известные демонстрационные проекты: NETtalk (1987) учился произносить написанный английский и приобрёл популярность в СМИ^[26], TD-Gammon (1992) достиг уровня сильнейших игроков в нарды^[27].

С ростом популярности коннекционизма в конце 1980-х года многие исследователи (включая Джерри Фодора, Стивена Пинкера и других) выступили против, считая, что коннекционизм угрожает результатам классического компьютейшнализма, согласно которому познание осуществляется посредством формальных операций над символами (аналогично машине Тьюринга). Критики рассматривали коннекционизм как возврат к ассоцианизму и отказу от идеи языка мышления, в то время как сторонникам эти черты, напротив, казались привлекательными.

Дискуссия приобрела антагонистический характер, хотя многие авторы указывали на совместимость подходов. Ключевые отличия:

Компьютейшналисты строят символные модели, схожие с мозгом структурно, тогда как коннекционисты стремятся моделировать низкоуровневую структуру самих нейронных связей;
Компьютейшналисты анализируют символные структуры и синтаксические правила, а коннекционисты делают упор на обучение на стимул-ответ и хранение знаний в весах соединений;
Считается, что ментальная деятельность у первых отражает манипуляцию эксплицитными символами, вторые придерживаются представления о комплексной динамике соединений;
Часто компьютейшналисты настаивают на доменно-специфических подсистемах, коннекционисты же ограничиваются универсальными механизмами обучения.

Тем не менее, возможно, что нейронные сети — это физиологическая основа символных систем, и на практике нейросети могут моделировать манипуляцию символами так, как это предусмотрено моделями компьютейшнализма^[28]. Были предложены архитектуры, сочетающие оба подхода, например Смоленского — ICS, и CLARION Рона Суна. Однако спор остаётся открытым по вопросу: лежит ли манипуляция символами в основе мышления вообще, или является лишь высокоуровневым описанием.

Основная трудность в дискуссии заключалась в том, могли ли нейронные сети воспроизвести синтаксическую структуру рассуждений. Это было продемонстрировано для моделей с быстрой переменной связки, выходящей за рамки стандартных коннекционистских моделей^[28].

Символные модели легче интерпретировать, а коннекционистские более «тёмные» («чёрный ящик»), зачастую описываются лишь через параметры структуры и обучения. В этом смысле, коннекционистские модели воплощают теорию когнитивных процессов, но не всегда дают объяснение конкретного (смоделированного) феномена. Некоторые авторы считают, что это вызвано эмерджентными свойствами сетей, которые можно описывать в символном виде^[29].

В 2000-х интерес к динамическим системам в философии сознания добавил к спорам новый ракурс^[30];^[31] некоторые авторы считают, что граница между коннекционизмом и компьютейшнализмом теперь может быть описана как разрыв между компьютейшнализмом и динамическими системами.

В 2014 году Алекс Грейвс и сотрудники из DeepMind опубликовали работы, в которых представили структуру глубокой нейросети "Нейронная машина Тьюринга" (англ. Neural Turing Machine)^[32], способной читать и записывать символы в память. Реляционные сети, опубликованные DeepMind, осуществляют объектные представления и манипуляции, что показывает возможность интеграции символических и нейросетевых подходов.

Субсимволическая парадигма Смоленского^[33]^[34] сталкивается с проблемой Фодора-Пайлишина^[35], выдвинутой классической символной теорией. Чтобы быть полноценной альтернативой, субсимволическая теория должна объяснить систематичность и композиционность в языке и мышлении, не прибегая к классической структуре ментальных представлений. В противном случае, она либо не способна объяснить систематичность, либо превращается в архитектурную реализацию классического символизма (и уже не является собственно альтернативой)^[36]. Классический символизм характеризуется (1) комбинаторным синтаксисом и семантикой, (2) структура-зависимыми операциями — всё это воплощено в «языке мысли» Фодора (LOT)^[37].

В современных нейросетевых подходах данный вызов частично преодолён — например, в архитектуре Смоленского ICS^[38], а также в работах Вернинга и Мэя по осцилляторным сетям^[39]. Обзор приводят также Bechtel & Abrahamsen^[40], Marcus^[41] и Maurer^[42].

Недавно Хэн Чжан и соавторы показали, что формализмы представления знаний с равной выразительной мощностью рекурсивно изоморфны^[43]. Это значит, что между символным и коннекционистским способами представления знаний нет принципиальной разницы для задач общего искусственного интеллекта, а изучение одного подхода может обогащать другой.

Feldman, Jerome; Ballard, Dana. Connectionist models and their properties (1982). Cognitive Science. V6, Issue 3, pp. 205–254.
Rumelhart, D.E.; McClelland, J.L.; PDP Research Group. Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Volume 1: Foundations. Cambridge, Massachusetts: MIT Press, 1986. ISBN 978-0-262-68053-0.
McClelland, J.L.; Rumelhart, D.E.; PDP Research Group. Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Volume 2: Psychological and Biological Models. Cambridge, Massachusetts: MIT Press, 1986. ISBN 978-0-262-63110-5.
Pinker, S.; Mehler, J. Connections and Symbols. Cambridge, MA: MIT Press, 1988. ISBN 978-0-262-66064-8.
Elman, J.L.; Bates, E.A.; Johnson, M.H.; Karmiloff-Smith, A.; Parisi, D.; Plunkett, K. Rethinking Innateness: A connectionist perspective on development. Cambridge, MA: MIT Press, 1996. ISBN 978-0-262-55030-7.
Marcus, Gary F. The Algebraic Mind: Integrating Connectionism and Cognitive Science. Cambridge, Massachusetts: MIT Press, 2001. ISBN 978-0-262-63268-3.
Medler, D. A. A Brief History of Connectionism. Neural Computing Surveys, 1 (1998), 61–101. [1]
Maurer, Harald. Cognitive Science: Integrative Synchronization Mechanisms in Cognitive Neuroarchitectures of the Modern Connectionism. Boca Raton/FL: CRC Press, 2021. https://doi.org/10.1201/9781351043526. ISBN 978-1-351-04352-6.

Статья в словаре философии разума
Стэнфордская энциклопедия философии: Коннекционизм
Демонстрация сети Interactive Activation and Competition (архив: https://web.archive.org/web/20150703142148/http://srsc.ulb.ac.be/pdp/iac/IAC.html)
Internet Encyclopedia of Philosophy: Connectionism
Критика коннекционизма

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

Коннекционизм

Основной принцип

Функция активации

Память и обучение

Биологическая правдоподобность

Исторические предпосылки

Первая волна

Зима нейросетей

Вторая волна

Дебаты: коннекционизм против компьютейшнализма

Символизм против коннекционизма

Примечания

Литература

Ссылки