Коннекционизм
Коннекционизм (англ. connectionism) — подход в когнитивных науках и исследовании человеческих психических процессов, основанный на использовании математических моделей, известных как коннекционистские сети или искусственные нейронные сети[1].
В развитии коннекционизма выделяют несколько «волн». Первая волна началась в 1943 году с работ Уоррена МакКаллока и Уолтера Питтса, которые стремились математически описать нейронные цепи[2], и Фрэнка Розенблатта, который в 1958 году опубликовал статью «Перцептрон: вероятностная модель хранения и организации информации в мозге» в Psychological Review, работая в Корнелльской аэрокосмической лаборатории[3]. Завершилась первая волна в 1969 году после выхода книги Марвина Минского и Сеймура Пейперта, критикующей ограничения исходного перцептрона, что привело к снижению финансирования исследований в этой области в США[4]. Термин «коннекционистская модель» был вновь введён Джеромом Фельдманом и Даной Баллардом в статье 1982 года в журнале Cognitive Science.
Вторая волна началась в конце 1980-х годов, после выхода в 1987 году книги о параллельной распределенной обработке (Parallel Distributed Processing) Джеймса МакКлелланда, Дэвида Румельхарта и соавторов, где были представлены усовершенствования простой идеи перцептрона: введение промежуточных «скрытых» слоев и использование сигмоидальной функции активации (активации) вместо прежней пороговой функции. Их работа базировалась на исследованиях Джона Хопфилда, изучавшего математические характеристики сигмоидальных функций активации[3]. В конце 1980-х и начале 1990-х годов в психологии и философии обсуждалась возможность парадигмального сдвига в сторону коннекционизма[5]. Преимуществами такого подхода стали универсальность, структурная близость к биологическим нейронным сетям, низкая требовательность к врожденным структурам, способность к грациозной деградации[6]. К недостаткам относили сложность понимания внутренней работы ИНС или объяснения композициональности психических представлений, а также трудности объяснения феноменов на более высоком уровне[7].
Современная, «третья» волна связана с развитием глубинного обучения, что позволило создавать большие языковые модели[3]. Успех глубоких нейронных сетей за последнее десятилетие значительно повысил популярность этого подхода, однако сложность и масштаб таких сетей привели к новым проблемам интерпретируемости[8].
Основной принцип
Центральная идея коннекционизма состоит в том, что психические явления могут быть описаны через взаимосвязанные сети простых и, как правило, однородных элементов. Форма связей и сами элементы могут различаться в зависимости от модели. Так, элементы сети могут моделировать нейроны, а связи — синапсы, как в мозге человека. Этот принцип рассматривается как альтернатива подходу традиционного ИИ (GOFAI) и классическим теориям разума, основанным на символьных вычислениях, однако вопрос о совместимости этих подходов остаётся предметом обсуждений[8].
Внутренние состояния сети меняются во времени благодаря передаче сигналов от нейронов одного слоя к следующему (в прямой сети) или к предыдущему (в рекуррентных сетях). Открытие нелинейных функций активации позволило реализовать вторую волну коннекционизма.
Нейронные сети основаны на двух принципах:
- Любое ментальное состояние можно представить как n-мерный вектор числовых значений активации по элементам сети.
- Память и обучение возникают за счет модификации «весов» связей между элементами сети, как правило, в виде n×m матрицы. Веса корректируются по определённому правилу обучения или алгоритму, например, по принципу Гебба.
Различия между моделями обусловлены:
- Интерпретацией элементов: элементы могут пониматься как отдельные нейроны или их группы.
- Определением активации: активация может задаваться по-разному, например, в машине Больцмана — это, скорее, вероятность генерации сигнала и определяется через логистическую функцию по сумме входов.
- Алгоритмом обучения: различные сети модифицируют связи разными способами. Любые математически задаваемые изменения весов называются «алгоритмом обучения».
Работы в области коннекционизма, как правило, не требуют строгого соответствия биологическим процессам[9]. Одной из областей, где модели считаются биологически малореалистичными, является обратное распространение ошибки, необходимое для обучения[10], однако такие процессы могут объяснять часть биологических проявлений активности мозга при исследовании вызванных потенциалов — например, компонентов N400 и P600 в нейрофизике[11]. Многие рекуррентные сети также используют теорию динамических систем. Исследователи, такие как Пол Смоленский, считают, что коннекционистские модели станут полностью непрерывными, многомерными нелинейными динамическими системами.
Исторические предпосылки
Истоки коннекционистских принципов можно проследить в работах ранней психологии, таких как труды Уильяма Джеймса[12]. В конце XIX века были популярны психологические теории, основывающиеся на знании о мозге человека. Уже в 1869 году невролог Джон Хаглингс-Джексон рассматривал распределённые системы с несколькими уровнями. Вслед за ним Герберт Спенсер («Principles of Psychology», 3-е изд., 1872) и Зигмунд Фрейд («Проект научной психологии», 1895) также развивали коннекционистские или близкие к ним теории. Эти теории часто имели спекулятивный характер. В начале XX века Эдвард Торндайк уже рассматривал обучение человека как процесс, реализуемый коннекционистской сетью[13].
Сети Хопфилда имеют предшественников в модели Изинга, разработанной Вильгельмом Ленцем (1920) и Эрнстом Изингом (1925), хотя их модель не принимала во внимание время. Компьютерное моделирование по методу Монте-Карло для задачи Изинга стало возможным только с появлением ЭВМ в 1950-х годах[14].
Первая волна
Первая волна началась в 1943 году с работ Уоррена МакКаллока и Уолтера Питтса, которые математически моделировали нейронные цепи. МакКаллок и Питтс показали, что нейронные системы могут реализовать логику первого порядка: их классическая статья «Логическое исчисление идей, скрытых в деятельности нервной системы» (1943) считается ключевой для этого направления. Они испытали влияние работ Николая Рашевского 1930-х годов и идей из Principia Mathematica[2].
Доналд Хебб предложил принцип обучения — Геббовское обучение, а Карл Лешли отстаивал идею распределённых представлений, поскольку не смог найти локализованных энграмм в ходе многочисленных экспериментов по повреждению мозга. Фридрих Хайек независимо пришёл к подобной модели сначала в неопубликованной рукописи 1920 года[15],[16] затем — в книге 1952 года[17].
Машины-перцептроны были предложены и реализованы Фрэнком Розенблаттом, который в 1958 году опубликовал статью «Перцептрон: вероятностная модель хранения и организации информации в мозге», ссылаясь на Хебба, Хайека, Аттли и Эшби.
Другой вариант коннекционистской модели — реляционная сеть, разработанная лингвистом Сидни Лэмбом в 1960-х.
Группа под руководством Видро экспериментально искала методы обучения двухслойных сетей ADALINE (MADALINE), хотя успех был ограничен[18].
Метод обучения многослойных перцептронов произвольной глубины был опубликован Алексеем Ивахненко и Валентином Лапой в 1965 году — так называемый метод группового учёта аргументов (МГУА). Этот способ предполагает поэтапное обучение слоями с регрессионным анализом и отсевом лишних узлов на промежуточных слоях на основе валидационных выборок[19].
В 1967 году Сюнъити Амари опубликовал работу об обучении многослойных перцептронов методом стохастического градиентного спуска[20]. Эксперименты Амари и его ученика Сайто с 5-слойным МЛП с двумя изменяемыми слоями подтвердили формирование внутренних представлений для классификации нелинейно неразделимых образцов[21].
В 1972 году Сюнъити Амари предложил один из первых примеров самоорганизующейся нейросети[22].
Зима нейросетей
В конце 1960-х в сообществе искусственного интеллекта возникли сомнения о реальной пользе нейронных сетей. Примерно с конца 1960-х по 1970-е наблюдался спад исследований и публикаций в этой области, так называемая «зима нейросетей», когда ИИ переключился на символные методы. Публикация книги Perceptrons (1969) считается катализатором этого явления.
Вторая волна
Вторая волна началась в начале 1980-х. Ключевыми публикациями считаются статьи Джона Хопфилда (1982)[23], популяризовавшие сети Хопфилда, статья 1986 года об обратном распространении ошибки[24], и двухтомник Parallel Distributed Processing (PDP, 1987) Дж. МакКлелланда, Д. Румельхарта и др., где описаны такие усовершенствования, как скрытые слои и сигмоидальная функция активации.
Вклад Хопфилда заключался в применении методов статистической механики для обоснования математики нейросетей[3].
Важной вехой стала теорема о универсальной аппроксимации функций искусственными нейронными сетями[25].
В этот период появились известные демонстрационные проекты: NETtalk (1987) учился произносить написанный английский и приобрёл популярность в СМИ[26], TD-Gammon (1992) достиг уровня сильнейших игроков в нарды[27].
Дебаты: коннекционизм против компьютейшнализма
С ростом популярности коннекционизма в конце 1980-х года многие исследователи (включая Джерри Фодора, Стивена Пинкера и других) выступили против, считая, что коннекционизм угрожает результатам классического компьютейшнализма, согласно которому познание осуществляется посредством формальных операций над символами (аналогично машине Тьюринга). Критики рассматривали коннекционизм как возврат к ассоцианизму и отказу от идеи языка мышления, в то время как сторонникам эти черты, напротив, казались привлекательными.
Дискуссия приобрела антагонистический характер, хотя многие авторы указывали на совместимость подходов. Ключевые отличия:
- Компьютейшналисты строят символные модели, схожие с мозгом структурно, тогда как коннекционисты стремятся моделировать низкоуровневую структуру самих нейронных связей;
- Компьютейшналисты анализируют символные структуры и синтаксические правила, а коннекционисты делают упор на обучение на стимул-ответ и хранение знаний в весах соединений;
- Считается, что ментальная деятельность у первых отражает манипуляцию эксплицитными символами, вторые придерживаются представления о комплексной динамике соединений;
- Часто компьютейшналисты настаивают на доменно-специфических подсистемах, коннекционисты же ограничиваются универсальными механизмами обучения.
Тем не менее, возможно, что нейронные сети — это физиологическая основа символных систем, и на практике нейросети могут моделировать манипуляцию символами так, как это предусмотрено моделями компьютейшнализма[28]. Были предложены архитектуры, сочетающие оба подхода, например Смоленского — ICS, и CLARION Рона Суна. Однако спор остаётся открытым по вопросу: лежит ли манипуляция символами в основе мышления вообще, или является лишь высокоуровневым описанием.
Основная трудность в дискуссии заключалась в том, могли ли нейронные сети воспроизвести синтаксическую структуру рассуждений. Это было продемонстрировано для моделей с быстрой переменной связки, выходящей за рамки стандартных коннекционистских моделей[28].
Символные модели легче интерпретировать, а коннекционистские более «тёмные» («чёрный ящик»), зачастую описываются лишь через параметры структуры и обучения. В этом смысле, коннекционистские модели воплощают теорию когнитивных процессов, но не всегда дают объяснение конкретного (смоделированного) феномена. Некоторые авторы считают, что это вызвано эмерджентными свойствами сетей, которые можно описывать в символном виде[29].
В 2000-х интерес к динамическим системам в философии сознания добавил к спорам новый ракурс[30];[31] некоторые авторы считают, что граница между коннекционизмом и компьютейшнализмом теперь может быть описана как разрыв между компьютейшнализмом и динамическими системами.
В 2014 году Алекс Грейвс и сотрудники из DeepMind опубликовали работы, в которых представили структуру глубокой нейросети "Нейронная машина Тьюринга" (англ. Neural Turing Machine)[32], способной читать и записывать символы в память. Реляционные сети, опубликованные DeepMind, осуществляют объектные представления и манипуляции, что показывает возможность интеграции символических и нейросетевых подходов.
Символизм против коннекционизма
Субсимволическая парадигма Смоленского[33][34] сталкивается с проблемой Фодора-Пайлишина[35], выдвинутой классической символной теорией. Чтобы быть полноценной альтернативой, субсимволическая теория должна объяснить систематичность и композиционность в языке и мышлении, не прибегая к классической структуре ментальных представлений. В противном случае, она либо не способна объяснить систематичность, либо превращается в архитектурную реализацию классического символизма (и уже не является собственно альтернативой)[36]. Классический символизм характеризуется (1) комбинаторным синтаксисом и семантикой, (2) структура-зависимыми операциями — всё это воплощено в «языке мысли» Фодора (LOT)[37].
В современных нейросетевых подходах данный вызов частично преодолён — например, в архитектуре Смоленского ICS[38], а также в работах Вернинга и Мэя по осцилляторным сетям[39]. Обзор приводят также Bechtel & Abrahamsen[40], Marcus[41] и Maurer[42].
Недавно Хэн Чжан и соавторы показали, что формализмы представления знаний с равной выразительной мощностью рекурсивно изоморфны[43]. Это значит, что между символным и коннекционистским способами представления знаний нет принципиальной разницы для задач общего искусственного интеллекта, а изучение одного подхода может обогащать другой.
Примечания
Литература
- Feldman, Jerome; Ballard, Dana. Connectionist models and their properties (1982). Cognitive Science. V6, Issue 3, pp. 205–254.
- Rumelhart, D.E.; McClelland, J.L.; PDP Research Group. Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Volume 1: Foundations. Cambridge, Massachusetts: MIT Press, 1986. ISBN 978-0-262-68053-0.
- McClelland, J.L.; Rumelhart, D.E.; PDP Research Group. Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Volume 2: Psychological and Biological Models. Cambridge, Massachusetts: MIT Press, 1986. ISBN 978-0-262-63110-5.
- Pinker, S.; Mehler, J. Connections and Symbols. Cambridge, MA: MIT Press, 1988. ISBN 978-0-262-66064-8.
- Elman, J.L.; Bates, E.A.; Johnson, M.H.; Karmiloff-Smith, A.; Parisi, D.; Plunkett, K. Rethinking Innateness: A connectionist perspective on development. Cambridge, MA: MIT Press, 1996. ISBN 978-0-262-55030-7.
- Marcus, Gary F. The Algebraic Mind: Integrating Connectionism and Cognitive Science. Cambridge, Massachusetts: MIT Press, 2001. ISBN 978-0-262-63268-3.
- Medler, D. A. A Brief History of Connectionism. Neural Computing Surveys, 1 (1998), 61–101. [1]
- Maurer, Harald. Cognitive Science: Integrative Synchronization Mechanisms in Cognitive Neuroarchitectures of the Modern Connectionism. Boca Raton/FL: CRC Press, 2021. https://doi.org/10.1201/9781351043526. ISBN 978-1-351-04352-6.
Ссылки
- Статья в словаре философии разума
- Стэнфордская энциклопедия философии: Коннекционизм
- Демонстрация сети Interactive Activation and Competition (архив: https://web.archive.org/web/20150703142148/http://srsc.ulb.ac.be/pdp/iac/IAC.html)
- Internet Encyclopedia of Philosophy: Connectionism
- Критика коннекционизма


