Обучение с частичным привлечением учителя

Обучение с частичным привлечением учителя (англ. Semi-supervised learning) (также полуавтоматическое обучение или частичное обучение) — способ машинного обучения, разновидность обучения с учителем, которое также использует неразмеченные данные для тренировки — обычно небольшое количество размеченных данных и большое количество неразмеченных данных.

Обучение с частичным привлечением учителя занимает промежуточную позицию между обучением без учителя (без привлечения каких-либо размеченных данных для тренировки) и обучением с учителем (с привлечением лишь размеченных данных).

Многие исследователи машинного обучения обнаружили, что неразмеченные данные, при использовании в сочетании с небольшим количеством размеченных данных, могут значительно улучшить точность обучения.

Задание размеченных данных для задачи обучения часто требует квалифицированного человека (например, для перевода звуковой дорожки в текст) или физического эксперимента (например, для определения 3D структуры белка или выявления наличия нефти в определенном регионе). Поэтому затраты на разметку данных могут сделать процесс обучения с использованием лишь размеченных данных невыполнимым, в то время как процесс задания неразмеченных данных не является очень затратным. В таких ситуациях, полуавтоматическое обучения может иметь большое практическое значение. Такое обучение также представляет интерес в сфере машинного обучения и как модель для человеческого обучения.

Задача обучения

Как и в рамках обучения с учителем, нам дается множество независимых одинаково распределенных примеров с соответствующими пометками . Кроме того, нам дано неразмеченных примеров . Цель полуавтоматической обучения заключается в том, чтобы использовать эту комбинированную информацию для достижения лучших результатов производительности классификации, которую можно получить или путем отбрасывания неразмеченных данных и использование обучения с учителем, или путем отбрасывания меток и использование обучения без учителя.

Полуавтоматическое обучение может принадлежать к трансдуктивному обучению[en] или индуктивного обучения. Целью трансдуктивного обучения является выведение правильных меток только для неразмеченных данных . Целью индукции является выведение правильного отображения из в .

Мы можем представлять задачу обучения как экзамен, а размеченные данные — как несколько примеров, которые учитель решил в классе. Учитель также предоставляет набор нерешенных задач. В постановке трансдуктивного обучения, эти нерешенные задачи является экзаменом, который забирают домой, и вы хотите хорошо его составить в целом. В постановке индуктивного обучения, эти практические задачи являются подобными тем, с которыми вы столкнетесь на экзамене в классе. Необязательно (и, согласно принципу Вапника[en], неблагоразумно) проводить трансдуктивные обучения путем логического вывода правила классификации для всех входных данных. Однако, на практике, алгоритмы, формально предназначенные для трансдукции или индукции, часто используются как взаимозаменяемые.

Предположения, которые используются в полуавтоматическом обучении

Для того, чтобы использовать неразмеченные данные, нужно присвоить некоторую структуру для основного распределения данных. Алгоритмы полуавтоматического обучения используют по крайней мере одно из таких предположений[1].

Предположение плавности

Точки, которые лежат близко друг от друга, размечены одинаково с большей вероятностью. Такое же предположение в основном используется и в обучении с учителем и дает преимущество в использовании геометрически простых решений. В случае полуавтоматического обучения, предположение плавности дополнительно дает преимущество для разграничения в регионах с низкой плотностью, где меньше точек, которые расположены близко друг от друга, но разных классов.

Предположение кластеризованности

Данные, как правило, образуют дискретные кластеры, и точки из одного кластера размечены одинаково с большей вероятностью (хотя данные, которые используют одинаковые метки, могут быть расположены в нескольких различных кластерах). Это особый случай предположения плавности, который приводит к обучение признаков используя алгоритмы кластеризации.

Предположение избыточности данных

Это предположение применимо, когда измерения данных избыточны, то есть генерируются определенным процессом, имеющим только несколько степеней свободы. В этом случае неразмеченные данные позволяют изучить генерирующий процесс и за счёт этого снизить размерность.

Например, человеческий голос контролируется несколькими голосовыми связками[2], а изображение различных выражений лица контролируются несколькими мышцами. В этих случаях удобнее использовать генерирующее пространство, чем пространство всех возможных акустических волн или изображений, соответственно.

История

Эвристический подход к самообучению является наиболее ранним[1]. Он начал применяться с 1960-х годов (см., например, Scudder 1965[3]).

Основы трансдуктивного обучения были изложены Владимиром Вапником в 1970-х годах[4]. В 1970-е годы также появился интерес к индуктивному обучению с использованием генеративных моделей. Применение приближенного правильного обучения [en] для полуавтоматического обучения на основе модели гауссовой смеси было продемонстрировано Ратсаби и Венкатешем в 1995 году[5].

Полуавтоматическое обучения в последнее время становится все более популярным и растет его актуальность в связи с целым рядом задач, для которых доступно огромное количество неразмеченных данных (например, текст веб страниц, последовательности белков или изображения. Обзор последних работ в этой области см. Чжу (2008)[6].

Подходы к полуавтоматическому обучению

Генеративные модели

Генеративные подходы к статистическому изучению в первую очередь стремятся оценить , распределение точек данных для каждого класса. Вероятность такая, что данная точка имеет метку , будет пропорциональной по теореме Байеса. Полуавтоматическое обучения с использованием генеративных подходов можно рассматривать либо как расширение обучения с учителем (классификация и информация о ), или как расширение обучения без учителя (кластеризация и некоторые метки).

Генеративные модели предполагают, что распределения принимают определенную форму , параметризованную вектором . Если эти предположения являются неправильными, то неразмеченные данные могут фактически снизить точность решения по сравнению с тем, которое было бы получено только с размеченных данных[7]. Однако, если эти предположения верны, то неразмеченные данные обязательно повысят результативность[5].

Неразмеченные данные распределены согласно смеси индивидуально-классовых разделений. Для того, чтобы распределение смеси из неразмеченных данных подлежал изучению, эти данные должны быть узнаваемыми, то есть различные параметры должны приводить к различным итоговых распределений. Распредели гауссовой смеси являются узнаваемыми и обычно используются в генеративных моделях.

Параметризованный совместное распределение можно записать в виде с помощью цепного правила. Каждый вектор связан с функцией . Затем параметр выбирается на основе подгонки как к размеченных там и до неразмеченных данных, уравновешенных с помощью :

[6]

Разделение низкой плотности

Это ещё один важный класс методов, который пытается разграничить регионы, в которых есть несколько точек с данными (размеченными или неразмеченными). Одним из наиболее часто используемых алгоритмов является трансдуктивный метод опорных векторов, или ТМОВ (который, несмотря на название, может также быть использованным для индуктивного обучения). В то время как метод опорных векторов для обучения с учителем ищет решение разделяющей поверхности с максимальным зазором в размеченных данных, целью ТМОВ является обозначение неразмеченных данных таким образом, что решение разделяющей поверхности имеет максимальный зазор в сравнении со всеми данными. В дополнение к стандартной петле потери для размеченных данных, функция потерь вводится и для неразмеченных данных, обозначив . ТМОВ потом выбирает с гильбертова пространства воспроизводимого ядра путем минимизации регуляризованого эмпирического риска[en]:

Точное решение является неразрешимым из-за невыпуклого члена , поэтому исследования сосредоточены на поиске полезных приближений[6].

Другие подходы, которые осуществляют распределение низкой плотности, включают в себя модели гауссова процесса, упорядочение информации, и минимизацию энтропии (из которых ТМОВ является частным случаем).

Методы на основе графов

Методы на основе графов для полуавтоматической обучения используют данные, представленные при помощи графа, с узлом для каждого размеченного или неразмеченного примера. Граф может быть построен с использованием знаний в предметной области или на основе сходства примеров. Два общих подхода включают соединение каждой точки данных с её ближайшими соседями или с примерами на расстоянии в пределах . Вес ребра между и устанавливается равным .

В рамках регуляризации многообразия[8][9] граф служит как представитель многообразия. Выражение добавляется к стандартной задаче регуляризации Тихонова для обеспечения гладкости решения относительно многовидності (в собственном пространстве задачи), а также окружающей входного пространства. Задачей минимизации становится:

[6]

где  — это гильбертово пространство воспроизводимого ядра, а  — многовид данным. Параметры регуляризации и контролируют гладкость в близлежащих и внутренних пространствах соответственно. Граф используется для аппроксимации внутреннего регуляризующего члена. Определив матрицу Кирхгофа[en] , где и вектор, получаем:

Эвристические подходы

Некоторые из методов полуавтоматического обучения не приспособлены для использования одновременно как размеченных так и неразмеченных данных, но зато могут привлекать неразмеченные данные для обучения с учителем. Например, размеченные и неразмеченные примеры могут информировать о способе представления, метрику, или ядра данных на первом шаге без учителя. Тогда обучение с учителем обрабатывает только размеченные примеры.

Самообучение — метод-обертка полуавтоматического обучения[10]. Первоначально обучение с учителем обрабатывает только размеченные данные. Этот классификатор затем применяется к неразмеченным данным, чтобы сгенерировать больше размеченных примеров для обучения с учителем. В общем, можно быть уверенным, что только метки классификатора добавляются на каждом шагу[11].

Совместное обучение является расширением самообучения, при котором несколько классификаторов прорабатывают разные (в идеале, непересекающиеся) множества признаков и генерируют размеченные примеры друг для друга.[12]

Полуавтоматическое обучение в человеческом восприятии

Человеческие ответы на формальные задачи полуавтоматического обучения принесли различные выводы относительно степени влияния неразмеченных данных (краткое изложение см.[13]). Много задач естественного обучения также можно рассматривать как примеры полуавтоматического обучения. Большинство принципов человеческого обучения предусматривает небольшое количество прямых инструкций (например, разметка объектов родителями в детстве) в совокупности с огромным количеством неразмеченных примеров (например, наблюдения за объектами не называя или не считая их, или по крайней мере не описывая их).

Младенцы чувствительны к структуре неразмеченных данных, таких как изображения собак и кошек, или мужских и женских лиц[14]. Недавние исследования обнаружили, что младенцы и дети учитывают не только доступные неразмеченные примеры, но и процесс отбора из них, в результате которого возникают размеченные примеры[15][16].

См. также

Источники

Ссылки