Адаптивная ДАП

В версиях ДАП, рассматриваемых до сих пор, весовая матрица вычисляется в виде суммы произведений пар векторов. Такие вычисления полезны, поскольку они демонстрируют функции, которые может выполнять ДАП. Однако это определенно не тот способ, посредством которого производится определение весов нейронов мозга.

Адаптивная ДАП изменяет свои веса в процессе функционирования. Это означает, что подача на вход сети обучающего набора входных векторов заставляет ее изменять энергетическое состояние до получения резонанса. Постепенно кратковременная память превращается в долговременную память, настраивая сеть в ходе ее функционирования. В процессе обучения векторы подаются на слой

$Структура ДАП$

, а ассоциированные векторы — на слой

$Структура ДАП$

. Один из них или оба вектора могут быть зашумленными версиями эталона; сеть обучается исходным векторам, свободным от шума. В этом случае она извлекает сущность ассоциаций, обучаясь эталонам, хотя "видела" только зашумленные аппроксимации.

Так как доказано, что непрерывная ДАП является стабильной независимо от значения весов, ожидается, что медленное изменение ее весов не должно нарушить этой стабильности.

Простейший обучающий алгоритм использует правило Хэбба, в котором изменение веса пропорционально уровню активации его нейрона- источника и уровню активации нейрона-приемника. В символьной записи это выглядит следующим образом:

$Структура ДАП$

где

$Структура ДАП$

— изменение веса связи нейрона

$Структура ДАП$

с нейроном

$Структура ДАП$

в матрицах

$Структура ДАП$

или

$Структура ДАП$

— выход нейрона

$Структура ДАП$

слоя 1 или 2,

$Структура ДАП$

— положительный нормирующий коэффициент обучения, меньший 1.

Емкость памяти

Как и сети Хопфилда, ДАП имеет ограничения на максимальное количество ассоциаций, которые она может точно воспроизвести. Если этот лимит превышен, сеть может выработать неверный выходной сигнал, воспроизводя ассоциации, которым не обучена.

Б. Коско получил оценки, в соответствии с которыми количество запомненных ассоциаций не может превышать количества нейронов в меньшем слое. Для этого емкость памяти должна быть максимизирована посредством специального кодирования, при котором количество компонент со значениями

$Структура ДАП$

равно количеству компонент со значениями

$Структура ДАП$

в каждом биполярном векторе. Эта оценка оказалась слишком оптимистичной. Е.Г. Рознер показал, что оценка емкости сетей Хопфилда может быть легко обобщена для ДАП. Можно показать, что если

$Структура ДАП$

векторов выбраны случайно и представлены в указанной выше форме, и если

$Структура ДАП$

меньше чем

$Структура ДАП$

), где

$Структура ДАП$

— количество нейронов в наименьшем слое, тогда все запомненные образы, за исключением "малой части", могут быть восстановлены. Например, если

$Структура ДАП$

, тогда

$Структура ДАП$

должно быть меньше 51. Если должны восстанавливаться все образы, то

$Структура ДАП$

должно быть меньше

$Структура ДАП$

, то есть меньше 25. Эти несколько озадачивающие результаты показывают, что большие системы могут запоминать только умеренное количество ассоциаций.

Известно, что ДАП может иметь до

$Структура ДАП$

стабильных состояний, если пороговое значение

$Структура ДАП$

выбирается для каждого нейрона. Такая конфигурация, которую авторы назвали негомогенной ДАП, является расширением исходной гомогенной ДАП, где все пороги были нулевыми. Модифицированная передаточная функция нейрона принимает в этом случае следующий вид:

$Структура ДАП$

где

$Структура ДАП$

— выход нейрона i в момент времени

$Структура ДАП$

С помощью выбора соответствующего порога для каждого нейрона, количество стабильных состояний может быть сделано любым в диапазоне от 1 до

$Структура ДАП$

, где

$Структура ДАП$

— количество нейронов в меньшем слое. К сожалению, эти состояния не могут быть выбраны случайно; они определяются жесткой геометрической процедурой. Если пользователь выбирает

$Структура ДАП$

состояний случайным образом, причем

$Структура ДАП$

меньше

$Структура ДАП$

, и если каждый вектор имеет

$Структура ДАП$

компонент, равных +1, и остальные, равные

$Структура ДАП$

, то можно сконструировать негомогенную ДАП, имеющую 98% этих векторов в качестве стабильных состояний.

Например, если

$Структура ДАП$

, то

$Структура ДАП$

должно быть меньше 3637, а это является существенным улучшением по сравнению с гомогенными ДАП, но намного меньше, чем

$Структура ДАП$

возможных состояний.

Ограничение количества единиц во входных векторах представляет серьезную проблему, тем более, что теория, которая позволяет перекодировать произвольный набор векторов в такой "разреженный" набор, отсутствует. Возможно, однако, что еще более серьезной является проблема некорректной сходимости. Суть этой проблемы заключается в том, что сеть может не производить точных ассоциаций вследствие природы поля притяжения; об ее форме известно очень немногое. Это означает, что ДАП не является ассоциатором по отношению к ближайшему соседнему образу. В действительности она может производить ассоциации, имеющие слабое отношение ко входному вектору. Как и в случае гомогенных ДАП, могут встречаться ложные стабильные состояния, а об их количестве и природе известно крайне мало.

Несмотря на эти проблемы, ДАП остается объектом интенсивных исследований. Основная привлекательность ДАП заключается в ее простоте. Кроме того, она может быть реализована в виде СБИС (либо аналоговых, либо цифровых), что делает ее потенциально недорогой. Так как наши знания постоянно растут, ограничения ДАП могут быть сняты. В этом случае как в экспериментальных, так и в практических приложениях ДАП будет являться весьма перспективным и полезным классом искусственных нейронных сетей.

Кодировка ассоциаций

Обычно сеть обучается распознаванию множества образов. Обучение производится с использованием обучающего набора, состоящего из пар векторов

$Структура ДАП$

. Процесс обучения реализуется в форме вычислений; это означает, что весовая матрица вычисляется как сумма произведений всех векторных пар обучающего набора. B символьной форме запишем

$Структура ДАП$

Предположим, что все запомненные образы представляют собой двоичные векторы. Это ограничение будет выглядеть менее строгим, если вспомнить, что все содержимое Библиотеки Университета может быть закодировано в один очень длинный двоичный вектор. Показано, что более высокая производительность достигается при использовании биполярных векторов. При этом векторная компонента, большая чем 0, становится

$Структура ДАП$

, а компонента, меньшая или равная 0, становится

$Структура ДАП$

Предположим, что требуется обучить сеть с целью запоминания трех пар двоичных векторов, причем векторы

$Структура ДАП$

имеют размерность такую же, как и векторы

$Структура ДАП$

. Надо отметить, что это не является необходимым условием для работы алгоритма; ассоциации могут быть сформированы и между векторами различной размерности.

Исходный вектор	Ассоциированный вектор	Бинарная версия
$Структура ДАП$	$Структура ДАП$	$Структура ДАП$	$Структура ДАП$
$Структура ДАП$	$Структура ДАП$	$Структура ДАП$	$Структура ДАП$
$Структура ДАП$	$Структура ДАП$	$Структура ДАП$	$Структура ДАП$

Вычисляем весовую матрицу:

$Структура ДАП$

Далее, прикладывая входной вектор

$Структура ДАП$

, вычисляем выходной вектор

$Структура ДАП$

Используя пороговое правило,

$Структура ДАП$

, если

$Структура ДАП$

, если

$Структура ДАП$

, не изменяется, если

$Структура ДАП$

вычисляем

$Структура ДАП$

что является требуемой ассоциацией. Затем, подавая вектор

$Структура ДАП$

через обратную связь на вход первого слоя к

$Структура ДАП$

, получаем

$Структура ДАП$

что дает значение

$Структура ДАП$

после применения пороговой функции и образует величину вектора

$Структура ДАП$

Этот пример показывает, как входной вектор

$Структура ДАП$

с использованием матрицы

$Структура ДАП$

производит выходной вектор

$Структура ДАП$

. В свою очередь, вектор

$Структура ДАП$

с использованием матрицы

$Структура ДАП$

производит вектор

$Структура ДАП$

, и таким образом в системе формируется устойчивое состояние и резонанс.

ДАП обладает способностью к обобщению. Например, если незавершенный или частично искаженный вектор подается в качестве

$Структура ДАП$

, сеть имеет тенденцию к выработке запомненного вектора

$Структура ДАП$

, который, в свою очередь, стремится исправить ошибки в

$Структура ДАП$

. Возможно, для этого потребуется несколько проходов, но сеть сходится к воспроизведению ближайшего запомненного образа.

Системы с обратной связью могут иметь тенденцию к колебаниям; это означает, что они могут переходить от состояния к состоянию, никогда не достигая стабильности. Доказано, что все ДАП безусловно стабильны при любых значениях весов сети. Это важное свойство возникает из отношения транспонирования между двумя весовыми матрицами и означает, что любой набор ассоциаций может быть использован без риска возникновения нестабильности.

Существует взаимосвязь между ДАП и рассмотренными на предыдущих лекциях сетями Хопфилда. Если весовая матрица

$Структура ДАП$

является квадратной и симметричной, то

$Структура ДАП$

. В этом случае, если слои 1 и 2 являются одним и тем же набором нейронов, ДАП превращается в автоассоциативную сеть Хопфилда.

Конкурирующая ДАП

Во многих конкурирующих нейронных системах наблюдаются некоторые виды конкуренции между нейронами. В нейронах, обрабатывающих сигналы от сетчатки, латеральное торможение приводит к увеличению выхода наиболее высокоактивных нейронов за счет соседних. Такие системы увеличивают контрастность, поднимая уровень активности нейронов, подсоединенных к яркой области сетчатки, и в то же время еще более ослабляя выходы нейронов, подсоединенных к темным областям. В ДАП конкуренция реализуется с помощью взаимного соединения нейронов внутри каждого слоя посредством дополнительных связей. Веса этих связей формируют другую весовую матрицу с положительными значениями элементов главной диагонали и отрицательными значениями остальных элементов. Теорема Кохонена-Гроссберга показывает, что такая сеть является безусловно стабильной, если весовые матрицы симметричны. На практике сети обычно стабильны даже в случае отсутствия симметрии весовых матриц. Однако неизвестно, какие особенности весовых матриц могут привести к неустойчивости функционирования сети.

Непрерывная ДАП

В предшествующем обсуждении нейроны в слоях 1 и 2 рассматривались как синхронные; каждый нейрон обладает памятью, причем все нейроны изменяют состояния одновременно под воздействием импульса от центральных часов. В асинхронной системе любой нейрон свободен изменять состояние в любое время, когда его вход предписывает это сделать.

Кроме того, при определении функции активации нейрона использовался простой порог, образуя разрывность передаточной функции нейронов. Как синхронность функционирования, так и разрывность функций являются биологически неправдоподобными и совсем необязательными; непрерывные асинхронные ДАП отвергают синхронность и разрывность, но функционируют в основном аналогично дискретным версиям. Может показаться, что такие системы должны быть нестабильными. Показано, что непрерывные ДАП являются стабильными (однако для них справедливы ограничения емкости, указанные ранее). С. Гроссберг показал, что сигмоида является оптимальной функцией активации благодаря ее способности усиливать низкоуровневые сигналы и в то же время сжимать динамический диапазон нейронов. Непрерывная ДАП может иметь сигмоидальную функцию с величиной

$Структура ДАП$

, близкой к единице, и создавать тем самым нейроны с плавной и непрерывной реакцией, во многом аналогичной реакции их биологических прототипов.

Структура ДАП

На рис. 10.1 приведена базовая конфигурация ДАП. Она выбрана таким образом, чтобы подчеркнуть сходство с сетями Хопфилда и предусмотреть увеличения количества слоев. На рис. 10.1 входной вектор

$Структура ДАП$

обрабатывается матрицей весов

$Структура ДАП$

сети, в результате чего вырабатывается вектор выходных сигналов нейронов

$Структура ДАП$

. Вектор

$Структура ДАП$

затем обрабатывается транспонированной матрицей

$Структура ДАП$

весов сети, которая вырабатывает новые выходные сигналы, представляющие собой новый входной вектор

$Структура ДАП$

. Процесс повторяется до тех пор, пока сеть не достигнет стабильного состояния, в котором ни вектор

$Структура ДАП$

, ни вектор

$Структура ДАП$

не изменяются. Заметим, что нейроны в слоях 1 и 2 функционируют, как и в других парадигмах, вычисляя сумму взвешенных входов и вычисляя по ней значение функции активации

$Структура ДАП$

. Этот процесс может быть выражен следующим образом:

$Структура ДАП$

или в векторной форме:

$Структура ДАП$

где

$Структура ДАП$

— вектор выходных сигналов нейронов слоя 2,

$Структура ДАП$

— вектор выходных сигналов нейронов слоя 1,

$Структура ДАП$

— матрица весов связей между слоями 1 и 2,

$Структура ДАП$

— функция активации.

Рис. 10.1.

Аналогично,

$Структура ДАП$

где

$Структура ДАП$

является транспозицией матрицы

$Структура ДАП$

Как отмечено нами ранее, Гроссберг показал преимущества использования сигмоидальной (логистической) функции активации

$Структура ДАП$

где

$Структура ДАП$

— выход нейрона

$Структура ДАП$

— взвешенная сумма входных сигналов нейрона

$Структура ДАП$

— константа, определяющая степень кривизны.

В простейших версиях ДАП значение константы

$Структура ДАП$

выбирается большим, в результате чего функция активации приближается к простой пороговой функции. В дальнейшем будем предполагать, что используется пороговая функция активации.

Примем также, что существует память внутри каждого нейрона в слоях 1 и 2 и что выходные сигналы нейронов изменяются одновременно с каждым тактом синхронизации, оставаясь постоянными в паузах между этими тактами. Таким образом, поведение нейронов может быть описано следующими правилами:

$Структура ДАП$

где

$Структура ДАП$

представляет собой величину выходного сигнала нейрона

$Структура ДАП$

в момент времени

$Структура ДАП$

Заметим, что, как и в описанных ранее сетях, слой 0 не производит вычислений и не имеет памяти; он является только средством распределения выходных сигналов слоя 2 к элементам матрицы

$Структура ДАП$

Восстановление запомненных ассоциаций

Долговременная память (или ассоциации) реализуется в весовых массивах

$Структура ДАП$

. Каждый образ состоит из двух векторов: вектора

$Структура ДАП$

, являющегося выходом слоя 1, и вектора

$Структура ДАП$

, ассоциированного образа, являющегося выходом слоя 2. Для восстановления ассоциированного образа вектор

$Структура ДАП$

или его часть кратковременно устанавливаются на выходах слоя 1. Затем вектор

$Структура ДАП$

удаляется, и сеть приводится в стабильное состояние, вырабатывая ассоциированный вектор

$Структура ДАП$

на выходе слоя 2. Далее вектор

$Структура ДАП$

воздействует через транспонированную матрицу

$Структура ДАП$

, воспроизводя воздействие исходного входного вектора

$Структура ДАП$

на выходе слоя 1. Каждый такой цикл вызывает уточнение выходных векторов слоя 1 и 2 до тех пор, пока не будет достигнута точка стабильности в сети. Эта точка может быть определена как резонансная, поскольку вектор передается обратно и вперед между слоями сети, всегда обрабатывая текущие выходные сигналы, но больше не изменяя их. Состояние нейронов представляет собой кратковременную память (КП), так как оно может быстро изменяться при появлении другого входного вектора. Значения коэффициентов весовой матрицы образуют долговременную память и могут изменяться только на более длительном отрезке времени с помощью методов, представленных ниже в данной лекции.

Сеть функционирует в направлении минимизации функции энергии Ляпунова в основном таким же образом, как и сети Хопфилда в процессе сходимости. Следовательно, каждый цикл модифицирует систему в направлении энергетического минимума, расположение которого определяется значениями весов.

Этот процесс может быть визуально представлен в форме направленного движения мяча по резиновой ленте, вытянутой над столом, причем каждому запомненному образу соответствует точка, "вдавленная" в направлении поверхности стола. Рис. 10.2 иллюстрирует данную аналогию, на нем отмечен один запомненный образ. Данный процесс формирует минимум гравитационной энергии в каждой точке, соответствующей запомненному образу, с соответствующим искривлением поля притяжения в направлении к данной точке. Свободно движущийся мяч попадает в поле притяжения и в результате будет двигаться в направлении энергетического минимума, где и остановится.

Рис. 10.2.

Главная сайта