7. Другие иерархические архитектуры

Лекция

Привет, сегодня поговорим про иерархические архитектуры, обещаю рассказать все что знаю. Для того чтобы лучше понимать что такое иерархические архитектуры, сеть кохонена–гроссберга, карта самоорганизации кохонена.моделm липпмана-хемминга, звезды гроссберга , настоятельно рекомендую прочитать все из категории Computational Neuroscience (вычислительная нейронаука) Теория и приложения искусственных нейронных сетей.

Командные нейроны и нейроны-детекторы Гроссберга. Принцип "Победитель Забирает Все" (WTA). Модель Липпмана-Хемминга. Карта самоорганизации Кохонена. Сети встречного распространения.

В этой лекции будут рассмотрены различные компоненты однородных (состоящих из нейронов одного типа) и неоднородных нейронных сетей. Некоторые преимущества иерархических архитектур - более развитая способность к обобщению, отсутствие жестких ограничений на типы представимых отображений с сохранением простоты нейронной функции и свойства массивной параллельности при обработке информации - уже были нами изучены на лекции, посвященной многослойному персептрону с обучением методом обратного распространения ошибок. Теперь мы познакомимся с иными подходами к построению нейросетей и методам обучения, и в частности, с методом обучения без учителя на основе самоорганизации.

звезды гроссберга

Идеи, отраженные в исследованиях Стефана Гроссберга на заре биологической кибернетики, положены в основу многих последующих нейросетевых разработок. Поэтому мы начинаем наше рассмотрение иерархических архитектур с конфигураций входных и выходных звезд Гроссберга (S. Grossberg, 1969).

Предложены Гроссбергом . Доказано, что являются моделями отдельных участков биологического мозга.

Известны входные звезды Гроссберга (Instar) и выходные звезды Гроссберга (Outstar).

Входная звезда реагирует на определенный входной вектор, которому она обучена.

В процессе обучения модификация весовых коэффициентов производится по формуле:

w_i(t+1) = w_i(t) + η (x_i-w_i(t)),

где η – коэффициент скорости обучения (в начальный момент равен 0.1, в процессе обучения сокращается до 0).

Обучение по такой формуле приближает весовой вектор к усредненному вектору обучающих образов. При этом звезда обучается реагировать на любой вектор этого определенного класса.

Используется в сетях распознавания образов.

И достоинства и недостатки сети заключены в ее простоте. Вследствие простоты использование звезды для решения сложных задач распознавания ограничено.

Как и входная звезда, выходная звезда используется как хранилище набора весовых коэффициентов. Решает обратную задачу: при наличии возбуждающего сигнала выставляет вектор весов на свои выходы.

Обучение производится итеративной настройкой на требуемой вектор весов по формуле:

w_i(t+1) = w_i(t) + η (y_i-w_i(t)).

Достоинства и недостатки аналогичны входной звезде.

Нейрон в форме входной звезды имеет N входов X₁..X_N, которым соответствуют веса W₁..X_N, и один выход Y, являющийся взвешенной суммой входов. Входная звезда обучается выдавать сигнал на выходе всякий раз, когда на входы поступает определенный вектор. Таким образом, входная звезда является детектором совокупного состояния своих входов. Процесс обучения представляется в следующей итерационной форме:

7. Другие иерархические архитектуры

Темп обучения a имеет начальное значение масштаба 0.1 и постепенно уменьшается в процессе обучения. В процессе настройки нейрон учится усредненным обучающим векторам.

Выходная звезда Гроссберга выполняет противоположную функцию - функцию командного нейрона, выдавая на выходах определенный вектор при поступлении сигнала на вход. Нейрон этого типа имеет один вход и M выходов с весами W1..M, которые обучаются по формуле:

7. Другие иерархические архитектуры

Рекомендуется начать c b порядка единицы и постепенно уменьшать до нуля в процессе обучения. Итерационный процесс будет сходиться к собирательному образу, полученному из совокупности обучающих векторов.

Особенностью нейронов в форме звезд Гроссберга является локальность памяти. Каждый нейрон в форме входной звезды помнит "свой" относящийся к нему образ и игнорирует остальные. Каждой выходной звезде присуща также конкретная командная функция. Образ памяти связывается с определенным нейроном, а не возникает вследствие взаимодействия множества нейронов в сети.

Входная звезда Гроссберга

7. Другие иерархические архитектуры

Выходная звезда Гроссберга

7. Другие иерархические архитектуры

Принцип Winner Take All (WTA) - Победитель Забирает Все - в модели Липпмана-Хемминга.

Рассмотрим задачу о принадлежности образа x некоторому классу Xk, определяемому заданными библиотечными образами xk. Об этом говорит сайт https://intellect.icu . Каждый из заданных образов обучающей выборки непосредственно определяет свой собственный класс, и таким образом, задача сводится к поиску "ближайшего" образа. В случае двух двоичных (0-1) образов расстояние между ними может быть определено по Хеммингу, как число несовпадающих компонент. Теперь после вычисления всех попарных расстояний 7. Другие иерархические архитектуры искомый класс определяется по наименьшему из них.

Нейросетевое решение этой задачи может быть получено на основе архитектуры Липпмана-Хемминга (Lippman R., 1987). Сеть имеет один слой одинаковых нейронов, число которых равно количеству классов. Таким образом, каждый нейрон "отвечает" за свой класс. Каждый нейрон связан с каждым из входов, число которых равно размерности рассматриваемых библиотечных образов. Веса связей полагаются равными нормированным библиотечным образам:

7. Другие иерархические архитектуры

Здесь 7. Другие иерархические архитектуры - значение веса связи от n-го входа к m-му нейрону (см. рис.7.1.). Процесс поступления информации о векторе x в нейронную сеть является безитерационным. При этом входной вектор сначала нормируется:

7. Другие иерархические архитектуры

и нейроны принимают начальные уровни активности:

7. Другие иерархические архитектуры

Здесь f(x) - переходная функция (функция активации) нейрона, которая выбирается равной нулю при x<0, и f(x)=x при x>0. Пороги Q полагаются обычно равными нулю.

7. Другие иерархические архитектуры

Рис. 7.1. Нейронная сеть Липпмана-Хемминга.

При поступлении входного вектора начальное возбуждение получают все нейроны, скалярное произведение векторов памяти которых с входным вектором превышает порог. В дальнейшем среди них предстоит выбрать один, для которого оно максимально. Это достигается введением дополнительных обратных связей между нейронами, устроенных по принципу "латерального торможения". Каждый нейрон получает тормозящее (отрицательное) воздействие со стороны всех остальных нейронов, пропорционально степени их возбуждения, и испытывает возбуждающее (положительное) воздействие самого на себя. Веса латеральных связей в нейронном слое нормируются таким образом, что суммарный сигнал является возбуждающим только для нейрона с максимальной исходной активностью. Остальные нейроны испытывают торможение:

7. Другие иерархические архитектуры

По выполнении некоторого числа итераций t для всех нейронов кроме одного значение аргумента функции f(x) становится отрицательным, что обращает их активность ym в нуль. Единственный, оставшийся активным, нейрон является победителем. Он и указывает на тот класс, к которому принадлежит введенный образ. Такой механизм получил название "Победитель-Забирает-Все" ( Winner Take All - WTA ). Механизм WTA используется и в других нейросетевых архитектурах. Заложенный в его основе принцип латерального торможения имеет глубокие биологические основания и весьма широко распространен в нейронных сетях живых организмов.

Нейросетевая парадигма Липпмана-Хемминга является моделью с прямой структурой памяти. Информация, содержащаяся в библиотечных образах никак не обобщается, а непосредственно запоминается в синаптических связях. Память здесь не является распределенной, так как при выходе из строя одного нейрона полностью теряется информация обо всем соответствующем ему образе памяти.

Карта самоорганизации Кохонена.

В противоположность хемминговой сети модель Кохонена (T.Kohonen, 1982) выполняет обобщение пред'являемой информации. В результате работы НС Кохонена получается образ, представляющий собой карту распределения векторов из обучающей выборки. Таким образов, в модели Кохонена выполняется решение задачи нахождения кластеров в пространстве входных образов.

Данная сеть обучается без учителя на основе самоорганизации. По мере обучении вектора весов нейронов стремятся к центрам кластеров - групп векторов обучающей выборки. На этапе решения информационных задач сеть относит новый пред'явленный образ к одному из сформированных кластеров, указывая тем самым категорию, к которой он принадлежит.

Рассмотрим архитектуру НС Кохонена и правила обучения подробнее. Сеть Кохонена, также как и сеть Липпмана-Хемминга, состоит из одного слоя нейронов. Число входов каждого нейрона равно размерности входного образа. Количество же нейронов определяется той степенью подробности с которой требуется выполнить кластеризацию набора библиотечных образов. При достаточном количестве нейронов и удачных параметрах обучения НС Кохонена может не только выделить основные группы образов, но и установить "тонкую структуру" полученных кластеров. При этом близким входным образам будет соответствовать близкие карты нейронной активности.

7. Другие иерархические архитектуры

Рис. 7.2. Пример карты Кохонена. Размер каждого квадратика соответствует степени возбуждения соответствующего нейрона.

Обучение начинается с задания случайных значений матрице связей 7. Другие иерархические архитектуры . В дальнейшем происходит процесс самоорганизации, состоящий в модификации весов при пред'явлении на вход векторов обучающей выборки. Для каждого нейрона можно определить его расстояние до вектора входа:

7. Другие иерархические архитектуры

Далее выбирается нейрон m=m*, для которого это расстояние минимально. На текущем шаге обучения t будут модифицироваться только веса нейронов из окрестности нейрона m*:

7. Другие иерархические архитектуры

Первоначально в окрестности любого из нейронов находятся все нейроны сети, в последствии эта окрестность сужается. В конце этапа обучения подстраиваются только веса самог`о ближайшего нейрона. Темп обучения h(t)<1 с течением времени также уменьшается. Образы обучающей выборки пред'являются последовательно, и каждый раз происходит подстройка весов. Нейронная сеть Кохонена может обучаться и на искаженных версиях входных векторов, в процессе обучения искажения, если они не носят систематический характер, сглаживаются.

Для наглядности представления карты нейроны Кохонена могут быть упорядочены в двумерную матрицу, при этом под окрестностью нейрона-победителя принимаются соседние (по строкам и столбцам) элементы матрицы. Результирующую карту удобно представить в виде двумерного изображения, на котором различные степени возбуждения всех нейронов отображаются квадратами различной площади. Пример карты, построенной по 100 нейронам Кохонена, представлен на рис.7.2.

Каждый нейрон несет информацию о кластере - сгустке в пространстве входных образов, формируя для данной группы собирательный образ. Таким образом НС Кохонена способна к обобщению. Конкретному кластеру может соответствовать и несколько нейронов с близкими значениями векторов весов, поэтому выход из строя одного нейрона не так критичен для функционирования НС Кохонена, как это имело место в случае хемминговой сети.

Нейронная сеть встречного распространения. Сеть Кохонена–Гроссберга

Архитектура встречного распространения (counter propagation) удачно об'единяет в себе преимущества возможности обобщения информации сети Кохонена и простоту обучения выходной звезды Гроссберга. Создатель сети встречного распространения Р.Хехт-Нильсен (R.Hecht-Nielsen, 1987) рекомендует использование этой архитектуры для быстрого моделирования систем на начальных этапах исследований с дальнейшим переходом, если это потребуется, на значительно более дорогой, но более точный метод обучения с обратным распространением ошибок.

НС встречного распространения (ВР) обучается на выборке пар векторов (X,Y)a задаче представления отображения X®Y. Замечательной особенностью этой сети является способность обучению также и отображению совокупности XY в себя. При этом, благодаря обобщению, появляется возможность восстановления пары (XY) по одной известной компоненте (X или Y). При пред'явлении на этапе распознавания только вектора X (с нулевым начальным Y) производится прямое отображение - восстанавливается Y, и наоборот, при известном Y может быть восстановлен соответствующий ему X. Возможность решения как прямой, так и обратной задачи, а также гибридной задачи по восстановлению отдельных недостающих компонент делает данную нейросетевую архитектуру уникальным инструментом.

Сеть ВР состоит из двух слоев нейронов (см. Рис.7.3.) - слоя Кохонена и слоя Гроссберга. В режиме функционирования (распознавания) нейроны слоя Кохонена работают по принципу Победитель-Забирает-Все, определяя кластер, к которому принадлежит входной образ. Затем выходная звезда слоя Гроссберга по сигналу нейрона-победителя в слое Кохонена воспроизводит на выходах сети соответствующий образ.

7. Другие иерархические архитектуры

Рис. 7.3. Архитектура сети встречного распространения (для упрощения изображения показаны не все связи).

Обучение весов слоя Кохонена выполняется без учителя на основе самоорганизации (см. предыдущий пункт). Входной вектор (аналоговый) вначале нормируется, сохраняя направление. После выполнения одной итерации обучения определяется нейрон победитель, состояние его возбуждения устанавливается равным единице, и теперь могут быть модифицированы веса соответствующей ему звезды Гроссберга. Темпы обучения нейронов Кохонена и Гроссберга должны быть согласованы . В слое Кохонена обучаются веса всех нейронов в окрестности победителя, которая постепенно сужается до одного нейрона.

Обученная нейронная сеть ВР может функционировать и в режиме интерполяции, когда в слое Кохонена оставляется не один, а несколько победителей. Тогда уровни их активности пропорционально нормируются, чтобы в сумме составлять единицу, а выходной вектор определяется по сумме выходных векторов каждой из активных звезд Гроссберга. Таким образом НС производит линейную интерполяцию между значениями выходных векторов, отвечающих нескольким кластерам. Однако режим интерполяции в сети встречного распространения изучен не столь достаточно, чтобы можно было рекомендовать его широкое использование.

Сеть Кохонена–Гроссберга — это двуслойная сеть, используемая, в основном, в задачах классификации. Первый слой сети - сеть Кохонена, обучаемая для получения наилучшего представления векторов обучающей выборки. Сеть Кохонена обучается без учителя на основе самоорганизации [45]. В течении обучения вектора весов нейронов стремятся к центрам кластеров — групп векторов обучающей выборки [118, 119, 121].

После обучения сеть сопоставляет предъявляемый образ к одному из кластеров, то есть к одному из выходов. Каждый нейрон сети Кохонена запоминает один класс, то есть величина выхода тем выше, чем ближе предъявляемый образец к данному классу. Суть интерпретатора — выбрать номер нейрона с максимальным выходом. Выход так же можно трактовать как вероятность. Меняя количество нейронов, мы можем динамично менять количество классов. Присвоение начальных значений происходит с помощью генератора случайных чисел — каждому весу присваивается небольшое значение.

Второй слой — сеть Гроссберга, обучаемый отображать нейроны слоя Кохонена на различные классификационные рубрики. Слой Гроссберга обучается 24 «с учителем». Процесс обучения обычно представляется в следующей итерационной форме:

7. Другие иерархические архитектуры

где 7. Другие иерархические архитектуры — весовые коэффициенты нейронов, — входы нейрона [23]. Слой Гроссберга предназначен для совместной работы со слоем, дающим единственную единицу на выходе или же такой набор выходов, что их сумма равна единице. Нейроны слоя Гроссберга вычисляют взвешенную сумму своих входов. Функция активации — линейная.

Слой Гроссберга дает на выходе линейную комбинацию своих векторов весов, коэффициенты комбинации задаются входами слоя Гроссберга [26]. В течении обучения вектора весов нейронов стремятся к центрам кластеров — групп векторов обучающей выборки. После обучения сеть сопоставляет предъявляемый образ к одному из кластеров, то есть к одному из выходов [46]. Таким образом, сеть Кохонена–Гроссберга позволяет выделить в пространстве входных векторов области, соответствующие каждой из предъявленных рубрик [30, 120].

Вау!! 😲 Ты еще не читал? Это зря!

Решение задачь классификации
Решение задачь кластеризации
Решение задачь распознавания

В общем, мой друг ты одолел чтение этой статьи об иерархические архитектуры. Работы впереди у тебя будет много. Смело пиши комментарии, развивайся и счастье окажется в твоих руках. Надеюсь, что теперь ты понял что такое иерархические архитектуры, сеть кохонена–гроссберга, карта самоорганизации кохонена.моделm липпмана-хемминга, звезды гроссберга и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Computational Neuroscience (вычислительная нейронаука) Теория и приложения искусственных нейронных сетей

7. Другие иерархические архитектуры

звезды гроссберга

Входная звезда Гроссберга

Выходная звезда Гроссберга

Принцип Winner Take All (WTA) - Победитель Забирает Все - в модели Липпмана-Хемминга.

Карта самоорганизации Кохонена.

Нейронная сеть встречного распространения. Сеть Кохонена–Гроссберга

Вау!! 😲 Ты еще не читал? Это зря!

Комментарии

Оставить комментарий

Computational Neuroscience (вычислительная нейронаука) Теория и приложения искусственных нейронных сетей

Термины: Computational Neuroscience (вычислительная нейронаука) Теория и приложения искусственных нейронных сетей