Материалы || Новости || Конференция || Ресурсы || Рассылка || Гостевая книга || Форум || Обратная связь

Модели нейронных сетей

Сети с прямыми связями.

1. Простой персептрон. В середине 50-х годов была предложена одна из первых моделей нейронных сетей, которая вызвала большой интерес из-за своей способности обучаться распознаванию простых образов. Эта модель - персептрон - состоит из бинарных нейроподобных элементов и имеет простую топологию, что позволило достаточно полно проанализировать ее работу и создать многочисленные физические реализации.
Типичный персептрон состоит из трех основных компонент:

    1. матрицы бинарных входов r1..rn (сенсорных нейронов или «сетчатки», куда подаются входные образы);
    2. набора бинарных нейроподобных элементов xiхм (или предикатов в наиболее общем случае) с фиксированными связями к подмножествам сетчатки («детекторы признаков»);
    3. бинарного нейроподобного элемента с модифицируемыми связями к этим предикатам («решающий элемент»). На самом деле число решающих элементов выбирают равным количеству классов, на которое необходимо разбить предъявляемые персептрону образы.

Таким образом, модель персептрона характеризуется наличием только прямых связей, один из слоев которых является модифицируемым. В простейшем случае, когда п = m и xi == ri, детекторы признаков могут рассматриваться как входной слой. Тогда персептрон становится одним бинарным нейроподобным элементом. Это классическая модель М -входового нейрона, приведенная на рисунке, или простой персептрон Розенблатта. В общем случае каждый элемент xi может рассматриваться как булева функция, зависящая от некоторого фиксированного подмножества сетчатки. Тогда величина выходных сигналов этих обрабатывающих элементов является значением функции xi, которое равно 0 или 1.
Устройство реагирует на входной вектор генерацией выходного сигнала у решающего элемента по формуле (3). Таким образом, персептрон формирует гиперплоскость, которая делит многомерное пространство x1... хм на две части и определяет, в какой из них находится входной образ, выполняя, таким образом, его классификацию. Возникает вопрос, как определить значения весов, чтобы обеспечить решение персептроном конкретной задачи. Это достигается в процессе обучения.
Предложены различные правила обучения персептрона. Один из алгоритмов называется процедурой сходимости персептрона Розенблатта и является вариантом хеббовского правила изменения весов связей с учителем.
Алгоритм работает следующим образом. Вектор весов  image023.gif (193 bytes) устанавливают в произвольное состояние. На сетчатку поочередно подают образы из обучающей выборки, которые трансформируются в выходной сигнал у решающего элемента. При правильном отклике ничего не изменяют. При неправильном отклике у = 0 веса всех связей от активных элементов сетчатки увеличивают, а при неправильном отклике у = 1 - уменьшают. Величина изменения связи определяет степень адаптации. Если решение существует, оно будет достигнуто при циклической подаче образов обучающей выборки за конечное число шагов при любом начальном выборе связей.
Таким образом, если два класса образов могут быть разделены гиперплоскостью, то при достаточно долгом обучении персептрон будет различать их правильно. Однако линейная разделяющая поверхность, упрощающая анализ персептрона, ограничивает решаемый им круг задач. Этот вопрос тщательно исследовали Минский и Пейперт, показав, какие задачи в принципе не может решить персептрон с одним слоем обучаемых связей. Одним из таких примеров является выполнение логической операции «исключающее ИЛИ».

2. Многослойный персептрон. Как отмечалось выше, простой персептрон с одним слоем обучаемых связей формирует границы областей решений в виде гиперплоскостей. Двухслойный персептрон может выполнять операцию логического «И» над полупространствами, образованными гиперплоскостями первого слоя весов. Это позволяет формировать любые, возможно неограниченные, выпуклые области в пространстве входных сигналов. С помощью трехслойного персептрона, комбинируя логическими «ИЛИ» нужные выпуклые области, можно получить уже области решений произвольной формы и сложности, в том числе невыпуклые и несвязные. То, что многослойные персептроны с достаточным множеством внутренних нейроподобных элементов и соответствующей матрицей связей в принципе способны осуществлять любое отображение вход-выход, отмечали еще Минский и Пейперт, однако они сомневались в том, что можно открыть для них мощный аналог процедуры обучения простого персептрона. В настоящее время в результате возрождения интереса к многослойным сетям предложено несколько таких процедур. В данном параграфе описана детерминированная версия, получившая название « error back propagation» - алгоритм обратного распространения ошибки. Этот алгоритм является обобщением одной из процедур обучения простого персептрона, известной как правило Уидроу - Хоффа (или дельта-правило), и требует представления обучающей выборки. Выборка состоит из набора пар образов, между которыми надо установить соответствие, и может рассматриваться как обширное задание векторной функции, область определения которой - набор входных образов, а множество значений - набор выходов.
image024.png (8318 bytes)
Рассмотрим многослойную нейроподобную сеть с прямыми связями (см. рисунок). Входные элементы (блоки) образуют нижний слой сети, выходные - верхний. Между ними может быть много слоев скрытых блоков. Каждый блок может быть соединен модифицируемой связью с любым блоком соседних слоев, но между блоками одного слоя связей нет. Каждый блок может посылать выходной сигнал только р вышележащие слои и принимать входные сигналы только от нижележащих слоев. Входной вектор подается на нижний слой, а выходной вектор определяется путем поочередного вычисления уровней активности элементов каждого слоя (снизу - вверх) с использованием уже известных значений активности элементов предшествующих слоев. С точки зрения распознавания образов входной вектор соответствует набору признаков, а выходной - классу образов. Скрытый слой используется для представления области знаний.
Перед началом обучения связям присваиваются небольшие случайные значения. Каждая итерация процедуры состоит из двух фаз. Во время первой фазы на сеть подается входной вектор путем установки в нужное состояние входных элементов. Затем входные сигналы распространяются по сети, порождая некоторый выходной вектор. Для работы алгоритма требуется, чтобы характеристика вход-выход нейроподобных элементов была неубывающей и имела ограниченную производную. Обычно для этого используют сигмоидную нелинейность вида (4).
Полученный выходной вектор сравнивается с требуемым. Если они совпадают, обучение не происходит. В противном случае вычисляется разница между фактическими и требуемыми выходными значениями, которая передается последовательно от выходного слоя к входному. На основании этой информации об ошибке производится модификация связей в соответствии с обобщенным дельта правилом, которое имеет вид:
image027.gif (448 bytes) (6)
где изменение в силе связи wij для р-й обучающей пары пропорционально произведению сигнала ошибки д j-го блока, получающего входной сигнал по этой связи, и выходного сигнала блока i, посылающего сигнал по этой связи. Определение сигнала ошибки является рекурсивным процессом, который начинается с выходных блоков. Для выходного блока сигнал ошибки:
image029.gif (423 bytes) (7)
где d
jp и ojp - желаемое и действительное значения выходного сигнала j-го блока; уj' - производная нелинейности блока. Сигнал ошибки для скрытого блока определяется рекурсивно через сигнал ошибки блоков, с которым соединен его выход, и веса этих связей:
image031.gif (464 bytes) (8)
Для используемой сигмоидной нелинейности уj| = уj (1 - уj), поэтому для 0Ј уjЈ 1 производная максимальна при уj == 0,5 и равна нулю при уj =0 или 1. Соответственно веса изменяются максимально для блоков, которые еще не выбрали свое состояние. Кроме того, при конечных весах выходные сигналы блоков не могут достигать значений 0 или 1, Поэтому за 0 обычно принимают значения уj < 0.1, а за 1 - значения уj > 0.9.
Модификация весов производится после предъявления каждой пары вход - выход. Однако если коэффициент h, определяющий скорость обучения, мал, то можно показать, что обобщенное дельта-правило достаточно хорошо аппроксимирует минимизацию общей ошибки функционирования сети D методом градиентного спуска в пространстве весов. Общая ошибка функционирования сети определяется так:
image033.gif (488 bytes)
Обучение продолжается до тех пор, пока ошибка не уменьшится до заданной величины. Эмпирические результаты свидетельствуют о том, что при малых
h система находит достаточно хороший минимум D.
Один из основных недостатков алгоритма обратного распространения, однако, заключается в том, что во многих случаях для сходимости может потребоваться многократное (сотни раз) предъявление всей обучающей выборки. Повышения скорости обучения добиваются, например, использованием информации о второй производной D, увеличением
h. В последнем случае избежать осцилляций позволяет инерционный член:
image035.gif (630 bytes) (9)
где
a - экспоненциально затухающий множитель, определяющий относительное воздействие текущего и прошлых градиентов на изменение веса.
Предпринимаются попытки использовать алгоритм обратного распространения ошибки для обучения сетей с обратными связями обработки последовательностей образов. Основой для этого является эквивалентность многослойной сети с прямыми связями и синхронной сети с обратными связями на ограниченном временном интервале (слой соответствует такту времени). Предложены также варианты алгоритмов обучения, более привлекательные с биологической точки зрения. Таким, например, является алгоритм рециркуляции, предложенный для сетей, в которых скрытые блоки соединены со входными. При обучении веса связей перестраиваются таким образом, чтобы минимизировать частоту смены активности каждого блока. Таким образом, обученная сеть имеет стабильные состояния и может функционировать в режиме ассоциативной памяти.
В настоящее время многослойные персептроны являются наиболее популярной моделью нейронных сетей. Это в значительной степени объясняется тем, что с их помощью удалось продемонстрировать решение ряда задач, в том числе классической для персептронов задачи «исключающего ИЛИ», задачи синтеза речи по тексту, а также задач, требующих принятия экспертных решений. Возможно, что подобные многослойным персептронам нейронные структуры используются мозгом для предварительной обработки сенсорной информации, например, при выделении признаков.

Сети с симметричными связями

1. Ансамблевые нейронные сети. Минский и Пейперт отмечали, что недостатки простых персептронов можно преодолеть как с помощью многослойных сетей, так и введением в сеть обратных связей, допускающих циркуляцию сигналов по замкнутым контурам. Использовать свойства такого рода сетей для моделирования функций мозга еще в 1949 г. предложил Хебб.
Согласно взглядам Хебба нервные клетки мозга соединены друг с другом большим количеством прямых и обратных возбуждающих связей и образуют нейронную сеть. Каждый нейрон осуществляет пространственно-временную суммацию приходящих к нему сигналов от возбужденных нейронов, определяя потенциал на своей мембране. Когда потенциал на мембране превышает пороговое значение, нейрон возбуждается. Нейрон обладает рефрактерностью и усталостью. Эффективность связей может изменяться в процессе функционирования сети, повышаясь между одновременно возбужденными нейронами. Это приводит к объединению нейронов в клеточные ансамбли - группы клеток, которые чаще всего возбуждались вместе, и к обособлению ансамблей друг от друга. При возбуждении достаточной части ансамбля он возбуждается целиком. Различные ансамбли могут пересекаться: один и тот же нейрон может входить в разные ансамбли. Электрическая активность мозга обусловлена последовательным возбуждением отдельных ансамблей.
Идеи Хебба оказали большое воздействие на представления о работе мозга и послужили основой для создания нейронных моделей долговременной памяти. Действительно, ансамблевую нейронную сеть можно рассматривать как структуру, реализующую функции распределенной ассоциативной памяти. Формирование ансамблей в такой сети соответствует запоминанию образов (признаков, объектов, событий, понятий), закодированных паттерном активности нейронов, а сформированные ансамбли являются их внутренним представлением. Процесс возбуждения всего ансамбля при активации части его нейронов можно интерпретировать как извлечение запомненной информации по ее части - ключу памяти. Модель памяти на основе ансамблевой нейронной сети обладает некоторыми свойствами, присущими биологической памяти, такими, как ассоциативность, распределенность, параллельность, устойчивость к шуму и сбоям, надежность. Проводятся также структурные аналогии между ансамблевыми моделями нейронных сетей и строением коры головного мозга. Имеются экспериментальные данные о синаптической пластичности, постулированной Хеббом.
Модель ансамблевой сети состоит из большого количества нейроподобных элементов, каждый из которых обычно соединен со всеми другими элементами сети. Входной образ подается на сеть путем активации нужных нейроподобных элементов. В отличие от персептрона ансамблевая сеть может обучаться как с учителем, так и без него. Обучение производится по правилу Хебба (5) или одному из его вариантов. Значение коэффициента
a (5) при обучении с учителем определяет величину подкрепления, а при обучении без учителя эта величина может быть установлена, например, постоянной. Отметим, что правило Хебба (5) формирует симметричную матрицу связей.
В процессе обучения при подаче на сеть набора входных образов - представителей среды - в сети формируются ансамбли, которые могут иметь сложную структуру, отражающую свойства среды. Действительно, связность внутри групп нейроподобных элементов, которые наиболее часто возбуждались одновременно, будем значительно выше, чем в среднем по сети. Так образуются ядра ансамблей, в которых накапливаются комбинации признаков, наиболее часто встречающиеся во входных образах. Их можно рассматривать как внутреннее представление образов-прототипов классов, объективно существующих во внешней среде. Более редкие комбинации возбужденных нейроподобных элементов образуют бахрому ансамблей, где фиксируются индивидуальные особенности образов, внутренний и внешний контексты и т. д.
Количество образов, которое можно запомнить в сети, сильно зависит от их размера, т. е. от количества нейроподобных элементов, которое активизируется образом, а также от степени корреляции образов. Аналитически и экспериментально показано, что количество стохастических образов, которое можно запомнить и восстановить в ансамблевой сети, при малом размере образа может значительно превышать число нейроподобных элементов сети.
При подаче на обученную ансамблевую сеть некоторого входного образа путем установки начального паттерна активности осуществляется восстановление наиболее близкого к нему образа из числа запомненных в сети. Сеть представляют самой себе, и в ней начинается обычный процесс (синхронный или асинхронный - в зависимости от используемого алгоритма) изменения состояний нейроподобных элементов. При этом из-за наличия только возбуждающих связей возникает проблема регулирования уровня активности сети, т. е. количества одновременно активных элементов. Для ее решения был предложен ряд внутрисетевых и внешних механизмов. Если уровень активности сети поддерживается примерно равным величине ансамбля, то межансамблевая конкуренция приводит к релаксации сети из начального к конечному устойчивому состоянию, соответствующему запомненному образу.
В ряде работ теоретически и экспериментально исследуются количественные характеристики функционирования ансамблевых сетей, например качество воспроизведения образа в зависимости от числа запомненных в сети образов и их размера, а также от степени близости к ним входного образа и т. д. Интересный метод аналитического исследования сетей с обратными связями предложен Хопфилдом.

2. Сеть Хопфилда. Хотя многочисленные результаты моделирования демонстрировали стабильность ансамблевых сетей с обратными связями и хеббовским правилом обучения (эволюцию сети к устойчивому состоянию), отсутствие математического обоснования такого введения препятствовало их популярности. Положение изменилось с появлением работ, где было определено подмножество нейронных сетей с обратными связями, которые гарантированно достигают устойчивого состояния.
В 1982 г. американский биофизик Джон Хопфилд опубликовал статью [134], где на основании аналогии между нейронными сетями и особым классом физических систем - спиновыми стеклами - ему удалось привлечь к анализу нейросетевых моделей мощный математический аппарат статистической физики. Это стимулировало вторжение в область моделирования нейронных сетей большого отряда ученых-физиков, которыми в настоящее время получено много интересных аналитических результатов.
Сам Хопфилд в упомянутой статье рассмотрел поведение модели полносвязной сети бинарных нейроподобных элементов с симметричными связями (w
ij = wji). Элементы функционировали в асинхронном режиме, т. е. каждый нейрон в случайные моменты времени с некоторой средней частотой определял свое состояние в соответствии с правилом (3). Это позволило описать поведение сети как релаксационный процесс, при котором минимизируется энергетическая функция Е (функция Ляпунова, гамильтониан) модели:
image037.gif (630 bytes) (10)
где wij - матрица связей; у и q - состояние и порог модельного нейрона. Действительно, изменение Е при изменении состояния нейрона (учитывая симметрию wij и полагая q=0)
image039.gif (450 bytes)(11)
Так как знак
Dyi совпадает со знаком image041.gif (289 bytes), ясно, что Е по мере срабатывания нейронов будет монотонно убывать, а так как Е ограничена, будет достигнуто состояние ее минимума. Таким образом, эволюция сети из любого начального состояния приводит к состоянию, соответствующему локальному минимуму Е. Можно провести аналогию поведения сети с движением легкой частицы по некоторому вязкому рельефу под действием силы тяжести.

В своей работе Хопфилд исследовал сеть с нейроподобными элементами, имеющими сигмоидную характеристику. Состояния нейронов такой сети изменяются одновременно и непрерывно, и сеть описывается image042.png (6243 bytes)системой дифференциальных уравнений. Хопфилд доказал сходимость и такой сети к стабильным энергетическим минимумам и нашел соответствие между ее устойчивыми состояниями и устойчивыми состояниями сети с бинарными элементами. Это послужило основой для построения аппаратных моделей, где сеть реализуется как аналоговая электронная схема, состоящая из операционных усилителей, моделирующих нейроны, соединенных резисторами с проводимостями wij, и со смещениями входными токами q (см. рисунок).

Понятно, что если сделать минимумами энергии заданный набор паттернов нейронной активности (образов), оба варианта сети Хопфилда смогут выполнять функции ассоциативной памяти, «скатываясь» к тому образу, в чей «бассейн притяжения» попадает начальный паттерн активности нейронов сети. Например, на рисунке image044.png (3283 bytes)показано восстановление сетью из 40 нейронов, которые расположены в виде матрицы 5х8, запомненного в сети изображения
буквы «Е». Активному нейрону соответствует заштрихованный элемент изображения. Из поданного на сеть зашумленного изображения (слева) восстанавливается правильное изображение (справа).
Как и следовало ожидать, одним из способов получения нужной энергетической функции является формирование матрицы связей в соответствии с вариантом хеббовского правила:
image047.gif (567 bytes) (12)
где z
p - образы, которые надо запомнить в сети; L - их количество. Это правило, как и правило, предложенное Хеббом, обеспечивает формирование симметричной матрицы связей, однако постулирует увеличение веса связей между не только одновременно активными, но и одновременно неактивными нейронами, а также его уменьшение между нейронами, находящимися в разном состоянии. Такое правило допускает существование тормозящих модифицируемых связей между нейронами и даже переход возбуждающих связей в тормозящие. Оно позволяет сети автоматически саморегулировать уровень активности и работать с нулевыми порогами нейронов. Однако при этом значительно снижается емкость памяти сети: количество случайных образов, которое можно записать в сеть с возможностью восстановления, не превышает 0.14 количества нейронов. Кроме того, в дополнение к энергетическим минимумам, соответствующим запомненным образам, возникают ложные минимумы функции Е. Положение еще более осложняется для скоррелированных образов, которые после запоминания не становятся минимумами Е.
В настоящее время ведется интенсивная работа по улучшению характеристик модели Хопфилда, предлагаются ее интересные расширения и обобщения. Предпринимаются попытки создать алгоритмы обучения, позволяющие работать со скоррелированньми образами. В ряде работ приводятся обучающие правила, осуществляющие ортогонализацию и позволяющие запоминать в матрице связей произвольный набор линейно независимых образов. Такие правила, однако, приводят к усложненной нелокальной зависимости матрицы связей от записываемых образов. Предлагаются способы отражения иерархии скоррелированных образов, существующей в реальном мире, в иерархическом дереве устойчивых состояний нейронной сети.
В ряде работ дан анализ появления в сети Хопфилда ложных образов. Они возникают вследствие присущего нейронной сети свойства накапливать в процессе обучения наиболее часто встречающиеся комбинации входных сигналов, формируя прототипные образы. Однако это свойство, очень полезное для ансамблевых сетей с малым уровнем активности, для сети Хопфилда приводит к отрицательному эффекту из-за большого уровня активности используемых в ней образов, а следовательно, значительного их перекрытия.
Предпринимаются поиски способов увеличения количества образов, которое можно запомнить в сети Хопфилда. Предлагалось ввести в модель «забывание» (например, ограничением величины весов). При этом новые записываемые в сеть образы будут вытеснять старые. Можно добиться увеличения числа запомненных образов ценой введения множественных связей. Однако радикального улучшения информационных характеристик сети Хопфилда, как показывает анализ, позволяет добиться первоначальный вариант хеббовского правила в сети с низким уровнем активности. Это подтверждается также данными исследователей, работающих с ансамблевыми сетями.
Интересным результатом увенчалась работа по преодолению таких серьезных с биологической точки ограничений модели, как полносвязность и симметрия. Оказалось, что сильно разреженная асимметричная версия сети Хопфилда может быть решена аналитически, и ее поведение качественно похоже на поведение полносвязной сети в области хорошего восстановления.
Для сети Хопфилда предложен также ряд механизмов работы с последовательностями. Основная проблема заключается в том, чтобы при запоминании отразить в статической структуре матрицы связей порядок следования входных образов, а при воспроизведении обеспечить их восстановление в нужном порядке. Это достигается формированием матрицы связей, в которой наряду со стационарными состояниями (симметричные связи) запомнены переходы между ними (асимметричные связи от предшествующего образа к последующему). Для того чтобы разделить два типа динамики - релаксацию к устойчивому состоянию, соответствующему одному из образов последовательности, и переход к следующему образу- было предложено записывать переходы между состояниями в отдельной матрице связей и ввести временные задержки на сигналы, поступающие на входы нейронов через эту матрицу. Вследствие этого сеть сначала стабилизируется в некотором состоянии, а уже потом начинает «ощущать» притягивающее влияние следующего состояния и переходит в него. На таких сетях была продемонстрирована генерация, распознавание и подсчет элементов простейших последовательностей, однако пока не решена проблема обработки более сложных последовательностей, имеющих общие части, разветвления и повторения.
Развивая свои идеи о «коллективных вычислениях» в нейронных сетях, Хопфилд предложил использовать свойство сети минимизировать энергетическую функцию для решения оптимизационных задач. С этой целью сначала выбирается «нейронное» представление для конкретной задачи, т. е. исходя из ее условий состоянию нейронов присваивается смысл. Затем с учетом ограничений, налагаемых на задачу, конструируется энергетическая функция таким образом, чтобы в состояниях, представляющих возможные решения, она была пропорциональна стоимостной функции задачи. После этого из энергетической функции извлекаются связи wij и пороги qi, и конструируется соответствующая сеть. Так как в процессе функционирования сеть минимизирует свою энергию, динамика в пространстве состояний направлена на минимизацию соответствующей стоимостной функции. Поиск минимума энергии занимает всего несколько постоянных времени нейронов, поэтому сеть быстро достигает стабильного состояния, из которого декодируется решение задачи. Так как здесь в отличие от задачи ассоциативной памяти требуется нахождение не локального, а глобального энергетического минимума, существенной оказывается сигмоидность характеристик нейронов (бинарные нейроны здесь не подходят) и аналоговый характер их взаимодействия. Решения, находимые такой аналоговой сетью, не самые лучшие, но достаточно близки к ним.
Несмотря на недостатки сети Хопфилда, предпринимаются попытки использовать ее аппаратные реализации для решения задач, требующих быстрого распознавания небольшого количества простых образов.

3. Машина Больцмана. Машина Больцмана представляет собой стохастический вариант сети Хопфилда. Бинарные нейроподобные элементы (блоки) трактуются здесь как представители элементарных гипотез, а веса - как слабые парные взаимоограничения между ними. Положительный вес связи указывает, что две гипотезы стремятся поддерживать друг друга, а отрицательный - на их несовместимость. Симметрия связей позволяет проанализировать поведение сети с использованием энергетической функции:
image049.gif (644 bytes) (13)
Энергию определенного паттерна активности можно интерпретировать как степень нарушения ограничений, присутствующих в проблемной области, со стороны конкретной комбинации гипотез или как стоимостную функцию, которая должна быть минимизирована для решения оптимизационной задачи.
Если зафиксировать состояния некоторых блоков, подав, таким образом, на сеть входное воздействие, остальные блоки начнут изменять свое состояние так, чтобы минимизировать энергию Е. Действительно, поступающая на каждый блок взвешенная сумма сигналов от активных блоков из-за симметрии связей совпадает с величиной разности между значениями, энергетической функции, зависящей от его собственного состояния:
image051.gif (650 bytes)(14)
Поэтому алгоритм изменения состояния бинарных нейроподобных элементов автоматически приводит к минимизации энергии Е.
При этом, однако, сеть может попасть в локальный минимум, что крайне нежелательно для оптимизационных задач. Чтобы сеть могла выбраться из локального энергетического минимума, в машине Больцмана применяется вероятностное правило срабатывания блоков:
image053.gif (524 bytes)(15)
где рi - вероятность нахождения i-ro блока в единичном состоянии;
Р (х) - сигмоидная функция;
T - параметр, аналогичный температуре.
При Т ® 0 это правило переходит в правило срабатывания детерминированных бинарных элементов (3), а при повышении температуры увеличивается вероятность перехода системы в состояние с большей энергией.
Если сеть с таким вероятностным правилом придет в состояние «теплового равновесия», относительные вероятности ее нахождения в двух глобальных состояниях будут подчиняться распределению Больцмана
image055.gif (398 bytes)(16)
где Р
A - вероятность нахождения сети в глобальном состоянии A;
ЕA - его энергия;
При низкой температуре система «предпочитает» состояния с низкой энергией, однако требуется много времени для достижения равновесия. При высоких температурах равновесие достигается быстрее, однако нет сильного предпочтения низким энергетическим состояниям.
Хороший способ нахождения глобального минимума получил название «имитация отжига» из-за аналогии с медленным охлаждением металла для получения низкоэнергетической кристаллической решетки. При этом сначала в сети устанавливают высокую температуру, при которой ее поведение почти случайно, а затем постепенно понижают температуру со скоростью, которая гарантирует, что система всегда будет близка к тепловому равновесию и не попадет в локальный минимум. При высокой температуре- сеть быстро находит зону энергетического ландшафта, где находится хороший минимум. При снижении температуры сеть находит в этой зоне близкий к глобальному минимум энергии.
Машина Больцмана может использоваться для классификации образов. При этом в ней, как и в многослойном персептроне, выделяют входные, выходные и внутренние (скрытые) блоки, однако для каждой прямой связи между блоками существует равная ей по величине обратная (симметричная) связь. Процесс распознавания состоит из следующих шагов:

    1. на входных блоках фиксируют входной образ;
    2. рандомизируют состояние скрытых и выходных блоков, а затем медленно понижают температуру;
    3. наблюдают за состоянием сети при конечной низкой температуре и собирают статистику состояний выходных блоков. На основании этой статистики делают вывод о входном образе.

Для машины Больцмана существует алгоритм обучения, который, как и для многослойного персептрона, создает путем модификации связей внутреннюю модель среды, позволяющую достаточно хорошо классифицировать входные образы. Для работы алгоритма требуется обучающая выборка, состоящая из пар вход - выход, которые должна научиться ассоциировать сеть. Если после обучения зафиксировать на входных блоках один из входных образов, на выходных блоках должен появиться соответствующий выходной образ. Если подать на вход неизвестный образ, система на основе выявленных в обучающей выборке закономерностей должна провести правильное обобщение.
Практически каждый цикл обучения состоит из трех шагов.
1. Фаза тренировки. Для каждой пары образов фиксируются состояния входных и выходных блоков, а остальная часть сети подвергается отжигу к низкой температуре. Затем для каждой связи собирается статистика, какую часть времени pij+ были одновременно активны соединяемые ею блоки.
2. Фаза проверки. Вычисляется аналогичная величина pij-, однако теперь выходные блоки не зафиксированы и свободно меняют состояние.
3. Изменение связей. В хорошо обученной сети ее поведение будет идентично для обеих фаз. Если р+ и р- не совпадают для конкретной связи, ее изменяют: image057.gif (348 bytes), где e масштабирует размер изменения.
Каждый цикл необходимо повторить много раз, пока матрица связей не стабилизируется в достаточной степени.
Оказывается, что при таком изменении весов осуществляется минимизация методом градиентного спуска теоретико-информационной меры различия между внешней средой и ее моделью, сформированной сетью:
image059.gif (830 bytes) (18)
где P
+(Ia Щ Ob) - вероятность а-го состояния входных блоков и b-го состояния выходных, когда они фиксированы внешней средой;
P+(Ia | Ob) - вероятность b-го состояния выходных блоков при а-м состоянии входных, когда они фиксированы средой;
Р-b | Ia) - соответствующая вероятность, когда фиксированы только входы.
Действительно, частная производная Q по каждому из весов имеет вид:
image061.gif (501 bytes)(19)
что позволяет обучать сеть с помощью описанной локальной процедуры.
К сожалению, алгоритм обучения машины Больцмана имеет типичные недостатки, присущие процедурам градиентного спуска в многопараметрических пространствах. Прежде всего это неточность вычисления градиента, обусловленная неполным достижением теплового равновесия и ограниченным временем сбора статистик. Из-за своей стохастичности алгоритм требует гораздо больших временных затрат по сравнению даже с алгоритмом обучения многослойного персептрона методом обратного распространения ошибки. Имеющаяся аппаратная реализация, однако, смягчает этот недостаток по крайней мере для небольших сетей. Известны примеры применения машины Больцмана для решения классических персептронных задач, таких, как задача «исключающего ИЛИ», обнаружение симметрии во входном образе и т. д., а также для распознавания речи.

Литература

  1. Нейрокомпьютеры и интеллектуальные роботы. Под ред. Н.М. Амосова, Киев, Наукова думка, 1991.
  2. В.Д. Цыганков. Нейрокомпьютер и его применение. М., СолСистем, 1993.
  3. Е.Н. Соколов, Г.Г. Вайткявичус. Нейроинтеллект от нейрона к нейрокомпьютеру. М., Наука, 1989.
  4. Отчет о НИР «Принципы представления знаний в системах управления роботов». Под руководством Н.М. Амосова, Киев, 1985.
  5. Ю.В. Чернухин. Микропроцессорное и нейрокомпьютерное управление адаптивными мобильными роботами. Таганрог, 1993.
  6. Ю.В. Чернухин. Нейропроцессоры. Таганрог, 1994.
  7. Труды третьего международного симпозиума «Интеллектуальные системы», Псков, 1998.
  8. В.Ф.Венда. Системы гибридного интеллекта. М., Машиностроение, 1990
  9. Л.И. Волгин. Комплиментарная алгебра нейросетей. Таллин, АО KLTK, 1993.
БАЗОВЫЕ ЗНАНИЯ ПО НЕЙРОПОДОБНЫМ СЕТЯМ
Оглавление Введение

Основы теории

Модели сетей

SpyLOG


(c) redstar

Назад || Написать мне || Добавить комментарий || Обсудить на форуме


Сайт создан в системе uCoz