Краткий обзор модели многослойных персептронов

Структура многослойных персептронов была разработана на основе структуры их предшественников, состоящих из одного слоя элементов. Два основных различия между многослойными и однослойными персептронами описаны ниже.
> Первое различие является очевидным — многослойные персептроны имеют больше слоев элементов, в результате этого возможности аппроксимации с помощью персептрона становятся гораздо шире.
> Второе различие не столь очевидно, но без него дополнительные слои не позволяли бы добиться какого-либо выигрыша от использования более сложной системы. Дело в том, что в многослойных персептронах используются нелинейные функции активизации.
В следующем разделе два указанных различия рассматриваются отдельно.
Топология
Топологией называется общее расположение обрабатывающих элементов внутри нейронной сети и структура связей между ними. Топологию многослойного персептрона принято характеризовать как имеющую только прямые связи (рис. 19.1); в сети, образованной элементами, нет обратных связей (называемых также рекуррентными связями). Информация передается от входов к выходам в прямом направлении. Важным структурным отличием многослойного персептрона является наличие в нем промежуточного слоя.
Промежуточные СЛОИ
Количество промежуточных слоев может быть сколь угодно большим, хотя чаще всего применяется только один такой слой. Промежуточные слои иногда называют скрытыми, с учетом того, что они не связаны непосредственно с выходом, с точки зрения пользователя ничто не свидетельствует о наличии в многослойном персеп-троне промежугочных слоев! По традиции упоминают еще одну причину, по которой промежуточные слои называют "скрытыми"; дело в том, что невозможно непосредственно проводить обучение скрытых слоев с учетом ошибки. Поэтому после инициализации весовых коэффициентов промежугочных слоев (обычно случайным образом) в эти значения больше не вносятся какие-либо изменения.
Безусловно, в результате введения большего количества скрытых слоев возможности сети по проведению сложных вычислений возрастают, так почему бы не предусмотреть как можно больше таких слоев? Отыскивая ответ на этот вопрос, приходится учитывать много факторов (например, потребность в памяти), но в конечном итоге обнаруживается, что почти всегда достаточно применить только один промежуточный слой. Даже один скрытый слой позволяет получить универсальный ап-проксиматор, который теоретически способен моделировать любую непрерывную функцию (при наличии подходящей функции активизации). Поэтому одного скрытого слоя вполне достаточно для решения большинства типов нелинейных задач (например, таких, которые встречаются в играх).
Но в некоторых случаях обнаруживается большая степень взаимной зависимости межцу входными переменными, поэтому сложность задачи более высока. В таком случае введение еще одного промежуточного слоя позволяет сократить общее количество весовых коэффициентов, требуемых для получения приемлемой аппроксимации. Но на практике в любой топологии редко используется больше двух скрытых слоев. Персептроны с двумя промежуточными слоями позволяют аппроксимировать любую функцию, даже не являющуюся непрерывной.
Скрытые элементы
Задача определения топологии связана также с необходимостью выбора количества элементов в скрытом слое. В отличие от выходного слоя, количество элементов в скрытом слое не связано с какими-либо явными характеристиками задачи, поэтому (угветствснность за выбор этого магического числа возлагается на инженера по искусственному интеллекту. Окончательное решение, касающееся определения количества элементов в скрытом слое, вообще говоря, может оказать большое влияние на производительность сети, поэтому является очень важным. Более того, отсутствует какой-либо аналитический способ (т.е. стандартная формула), который позволил бы легко определить необходимое количество скрытых элементов, поэтому не стоит удивляться тому, что это направление исследований до сих пор напоминает черную магию!
В многослойных персептронах скрытые элементы используются для внутреннего представления информации о задаче. Эти скрытые элементы обеспечивают полный охват пространства входов, формируя поверхность решений. Обработка каждого входного образа может осуществляться путем сравнения с этой поверхностью решений. Но если рассматриваются сложные задачи (со сложными поверхностями решений), то количество необходимых скрытых элементов может расти быстрее, чем по экспоненте! А некоторые функции (например, разрывные функции, функции, имеющие острые и зубчатые графики) просто не подходят для обработки с помощью персептронов, поскольку требуют слишком много памяти и вычислений.