|
NEU-2001
РЕКУРРЕНТНО-ИТЕРАЦИОННЫЕ ПРОЦЕДУРЫ ДЛЯ АДАПТИВНОГО
КОНСТРУИРОВАНИЯ НЕЙРОННЫХ СЕТЕЙ
С.Л. Блюмин, П.В. Сараев
Липецкий государственный технический университет
E-mail: slb@stu.lipetsk.su (С.Л.Блюмин),
scorp@adm.les.lipetsk.ru (П.В.Сараев)
При наращивании структуры искусственных нейронных сетей
(НС) целесообразным подходом является не пересчет всех параметров заново,
а использование ранее найденных весов для последующего обучения. Такую
возможность предоставляет аппарат псевдообращения, который может эффективно
использоваться как в обучении НС, так и при адаптивном конструировании сети
[1]. В основе таких процедур пересчета весовых коэффициентов при добавлении
новых весов лежит известная формула рекуррентного псевдообращения блочных
матриц – формула Клайна:
,
| где |
, |
,
,
.
Применение рекуррентного псевдообращения матриц Якоби,
возникающих при обучении НС, совместно с итерационными методами нелинейной
оптимизации приводит к рекуррентно-итерационным процедурам (РИП) решения
различных задач, связанных с НС. Возможности использования РИП [2] при
конструировании НС связаны с суперпозиционным характером структуры НС.
Наибольшая эффективность РИП достигается при наращивании
сетей стандартной структуры. К НС такой структуры относятся сети прямого
распространения с одним скрытым слоем, реализующие функции вида
,
| где |
xj - j-й вход сети, j=1, ..., l; |
wi – вес от i-го нейрона скрытого слоя к
выходу сети, i=1,…,q;
wij – вес, идущий от j-го входа к
i-му нейрону скрытого слоя,
f – функция активации нейронов скрытого слоя.
Наращивание таких сетей, являющихся универсальными
аппроксиматороми, состоит в добавлении нейронов в скрытый слой, что в случае
добавления одного нейрона соответствует аддитивной добавке
.
Это означает необходимость определения весов
и корректировки ранее найденных весов w сети
.
При использовании алгоритма Гаусса-Ньютона с псевдообращением
для оптимизации в обучении НС шаг итерационного процесса может быть представлен
в виде
,
| где |
- веса сети на текущей итерации, |
–
веса сети на следующей итерации,
–
корректирующий вектор, определяемый по формуле
,
| где |
b - вектор указаний учителя, |
–
вектор выходов сети на обучающих примерах.
В связи с тем, что добавка является аддитивной, а также с
учётом формулы Клайна, корректирующий вектор представляется в виде
,
,
| где |
(Δw)y - приращение, полученное для корректировки
весов исходной сети y(w,x) без учета появления новых весов. |
Данные формулы определяют порядок настройки весов наращенной
сети: вначале идёт корректировка добавленных весов
, которые затем
используются для подстройки весов w получившейся сети. При данном
подходе имеется возможность оценки влияния вектора поправки весов добавленного
нейрона
на корректировочный вектор Δw. Так как функции активации
в принципе не обязаны быть одинаковыми для всех нейронов, возможен вариант
аддитивного добавления функции
,
являющейся ортогональной к y(w,x). В этом случае необходимо изменение
лишь весов добавленного нейрона. РИП могут использоваться и при конструировании
многослойных сетей, хотя формулы при этом принимают более сложный вид.
Приведенный подход может использоваться и для последовательного вычисления
матриц Якоби при добавлении новых примеров в обучающее множество.
Литература
- Сараев П.В. Использование псевдообращения в задачах обучения искусственных нейронных сетей //
Электронный журнал "Исследовано в России", 29, С. 308-317, 2001 г.
http://zhurnal.ape.relarn.ru/articles/2001/029.pdf
- Блюмин С.Л., Погодаев А.К. Суперпозиционная регрессия // Журнал вычислительной математики и
математической физики.– 1995. – Том 35, №10. – С. 1576-1581.
|