|
NEU-2003
БИФУРКАЦИОННЫЙ СТОХАСТИЧЕСКИЙ АЛГОРИТМ МИНИМИЗАЦИИ ФУНКЦИОНАЛА ОШИБКИ И ПРИЛОЖЕНИЯ
М.В. Будаев, В.Л. Лось
Академия минеральных ресурсов РК,
e-mail:budaev_mv@mail.ru, v_los@mail.ru
В работе на качественном уровне строгости рассмотрена
динамическая система (процесс обучения). Она обладает многими интересными
свойствами. Представлен, также, результат применения соответствующего
алгоритма в приложении к геологии.
1. Рассмотрим функционал вида E(f), где f-функциональное
“фазовое” пространство и задачу . Такая задача возникает,
например, при “обучении” нейросетей. Рассмотрим динамическую систему типа
градиентного спуска ГС:
,
где t- время (число итераций).
-бифуркационный параметр определённый ниже.
h -стохастический параметр (белый
шум небошой амплитуды |h | с нулевым средним).
Такая аффинная модификация градиентного спуска делает его
неравновесной динамической системой ДС с множеством интересных
свойств.
Общеизвестно, что стандартный ГС останавливается по
достижении локального минимума функционала. Этот факт говорит в пользу
введения бифуркационного параметра, который отвечает за “фазовые
переходы”. Динамический шум h позволяет,
во-первых, абстрагироваться от неустойчивых локальных положений равновесия
типа особых точек ненулевого индекса или локальных максимумов для
стандартного ГС, во-вторых, делает маловероятными (в смысле меры)
события: .
Определение . Предположим, для простоты, что пространство f моделируется
компактной областью евклидова пространства некоторой размерности D. В
случае нейросетей это условие может быть выполнено. Рассмотрим некоторое
разбиение a ={a
0,…a N} (N-число атомов
разбиения) пространства f и нормированную меру µ(a ,t) порождаемую нашей ДС:
.
- число
“посещений” ДС элемента a i к моменту
времени t. Подробно: пусть , тогда .
Введем функцию меры- ->энтропию разбиения a .
Суммирование ведётся по всем “посещаемым” элементам разбиения. Пусть их
число к моменту времени t равно N(t).
Положим . -положительная постоянная.
Такое интегральное определение
бифуркационного параметра использует информацию о пространственной
структуре всей траектории к моменту времени t.
Качественная картина движения рассматриваемой ДС такова:
Вдали от локальных минимумов (квазистационарных состояний)
функционала E ДС ведёт себя подобно стандартному градиентному спуску.
Предположим, что в некоторый момент система оказалась в локальном минимуме
E:
.
И пусть эта “яма” расположена в некотором атоме a k разбиения a
(здесь и далее мы будем уточнять свойства разбиения). Под “ямой”
подразумеваем окрестность положения равновесия U:
В “яме” ДС практически вырождается в бернуллиевский
стационарный процесс в ограниченной области фазового пространства - , что со временем
приводит к неравномерности распределения µ и, как следствие, к уменьшению
энтропии , а
значит к росту бифуркационного параметра . -параметр, определяющий шаг
(масштаб итерации), и его рост приводит к своеобразному “параметрическому
резонансу”, выталкивающему ДС из “квазистационарной фазы”. Интересно
отметить, что l имеет размерность обратной
“массы” и, таким образом, является информационно-энергитическим параметром
динамической системы.
Для наглядности мы сознательно упрощаем реальную
ситуацию. Вырожденность типичных квазистационарных состояний не является
принципиальным ограничением, всегда можно рассматривать невырожденные
направления, так как в вырожденном подпространстве ДС совершает случайные
блуждания. Однако факт вырождения говорит о наличии симметрий в f. Для
приложений это может означать, например, корреляции между независимыми
переменными, а для нейросетей - неоптимальность архитектуры (лишние слои,
нейроны, синапсы и др.).
Возможно, в качестве бифуркационного параметра можно выбрать
неубывающую функцию свободной энергии в виде:
, , .
где -
матожидание E по распределению , а - “температура”, подлежащая
определению.
Для этого случая пока не получены оценки для “времени
жизни” метастабильных состояний рассматриваемой ДС.
Всё вышесказанное в полной мере относится к алгоритму
обучения нейросетей, особенно в части разбиения фазового пространства. Это
разбиение можно осуществить при помощи дополнительной сети (косети),
входной слой которой это упорядоченное множество всех синоптических весов
основной (обучаемой) сети. Тогда адрес атома разбиения - двоичное слово
(длина равна числу нейронов косети, а состояние каждого бита- активность
соответствующего нейрона). Такое разбиение более экономично, чем разбиение
обычной решеткой плоскостей. Это утверждение имеет точный математический
смысл: в высшие слои входной слой отображается нелинейно и его можно при
помощи гиперплоскости (нейрона) разбить более чем на две части.
Как видно, процесс обучения нейросетей после некоторой
модификации приобретает статфизический и динамический смысл. Это
обстоятельство, возможно, поможет интерпретации результатов применения
нейросетевых алгоритмов в приложениях.
2. Рассмотренный алгоритм и соответствующая программа были
апробированы на геологическом материале для решения задач регионального
прогнозирования полезных ископаемых. Зависимой характеристикой (функцией)
являлась плотность различных типов золотого, медного и свинцового
оруденений. Аргументами (прогнозными признаками) служили вещественные
свойства вмещающей орудинения геологической среды. Построение функции даже
на небольшом количестве данных показало, что она достаточно уверенно
восстанавливает структуру полей распределения руд, и, следовательно, может
использоваться при прогнозе полезных ископаемых, в том числе и с
количественной оценкой полезных ресурсов.
Пример восстановления плотности оруденения 2Au
(Акбакай-Бестюбинский тип) на территории восточного Казахстана по 20%
данных показан на рисунках.

Вычисленная плотность золотого оруденения типа 2Au.

Плотность золотого оруденения типа 2Au.
|