Статья:

ТРАЕКТОРИИ ОБУЧЕНИЯ ПРОСТЕЙШЕГО ЛИНЕЙНОГО ПЕРСЕПТРОНА

Конференция: XXXII Студенческая международная заочная научно-практическая конференция «Молодежный научный форум: технические и математические науки»

Секция: 6. Математические науки

Выходные данные

Босикова А.С. ТРАЕКТОРИИ ОБУЧЕНИЯ ПРОСТЕЙШЕГО ЛИНЕЙНОГО ПЕРСЕПТРОНА // Молодежный научный форум: Технические и математические науки: электр. сб. ст. по мат. XXXII междунар. студ. науч.-практ. конф. № 3(32). URL: https://nauchforum.ru/archive/MNF_tech/3(32).pdf (дата обращения: 23.11.2025)

Скачать сборник

Лауреаты определены. Конференция завершена

Эта статья набрала 44 голоса

Мне нравится

Дипломы
лауреатов

Сертификаты
участников

Дипломы
лауреатов

Сертификаты
участников

XXXII Студенческая международная заочная научно-практическая конференция «Молодежный научный форум: технические и математические науки»

на печатьскачать .pdf поделиться

ТРАЕКТОРИИ ОБУЧЕНИЯ ПРОСТЕЙШЕГО ЛИНЕЙНОГО ПЕРСЕПТРОНА

Босикова Александра Сергеевна

студент института математики и информатики Северо-Восточного федерального университета им. М.К. Аммосова, РФ, Республика Саха (Якутия), г.Якутск

Шамаев Эллэй Иванович

научный руководитель, канд. физ.-мат. наук, кафедра алгебры и геометрии, Северо-Восточного федерального университета им. М.К. Аммосова, РФ, Республика Саха (Якутия), г.Якутск

В данной работе численными методами исследованы траектории обучения простейшего двуслойного линейного персептрона , где – входной вектор, , – линейные операторы. Обучением на заданных входных векторах и соответствующих выходных векторах называется градиентный спуск в пространстве операторов и с целевой функцией . В этом случае траектории операторов, рассматриваемых как матрицы, и задается автономной системой обыкновенных дифференциальных уравнений

(1)

где:

и матрицы, составленные из столбцов и соответственно, , –начальное состояние, выбираются случайные матрицы. В работе [2] были построены точные решения системы (1) в случае одновременно диагонализируемых (t) и (t). В этом случае задача распадается на несколько простейших задач на плоскости. В этих задачах на плоскости (t) и (t) являются функциями. Для иллюстрации траекторий обучения на плоскости в работе [2] было предложено рассматривать в качестве траекторий обучения персептрона кривые на . Опишем эти кривые. Во-первых, система (1) имеет первый интеграл (т.е. не меняющуюся со временем величину) [1]:. Это означает, что каждая траектория лежит на гиперболе , где постоянные являются начальными данными A(0) и B(0). Во-вторых, множество решений уравнения имеет вид .

Рисунок 1. Траектории обучения ,

Таким образом, траектории обучения одномерного персептрона лежат на ветви гиперболы вида

и монотонно стремятся в точку пересечения с гиперболой вида .

В данной работе мы рассматриваем простейший случай, когда

, ,, . В этом случае система (1) также имеет первый интеграл , который определяет гиперболоид или конус. Заметим, что этот гиперболоид (или конус) полностью определяется начальными данными системы (1). Тип поверхности первого интеграла – однополостный гиперболоид, двуполостный гиперболоид или конус –зависит от числа const. Во-вторых, все решения системы (1) имеют вид , , т.е. лежат на кривой (гиперболе) в пространстве. Ветви гиперболы решений пересекают гиперболоид первого интеграла в двух точках, которые являются точками притяжения траекторий решения. Наши численные эксперименты показывают, что для малых по модулю начальных данных p0, q0 и r0 типичная картина траекторий обучения приведена на рис. 2.

Рисунок 2. Траектории обучения

На рисунке 2 построены траектории с начальными данными на экваторе однополосного гиперболоида. Траектории разбились на две группы. Каждая группа траекторий сошлась к своей точке притяжения. В силу симметрии задачи и выбранных начальных данных рисунок получился симметричным.

Заключение

1. В работе [2] был рассмотрен случай одновременно диагонализируемых

и . В этом случае анализ градиентного спуска сводится к анализу траекторий на плоскости, что было показано в [2]. В данной работе с помощью численных методов рассмотрены траектории обучения в случаях, которые не были охвачены работой[2].

2. В результате численных экспериментов для малых по модулю значений начальных данных p0, q0и r0 мы увидели, что траектории обучения

и ведут себя как в диагонализируемом случае.

3. В ходе численных экспериментов не удается построить иллюстрирующие примеры эффектов переобучения и замедления обучения из-за локальных минимумов.

Список литературы:

1.Guo H., GelfandS.B.Analysis of gradient descent learning algorithms for multilayer feed forward neural networks // IEEE Transactions on Circuits and Systems. –1991. –Vol. 38.–№ 8.–P.883–894.

2.Saxe A.M., McClelland J.L., Ganguli S. Exact solutions to the nonlinear dynamics of learning in deep linear neural networks [Электронный ресурс].URL: http://arxiv.org/abs/1312.6120 (дата обращения 10.01.2016).