Основы глубокого обучения

Повідомити про появу

Eldar Nasyrovцитує4 роки тому
На каждом шаге движения перпендикулярно контуру нам нужно решать, как далеко мы хотим зайти, прежде чем заново вычислять направление. Это расстояние зависит от крутизны поверхности. Почему? Чем ближе мы к минимуму, тем короче должны быть шаги. Мы понимаем, что близки к минимуму, поскольку поверхность намного более плоская и крутизну мы используем как индикатор степени близости к этому минимуму. Но если поверхность ошибки рыхлая, процесс может занять много времени. Поэтому часто стоит умножить градиент на масштабирующий коэффициент — темп обучения. Его выбор — сложная задача (рис. 2.4).
- Подобається
- Коментувати
- Поділитися
  Facebook
  Twitter
  Копіювати посилання
- Поскаржитися
Eldar Nasyrovцитує4 роки тому
Эту поверхность удобно визуализировать как набор эллиптических контуров, где минимальная ошибка расположена в центре эллипсов. Тогда мы будем работать с двумерным пространством, где измерения соответствуют весам. Контуры сопоставлены значениям w1 и w2, которые дают одно и то же E. Чем ближе они друг к другу, тем круче уклон. Направление самого крутого уклона всегда перпендикулярно контурам. Его можно выразить в виде вектора, называемого градиентом.
- Подобається
- Коментувати
- Поділитися
  Facebook
  Twitter
  Копіювати посилання
- Поскаржитися
Eldar Nasyrovцитує4 роки тому
Пора разработать высокоуровневую стратегию нахождения значений весов, которые сведут к минимуму функцию потерь. Допустим, мы случайным образом инициализируем веса сети, оказавшись где-то на горизонтальной поверхности. Оценив градиент в текущей позиции, мы можем найти направление самого крутого спуска и сделать шаг в нем. Теперь мы на новой позиции, которая ближе к минимуму, чем предыдущая. Мы проводим переоценку направления самого крутого спуска, взяв градиент, и делаем шаг в новом направлении. Как показано на рис. 2.3, следование этой стратегии со временем приведет нас к точке минимальной ошибки. Этот алгоритм известен как градиентный спуск, и мы будем использовать его для решения проблемы обучения отдельных нейронов и целых сетей
- Подобається
- Коментувати
- Поділитися
  Facebook
  Twitter
  Копіювати посилання
- Поскаржитися
Eldar Nasyrovцитує4 роки тому
В отличие от других типов, выходные данные нейрона в слое с мягким максимумом зависят от выходных данных всех остальных нейронов в нем. Нам нужно, чтобы сумма всех выходных значений равнялась 1. Приняв zi как логит i-го нейрона с мягким максимумом, мы можем достичь следующей нормализации, задав выходные значения:
- Подобається
- Коментувати
- Поділитися
  Facebook
  Twitter
  Копіювати посилання
- Поскаржитися
Eldar Nasyrovцитує4 роки тому
Еще один тип нелинейности используется нейроном с усеченным линейным преобразованием (ReLU). Здесь задействована функция f(z) = max(0, z), и ее график имеет форму хоккейной клюшки
- Подобається
- Коментувати
- Поділитися
  Facebook
  Twitter
  Копіювати посилання
- Поскаржитися
Eldar Nasyrovцитує4 роки тому
Нейроны гиперболического тангенса (tanh-нейроны) используют похожую S-образную нелинейность, но исходящие значения варьируют не от 0 до 1, а от −1 до 1. Формула для них предсказуемая: f(z) = tanh(z). Отношения между входным значением y и логитом z показаны на рис. 1.12. Когда используются S-образные нелинейности, часто предпочитают tanh-нейроны, а не сигмоидные, поскольку у tanh-нейронов центр находится в 0.
- Подобається
- Коментувати
- Поділитися
  Facebook
  Twitter
  Копіювати посилання
- Поскаржитися
Eldar Nasyrovцитує4 роки тому
На практике для вычислений применяются три типа нелинейных нейронов. Первый называется сигмоидным и использует функцию:

Интуитивно это означает, что, если логит очень мал, выходные данные логистического нейрона близки к 0. Если логит очень велик — то к 1. Между этими двумя экстремумами нейрон принимает форму буквы S
- Подобається
- Коментувати
- Поділитися
  Facebook
  Twitter
  Копіювати посилання
- Поскаржитися
Eldar Nasyrovцитує4 роки тому
Пусть входные значение i-го слоя сети — вектор x = [x1 x2 … xn]. Нам надо найти вектор y = [y1 y2 … ym], образованный распространением входных данных по нейронам. Мы можем выразить это как простое умножение матрицы, создав матрицу весов размера n × m и вектор смещения размера m. Каждый столбец будет соответствовать нейрону, причем j-й элемент сопоставлен весу соединения с j-м входящим элементом. Иными словами, y = ƒ(WTx + b), где функция активации применяется к вектору поэлементно.
- Подобається
- Коментувати
- Поділитися
  Facebook
  Twitter
  Копіювати посилання
- Поскаржитися
Eldar Nasyrovцитує4 роки тому
Необязательно, чтобы выход каждого нейрона был связан с входами всех нейронов следующего уровня. Выбор связей здесь — искусство, которое приходит с опытом.
- Подобається
- Коментувати
- Поділитися
  Facebook
  Twitter
  Копіювати посилання
- Поскаржитися
Eldar Nasyrovцитує4 роки тому
Чаще в скрытых слоях нейронов меньше, чем во входном: так сеть обучается сжатому представлению информации.
- Подобається
- Коментувати
- Поділитися
  Facebook
  Twitter
  Копіювати посилання
- Поскаржитися