Искусственные нейронные сети

Как многослойный персептрон может устранить ограничения однослойного персептрона?

Любит | Нелюбов | Ответы | Вид | 4270


Шридхар Махадеван член АААИ   
@ | Обновлено Right Now


История создания ML лежит в ответе на этот, по-видимому, простой и прямой вопрос. В большинстве исследований часто самые простые вопросы приводят к самым глубоким ответам.

Итак, история ML начинается в конце 1950-х годов, когда нейробиолог по имени Роджер Розенблатт изобрел вычислительную модель мозга, которую он назвал «персептроном».

Я собираюсь буквально привести описание объявления о персептроне из Википедии, потому что по-настоящему «дежа вю» то, что происходит в 2019 году, так жутко напоминает то, что произошло 60 лет назад. Итак, вот цитата из Википедии:

«Алгоритм персептрона был изобретен в 1958 году в Авиационной лаборатории Корнелла Фрэнком Розенблаттом [3], финансируемым Управлением военно-морских исследований США [4].

Перцептрон должен был быть машиной, а не программой, и хотя его первая реализация была в программном обеспечении для IBM 704, впоследствии он был реализован на оборудовании, изготовленном на заказ, как «перцептрон марки 1». Эта машина была разработана для распознавания изображений: она имела массив из 400 фотоэлементов, случайным образом связанных с «нейронами». Веса были закодированы в потенциометрах, а обновления веса во время обучения выполнялись электродвигателями. «

Теперь, будьте готовы к жуткой части. Снова со ссылкой на Википедию:

«На пресс-конференции, организованной ВМС США в 1958 году, Розенблатт сделал заявления о персептроне, вызвавшем ожесточенные споры среди начинающего сообщества ИИ; основываясь на заявлениях Розенблатта, The New York Times сообщила, что персептрон является «зародышем электронного компьютера, который, как ожидает [военно-морской флот], сможет ходить, разговаривать, видеть, писать, воспроизводить себя и осознавать свое существование».

Разве это иррациональное изобилие 60-летней давности не очень напоминает безумие современных СМИ об ИИ? Итак, что произошло дальше в нашей истории о скромной модели персептрона? Один из основателей ИИ, профессор Марвин Мински из Массачусетского технологического института и его коллега Сеймур Паперт опубликовали ослепительную историю модели персептрона как классическую книгу, которая является одним из подлинных краеугольных камней теории вычислительного обучения.

Перцептроны

Мински и Паперт показали, что вдали от безумия средств массовой информации о машине, которая может «ходить, разговаривать, видеть, писать и воспроизводить себя», персептрон был сильно ограничен в своей способности изучать функции из данных. В своем энтузиазме исследователи забыли задать более простой вопрос: есть ли пределы его способности учиться? В частности, восприятия не могут изучать простые функции, такие как XOR, потому что они не являются «линейно разделимыми».

Как показано на рисунке, булевы функции AND и OR могут быть изучены персептронами, потому что положительные и отрицательные примеры могут быть разделены линией. Не так с XOR. Итак, пузырь лопнул и работа над нейронными сетями прекратилась. Позже Минский сказал, что это не было его намерением, которое должно было показать недостаток оригинальной модели.

Следующий прогресс произошел около 30 лет спустя, когда были изобретены многослойные сети с прямой связью, а знаменитый алгоритм обратного распространения был опубликован Джеффом Хинтоном и его коллегами в середине 1980-х годов. Я прошел курс обучения нейронной сети Хинтона в КМУ в 1987 году и вспомнил волнение. Это было очень похоже на то чувство, которое ты испытываешь сегодня.

The essence of the algorithm is based on computing the gradient of the error at the output with respect to parameters that lie in interior layers. The algorithm requires only basic calculus to understand and it uses the chain rule. As it turned out, multilayer neural networks were freed from the limitations of perceptrons. Using one of the cornerstone theorems in functional analysis called the “ Hahn Banach” theorem, a Dartmouth mathematician proved that indeed multilayer neural networks could represent any continuous function. The original proof needs some deep math, but there are simpler presentations.

Neural networks and deep learning

So, 30 years later, does our story have a happy ending? Far from it. We are back again facing the same issues. Like the famous Groundhog Day movie, it seems the same scenario keeps playing endlessly in ML and AI. The problem is that these theorems about multilayer neural networks say nothing about the ability of backpropagation to “learn” any continuous function from data. All they prove is that there are a set of weights under which multilayer neural networks can “represent” any function.

Remarkably, we are almost in 2020, and the situation has not changed. There is no proof yet that multilayer neural networks can be trained to learn any smooth function from data. Meanwhile, the situation is getting perilous because these multilayer networks are being used in millions of real world life or death applications.
For example, my Tesla model S P100D uses multilayer networks to implement a simple form of autonomous driving. It would be good for me to know I can trust my car to take me safely to work!

Итак, некоторый проблеск надежды начинает проявляться, но картина остается неясной. В ряде недавних теоретических работ было показано, что бесконечно широкие нейронные сети сводятся к довольно простой модели гауссовского процесса, динамику которой можно изучать заданным образом. Не получая слишком технической информации, можно построить определенную положительно определенную матрицу, спектральные свойства которой (собственные значения) не слишком сильно изменяются от случайной инициализации до окончательно настроенных значений. Эта матрица называется нейронным касательным ядром.

Нейронное касательное ядро: сходимость и обобщение в нейронных сетях

Появляется также более запутанная картина, которая показывает, что в сильно переопределяемых нейронных сетях есть лотерейные билеты, иными словами, действительно маленькие сети, которые работают почти так же хорошо.

Гипотеза лотерейного билета: поиск редких, обучаемых нейронных сетей

другими словами, вы можете отбросить 90% веса и при этом получить эффективную сеть! В чем дело? Я открою вам секрет изнутри. Никто не знает! Это тайна. Страшно, но это правда. Мы переживаем кошмар персептрона. Цитируя реферат этой ныне известной статьи 2018 года, она гласит:

Основываясь на этих результатах, мы формулируем «гипотезу лотерейного билета»: плотные, случайно инициализированные сети прямой связи содержат подсети («выигрышные билеты»), которые - при обучении изолированно - достигают точности теста, сопоставимой с исходной сетью в аналогичное количество итераций. Найденные нами выигрышные билеты выиграли в лотерею инициализации: их соединения имеют начальный вес, что делает обучение особенно эффективным.
Мы представляем алгоритм для определения выигрышных билетов и серии экспериментов, которые подтверждают гипотезу лотерейных билетов и важность этих случайных инициализаций. »

Итак, через 60 лет после объявления о персептронах мы все еще не уверены в истинной силе нейронных сетей. Но на кону стоит триллион долларов. Это лучше любого голливудского триллера. Будьте на связи!

| |



Онлайн-курс
«Всё о блокчейне и криптовалютах»
Один из самых трендовых курсов в сфере Цифровой экономики.