Искусственный General Int ...

Какая самая крутая вещь, которой ИИ достиг к настоящему времени?

Любит | Нелюбов | Ответы | Вид | 8603


Брайан Уолш электротехника;   
@ | Обновлено Right Now


Это Speech2Face [1] , модель нейронной сети, которая может воссоздать чье-то лицо только из их голоса.

Результаты не идеальны, но сходство очевидно.

Он был разработан в Массачусетском технологическом институте, и соответствующая исследовательская работа [2] была опубликована на прошлой неделе (конец мая 2019 г.). Миллионы видеофрагментов из YouTube и других источников были использованы для его обучения.

При наличии достаточного количества данных, вычислительной мощности и времени нейронная сеть может «научиться» воссоздавать человеческие лица, анализируя видеосегменты, соединяя голоса в лица и находя закономерности и тенденции между ними.

Обратите внимание, что сгенерированные лица точно воссоздают нос, губы, щеки и структуру костей - все, кроме их глаз. Это дает представление о том, как работает эта модель ML. Точно представленные черты имеют прямую связь между внешностью и речью. Например, у людей с более глубокими голосами могут быть более широкие носы или более широкие челюсти, чем у людей с более высокими тонами голоса, тогда как форма и размер глаз, как правило, не оказывают большого влияния на то, как кто-то звучит.

Вот все коррелирующие признаки, перечисленные авторами. Корреляция варьируется от -1 до 1, где 0 не имеет корреляции и ± type="math/tex" id="MathJax-Element-1"> 1 является абсолютной корреляцией:

(Источник: ссылка на документ)

Но как это возможно?

Подумайте о времени, когда вы разговаривали по телефону с кем-то, кого вы никогда раньше не видели, например, со службой поддержки или кабинетом врача. Вы можете не осознавать, что во время телефонного звонка ваш мозг пытается представить, как они могут выглядеть, основываясь на том, как они звучат. Если вы когда-либо слушали подкаст или участвовали в конференц-связи, вы можете отслеживать, кто говорит в любой момент, даже не пытаясь.

Попробуй это:

  1. Визуализируйте двух парней, разговаривающих в баре
  2. Представьте себе их диалог и тон
  3. Теперь дайте им обоим австралийский акцент

What do they look like? What are their hair colors? The image in your head might be different from mine, but what matters is that we both came up with some generic, “average” image for what a male with an Australian accent looks like. The two guys you pictured might look like Australians you know in real life, or a combination of all of the Australians you’ve ever seen.

This is what Speech2Face is doing, but with hundreds of times more patterns to factor in. Interestingly enough, our brains can already partially accomplish what Speech2Face does, such as being able to identify our friends just by the sound of their voice.

Here are some more results from Speech2Face:

Additional Remarks & Info:

Now combine Speech2Face with Nvidia’s GAN[3] (Generative Adversarial Network):

Все эти лица были созданы GAN, ни одно из них не существует в реальной жизни. Они являются результатом нейронной сети, которая достаточно хорошо изучила общие черты и модели реальных людей, чтобы создать их самостоятельно. Более того, выходные данные нейронной сети могут быть отправлены обратно на вход для дальнейшего обучения, что приводит к почти бесконечным данным для обучения (учитывая, что выходные данные уже достаточно реалистичны).

GAN может создавать несуществующих людей из ничего, а Speech2Face в настоящее время работает с другого конца. WaveNet [4] уже очень похож на настоящий человеческий голос, и это всего лишь вопрос времени, когда они встретятся посередине.

Вероятно, мы находимся всего в <10 лет от искусственного человека, похожего на человека, который звучит и выглядит как кто-либо другой, и будет трудно заметить разницу.

Недавно я обсудил этические проблемы с этой технологией по другому вопросу .

Сноски

[1] Speech2Face: изучение лица за голосом

[2] Speech2Face: изучение лица за голосом

[3] Прогрессивный рост GAN для улучшения качества, стабильности и вариации.

[4] WaveNet: генеративная модель для необработанного аудио | DeepMind

| |



Онлайн-курс
«Машинное обучение для людей»
Один из самых трендовых курсов в сфере Цифровой экономики.