Появление на прошлой неделе особенно эффективной модели машинного обучения для синтеза голоса под названием VALL-E вызвало новую волну беспокойства по поводу возможности быстрого и простого создания дипфейковых голосов — если хотите, квикфейков. Но VALL-E скорее итеративный, чем новаторский, и его возможности не так новы, как вы могли бы подумать. Означает ли это, что вы должны быть более или менее обеспокоены, зависит от вас.

Репликация голоса была предметом интенсивных исследований в течение многих лет, и результаты были достаточно хорошими, чтобы подпитывать многие стартапы, такие как WellSaid, Papercup и Respeecher. Последний также используется для авторизованного воспроизведения голосов таких актеров, как Джеймс Эрл Джонс. Да: теперь Дарт Вейдер будет генерироваться ИИ.

ДОЛИНА, опубликовано на GitHub от его создателей в Microsoft на прошлой неделе, представляет собой «языковую модель нейронного кодека», которая использует другой подход к рендерингу голосов, чем многие предыдущие. Его более крупный обучающий корпус и некоторые новые методы позволяют создавать «высококачественную персонализированную речь» всего за три секунды звука от целевого говорящего.

То есть все, что вам нужно, это очень короткий ролик, подобный следующему (все ролики с карты Microsoft):


Чтобы создать синтетический голос, который звучит очень похоже:

Как вы слышите, он сохраняет тон, тембр, подобие акцента и даже «акустическое окружение» (например, компрессированный голос в сотовом телефонном звонке). Я не удосужился пометить их, потому что вы можете легко сказать, что из вышеперечисленного является чем. Это довольно впечатляет!

Настолько впечатляет, что эта конкретная модель, кажется, пронзила кожу исследовательского сообщества и «стала популярной». Вчера вечером, когда я выпивал в местном баре, бармен многозначительно описал новую угрозу искусственного интеллекта для синтеза речи. Вот откуда я знаю, что ошибся в духе времени.

ЧИТАТЬ  Старшее поколение легко отвечает на этот вопрос! Сможете ли вы угадать советского актера по его улыбке?

Но если вы оглянетесь немного назад, то в 2017 году все, что вам было нужно, — это минута голоса, чтобы создать поддельную версию, достаточно убедительную, чтобы она перешла в повседневное использование. И это был далеко не единственный проект.

Улучшение, которое мы наблюдали в моделях генерации изображений, таких как DALL-E 2 и Stable Diffusion, или в языковых моделях, таких как ChatGPT, было качественным преобразованием: год или два назад этот уровень контента, детализированного и убедительного, генерировался ИИ. это было невозможно. Обеспокоенность (и паника) вокруг этих моделей понятна и оправдана.

Наоборот, улучшение, предлагаемое VALL-E, количественный не качественный. Злоумышленники, заинтересованные в распространении поддельного голосового контента, могли бы сделать это давным-давно, только с большими вычислительными затратами, что не так уж сложно найти в наши дни. Спонсируемые государством субъекты, в частности, будут иметь достаточно ресурсов для выполнения вычислительной работы, необходимой, например, для создания поддельного аудиоклипа президента, говорящего что-то вредное в горячий микрофон.

Я разговаривал с Джеймсом Беткером, инженером, который некоторое время работал над другой системой преобразования текста в речь, называется Черепаха-TTS.

Беткер сказал, что VALL-E действительно итеративна и, как и другие популярные модели в наши дни, получает свою силу от своего размера.

«Это отличная модель, как ChatGPT или Stable Diffusion; у нее есть определенное внутреннее понимание того, как речь формируется людьми. Затем вы можете точно настроить Tortoise и другие модели на конкретных динамиках, и это делает их очень, очень хорошими. “похоже”; хороший“, он объяснил.

Когда вы «завершаете» Stable Diffusion для работы конкретного художника, вы не восстанавливаете всю огромную модель (что требует гораздо больше энергии), но вы все равно можете значительно улучшить их способность воспроизводить этот контент.

ЧИТАТЬ  Знаете ли вы маленькие города в России? 8-й тур

Но то, что это знакомо, не означает, что его следует уволить, пояснил Беткер.

«Я рад, что это набирает обороты, потому что я действительно хочу, чтобы люди говорили об этом. На самом деле, я чувствую, что речь немного священна, как наша культура думает об этом», и он фактически перестал работать над своей собственной моделью. из-за этих опасений. Поддельный Дали, созданный DALL-E 2, не имеет такого же интуитивного эффекта для людей, которые слышат что-то в своем собственном голосе, голосе любимого человека или человека, которым восхищаются.

VALL-E приближает нас на один шаг к вездесущности, и хотя это не та модель, которую вы запускаете на своем телефоне или домашнем компьютере, она не за горами, предположил Беткер. Несколько лет, может быть, чтобы управлять чем-то вроде себя; Например, он отправил этот клип, созданный на его собственном ПК с черепахой-TTS Сэмюэля Л. Джексона, основанный на чтениях его аудиокниги:

Хорошо право? А несколько лет назад вы, возможно, смогли бы добиться чего-то подобного, хотя и с большими усилиями.

Я просто хочу сказать, что, хотя ВАЛЛ-И и трехсекундный фейк определенно замечательны, они являются лишь одним из шагов на долгом пути, по которому исследователи шли более десяти лет.

Угроза существует уже много лет, и если бы кто-то захотел воспроизвести ваш голос, он мог бы легко сделать это давным-давно. От этого думать об этом не становится менее тревожно, и нет ничего плохого в том, чтобы расстраиваться по этому поводу. Это я тоже!

Но выгоды для злоумышленников сомнительны. Небольшие аферы с использованием сносного быстрого подделки, основанного, например, на неправильном звонке, уже очень просты, потому что методы безопасности во многих компаниях уже слабые. Кража личных данных не необходимость полагаться на репликацию голоса, потому что есть так много более простых путей к деньгам и доступу.

ЧИТАТЬ  Нигматуллин: Дзюбе нужно идти в «Торпедо», он не найдет свою «Аль-Насру»

Между тем преимущества потенциально огромны — подумайте о людях, которые потеряли способность говорить из-за болезни или несчастного случая. Эти вещи происходят достаточно быстро, чтобы у них не было времени записать час выступления для формирования модели (не то, чтобы эта возможность была широко доступна, хотя это могло быть и много лет назад). Но с чем-то вроде VALL-E все, что вам нужно, это пара роликов с чьего-то телефона, произносящего тост за ужином или разговаривающего с другом.

По-прежнему существует возможность мошенничества, выдачи себя за другое лицо и тому подобное, хотя все больше людей расстаются со своими деньгами и личностью гораздо более прозаическими способами, такими как простой телефон или фишинг. Потенциал этой технологии огромен, но мы также должны прислушиваться к своему коллективному чутью, подсказывающему, что здесь есть что-то опасное. Только не паникуй – пока.

Source

от admin