Компания «Наносемантика» синтезировала голос популярного блогера Руслана Усачева

9 Апреля 2024
В результате проекта команда блогера сможет производить синтезированный аудиоконтент для размещения на своих информационных площадках.

Руслан Усáчев – один из самых известных русскоязычных видеоблогеров. Его по праву можно считать одним из первопроходцев русского Youtube: свои первые влоги он записал еще в марте 2010 года. Руслан является ведущим и сценаристом собственного тревел-шоу и новостного дайджеста Usachev Show, а также шоураннером проекта «КликКлак».

Производство контента для видеоблогов и аудиоподкастов – трудоемкий процесс, требующий тщательной проработки сценария, записи, монтажа аудио- или видеоматериалов. Синтез речи может помочь в этом. Вместо того чтобы записывать ролики в студии, блогеры могут использовать искусственный интеллект (ИИ) в качестве помощника для преобразования текстовых скриптов в аудиофайлы. Так можно существенно ускорить производство контента, а свободное время посвящать другим задачам.

Несмотря на явные преимущества, блогеры могут столкнуться с рядом трудностей. Для качественного синтеза речи нужно решить ряд задач: система должна обучиться тембру голоса конкретного человека и тонкостям произношения, особенно при работе со сложными терминами или профессиональной лексикой.

Голосовая модель Руслана Усачева разработана на базе платформы «Наносемантики» NLab Speech TTS (Text-to-Speech), которая позволяет создать точную копию голоса медийного человека. Платформа специализируется на синтезировании голоса из текстового формата и применяется в различных сферах, в том числе для генерации контента для обучения и развлечения. С помощью NLab Speech TTS можно решить ряд проблем, связанных с синтезированием голоса, таких как склейки, разные уровни шумов и интонации, разная скорость речи, покашливания и др.

Перед разработчиками стояла задача синтезировать оригинальный тембр голоса с особенностями произношения Руслана Усачева. Для обучения модели были использованы 10 часов записи с Youtube-канала блогера. А для тонкой настройки различных нюансов потребовалось еще 10 часов записей чистого голоса заказчика. В процессе разработчики столкнулись с проблемой отображения голосовой дорожки синтезированной записи при публикации в Telegram, впоследствии решив эту задачу с помощью конвертации в подходящий формат файла.

В результате проекта был создан голосовой бот, генерирующий аудиосообщения голосом Руслана Усачева. Доступ к боту имеет заказчик и его команда редакторов, которые приступят с его помощью к производству аудиоконтента для размещения на собственных и, возможно, сторонних площадках.

«Собственный голосовой бот – ценный инструмент, который поможет мне как в решении повседневных задач генерации контента, так и в проектах, на которые мне физически не хватало времени. Помимо автоматической записи подкастов и аудиоинтервью, теперь я смогу легко и просто создавать аудиокниги или озвучивать обучающие курсы. Голосовой бот также может стать помощником в коллаборации с модными брендами или в продвижении собственной продукции из моего интернет-магазина», – подчеркнул Руслан Усачев.

«Работа над каждым новым проектом создания точной копии голоса медийного человека – вдохновляющий опыт. Ранее мы начали синтезировать «голос Победы» Юрия Левитана к юбилею диктора и воссоздали голос известного политика Владимира Жириновского в рамках работы над нейросетью «Жириновский». Новый бот с голосом Руслана Усачева – это очень гибкая модель, настройку и доработку которой мы можем проводить согласно задачам заказчика. Так, например, в перспективе возможна доработка модели с целью записи голоса на иностранных языках для работы с многоязычной аудиторией», - прокомментировал Илья Иванов, коммерческий директор компании «Наносемантика».

О компании

Группа компаний «Наносемантика» объединяет российских разработчиков продуктов на основе нейросетей («Лаборатория Наносемантика», «Нейросети Ашманова», «Синтелли» и другие). За 19 лет на рынке ИТ-компании создали более 12 собственных интеллектуальных продуктов, технологий и платформ, реализовали свыше 180 проектов для бизнеса и госкорпораций. Команды из научных сотрудников и разработчиков обладают уникальными базами знаний и практикой в области искусственного интеллекта: машинном обучении, компьютерном зрении, создании виртуальных роботов, цифровых аватаров и робототехнике.

* фото из аккаунта блогера в Instagram (продукт компании Meta*, которая является экстремистской организацией и деятельность которой запрещена на территории РФ)
Ольга Кочеткова
Наносемантика
kochetkova@nanosemantics.ai