Бизнес стал активно генерировать аудио с помощью нейросетей

Автор фото: Сергей Коньков / "ДП"

Компании стали чаще генерировать коммерческие аудиозаписи и фоновую музыку, используя нейросети. В некоторых случаях это позволяет снизить затраты в 30 раз.

В первом полугодии 2024 года бизнес сгенерировал при помощи искусственного интеллекта 4,7 тыс. аудиороликов, подсчитали аналитики сервиса "Звук Бизнес", предоставляющего такие услуги. Это на 91% больше, чем за аналогичный период прошлого года. Женские голоса популярнее мужских — их выбирают 54% клиентов.
"Звук Бизнес" запустил свой telegram–бот в январе 2023 года, и за это время пользователи создали в нём около 11 тыс. аудиороликов.
Основная аудитория бота — владельцы и администраторы коммерческих заведений: кафе и магазинов.
"Часто в таких местах бывают сезонные акции и специальные предложения, а бюджет на то, чтобы создавать профессиональные студийные аудиоролики по каждому случаю, не предусмотрен. Бот позволяет донести до посетителей актуальную информацию о маркетинговых предложениях без потери в качестве вещания", — объясняет директор по маркетингу сервиса "Звук Бизнес" Виталий Бочкарёв.
По словам СЕО Narrators Production (E–Promo Group) Владимира Лутаенко, нейросети также хорошо создают эмбиент — электронную музыку, которую бизнес может использовать для своих проектов.
"Раньше для этого приходилось привлекать композитора или искать готовые композиции на стоках. Сейчас мы просто генерируем музыку, и результат всегда хороший. Что касается озвучки, мы используем сгенерированные голоса для черновой версии. Это помогает нам определиться с хронометражем ролика и услышать, как он будет звучать в финальной версии", — рассказал "ДП" Владимир Лутаенко.
Эксперт отмечает, что генерация аудио через ИИ заметно экономит бюджеты. Раньше на черновые начитки и музыку в стиле эмбиент компания могла потратить до 60 тыс. рублей.
Сейчас Narrators Production пользуется подпиской на специальный сервис, которая стоит около $20 в месяц.
Основательница коммуникационного агентства PR Perfect Кристина Петрова считает, что качества сгенерированных роликов хватает для информирования аудитории. Но такие записи не заменят полноценную аудиорекламу, в производстве которой иногда задействованы десятки специалистов разных профилей.
"В сгенерированных роликах при тщательном прослушивании всё ещё прослеживается отличие, особенно если мы говорим про вокальную составляющую. Инструментальные треки практически неотличимы от роликов, написанных без помощи нейросетей. Топовые сервисы уже сейчас даже вокальные партии генерируют очень похоже на натуральный человеческий голос", — добавляет AI–евангелист "Битрикс24" Сергей Нотевский.