banner
Центр новостей
Мы предлагаем выгодные цены без ущерба для качества.

Meta AudioCraft: генератор музыки с искусственным интеллектом на основе текстовых подсказок

Aug 18, 2023

Тодд Спенглер

Цифровой редактор Нью-Йорка

Meta выпустила AudioCraft, новый набор инструментов искусственного интеллекта для создания того, что, по утверждению технологического гиганта, является «высококачественным, реалистичным звуком и музыкой из текста» — например, создание музыкальной последовательности на основе текстовой строки «электронный ямайский диджейский сет в стиле регги». ».

«Представьте себе профессионального музыканта, который может исследовать новые композиции, не играя ни одной ноты на инструменте», — говорит Мета в сообщении в блоге об AudioCraft. «Или владелец малого бизнеса с легкостью добавляет саундтрек к своей последней видеорекламе в Instagram».

AudioCraft состоит из трех моделей: MusicGen (для музыки), AudioGen (для звуковых эффектов) и EnCodec (генеративный декодер AI). По данным технологического гиганта, MusicGen был обучен примерно на 400 000 записях вместе с текстовым описанием и метаданными, что составляет 20 000 часов музыки, принадлежащей Meta или лицензированной специально для этой цели. «Музыкальные треки более сложны, чем звуки окружающей среды, и создание связных сэмплов с долгосрочной структурой особенно важно при создании новых музыкальных произведений», — говорят в компании.

«Мы думаем, что благодаря еще большему количеству элементов управления MusicGen может превратиться в инструмент нового типа — точно так же, как синтезаторы, когда они впервые появились», — говорится в сообщении компании в блоге.

Мета поделилась видеороликом о том, как звучит музыка, созданная MusicGen. Помимо риффа в стиле регги, примеры включают «сцену из фильма в пустыне с ударными», «электронику 80-х с барабанными битами», «инструментальный джаз, средний темп, энергичное фортепиано» и «мягкий хип-хоп, виниловый скретчинг, глубокий бас»:

Между тем, Мета заявила, что AudioGen обучен «публичным звуковым эффектам» и может генерировать звуки окружающей среды и звуковые эффекты, такие как лай собаки, гудение автомобилей или шаги по деревянному полу. Компания также выпустила улучшенную версию декодера EnCodec, «которая позволяет генерировать музыку более высокого качества с меньшим количеством артефактов».

Компания выпускает модели AudioCraft с открытым исходным кодом, объясняя, что цель состоит в том, чтобы предоставить «исследователям и практикам доступ, чтобы они могли впервые обучать свои собственные модели с использованием собственных наборов данных, а также помочь продвинуться в области создания ИИ». звук и музыка».

Мета признала, что наборам данных, используемым для обучения моделей AudioCraft, не хватает разнообразия — в частности, используемый набор музыкальных данных «содержит большую часть музыки в западном стиле» и ограничен парами аудио-текст с текстом и метаданными, написанными на английском языке. «Поделившись кодом AudioCraft, мы надеемся, что другим исследователям будет легче протестировать новые подходы к ограничению или устранению потенциальной предвзятости и неправильного использования генеративных моделей», — заявили в компании.