investigadores de Google introducido MúsicaLM, un modelo de IA capaz de generar música de alta fidelidad a partir de texto. MusicLM crea música a una frecuencia constante de 24 kHz durante varios minutos modelando el proceso de generación de música condicional como un problema de modelado jerárquico de secuencia a secuencia.
De acuerdo a trabajo de investigación, MusicLM se entrenó en un conjunto de datos de 280 000 horas de música para producir canciones que tengan sentido para descripciones complejas. Los investigadores también afirman que su modelo supera a los sistemas anteriores tanto en calidad de audio como en respeto por la descripción textual.
Muestras de MusicLMincluye pistas de cinco minutos producidas a partir de solo una o dos palabras como techno melódico, así como muestras de 30 segundos que suenan como canciones completas y se forman a partir de descripciones de párrafos que prescriben un género, un estado de ánimo e incluso instrumentos específicos.
MusicLM también es capaz de transformar una colección de descripciones escritas secuencialmente en una historia o narración musical basada en melodías existentes, ya sea silbada, tarareada, cantada o tocada con un instrumento.
Música generada por IA tiene una larga historia y se le atribuye la escritura de canciones exitosas y la mejora de las presentaciones en vivo. En una versión más reciente, las indicaciones escritas se convierten en espectrogramas y música usando el motor de generación de imágenes AI Transmisión constante.
Contrariamente a aprendizaje automático de texto a imagen, donde se afirma que grandes conjuntos de datos han contribuido significativamente al progreso reciente, existen barreras para la música de IA relacionadas con la falta de datos de audio y texto acoplados. Por ejemplo, Transmisión constante y IA abierta LOSA herramienta han generado un interés renovado por parte del público en general. También el hecho de que la música esté estructurada según un dimensión de tiempo presenta otra dificultad en la generación de música AI. Por lo tanto, en comparación con el uso de una descripción para una imagen fija, es mucho más difícil transmitir la intención de una pieza musical utilizando texto simple.
Google es más cauteloso con MusicLM que algunos de sus competidores con tecnología comparable, como lo ha sido en incursiones anteriores en esta forma de IA. El artículo termina con la declaración: «No tenemos la intención de lanzar ningún modelo en este momento».
«Defensor de los viajes extremos. Amante del café. Experto en tocino total. Wannabe tv pionero».
También te puede interesar
-
Cómo el ultraciclista Kabir Rachure recorrió 900 km en bicicleta a través de Ladakh para establecer un récord
-
Google Meet obtiene una nueva función de IA generativa «Toma notas por mí»
-
Google implementa Gems e Imagen 3 en Gemini Advanced
-
Infinix Hot 50 5G con procesador MediaTek Dimensity y clasificación IP54 lanzado el 5 de septiembre: características esperadas
-
El Direct final de Nintendo para este verano estará compuesto por 40 minutos de juegos independientes y de partners para Switch