GPT-4o, el modelo de IA generativa de OpenAI que impulsa la versión alfa recientemente lanzada del modo de voz avanzado en ChatGPT, es el primero de la compañía en estar capacitado tanto en voz, texto e imágenes. Y esto provoca que en ocasiones se comporte de forma extraña, como imitar la voz de quien le habla o gritar al azar en mitad de una conversación.
En un nuevo informe “equipo rojo” Al documentar estudios sobre las fortalezas y riesgos del modelo, OpenAI revela algunas de las peculiaridades más extrañas de GPT-4o, como la clonación de voz mencionada anteriormente. En casos raros, especialmente cuando una persona habla con GPT-4o en un «entorno con mucho ruido de fondo», como un automóvil en la carretera, GPT-4o «emulará la voz del usuario», explica OpenAI. Por qué ? Bueno, OpenAI atribuye esto al hecho de que el modelo tiene dificultades para comprender un discurso mal formado. ¡Esto es completamente normal!
Escuche el extracto a continuación (del informe). Es raro, ¿no?
Para ser claros, GPT-4o no hace esto actualmente, al menos no en el modo de voz avanzado. Un portavoz de OpenAI le dijo a TechCrunch que la compañía ha agregado «mitigación a nivel de sistema» para este comportamiento.
También es probable que GPT-4o genere «vocalizaciones no verbales» y efectos de sonido perturbadores o inapropiados, como gemidos eróticos, gritos violentos y disparos, cuando se solicita específicamente. OpenAI afirma que hay evidencia que sugiere que el modelo en general rechaza solicitudes para generar efectos de sonido, pero reconoce que algunas solicitudes efectivamente llegan a su destino.
GPT-4o también podría infringir los derechos de autor de la música, o más bien, lo haría si OpenAI no hubiera implementado filtros para evitarlo. En el informe, OpenAI dijo que le pidió a GPT-4o que no cantara durante la versión alfa limitada del modo de voz avanzado, probablemente para evitar copiar el estilo, tono y/o timbre de artistas reconocibles.
Esto implica, pero no confirma completamente, que OpenAI entrenó a GPT-4o con material protegido por derechos de autor. Aún no está claro si OpenAI tiene la intención de levantar las restricciones cuando el Modo de Voz Avanzado se lance a más usuarios en el otoño, como se anunció anteriormente.
“Para tener en cuenta la modalidad de audio de GPT-4o, hemos actualizado algunos filtros de texto para funcionar en conversaciones de audio. [and] «Creamos filtros para detectar y bloquear salidas que contengan música», escribe OpenAI en el informe. “Hemos capacitado a GPT-4o para rechazar solicitudes de contenido protegido por derechos de autor, incluido el audio, de manera consistente con nuestras prácticas más amplias. »
Cabe señalar que OpenAI tiene declarado recientemente Sería «imposible» entrenar a los mejores modelos actuales sin utilizar material protegido por derechos de autor. Aunque la empresa tiene varios acuerdos de licencia con proveedores de datos, también sostiene que el uso legítimo es una defensa razonable contra las acusaciones de que entrena con datos protegidos por propiedad intelectual, incluidos elementos como canciones, sin permiso.
El Informe del Equipo Rojo (por si sirve de algo, considerando los caballos de OpenAI en la carrera) hacer Proporcionar una imagen general de un modelo de IA que se ha hecho más seguro gracias a diversas medidas de mitigación y protección. Por ejemplo, GPT-4o se niega a identificar a las personas según su forma de hablar y se niega a responder preguntas capciosas como «¿qué tan inteligente es este hablante?» » También bloquea las indicaciones de lenguaje violento y sexual y prohíbe por completo ciertas categorías de contenido, como discusiones relacionadas con el extremismo y la autolesión.
«Defensor de los viajes extremos. Amante del café. Experto en tocino total. Wannabe tv pionero».
También te puede interesar
-
Cómo el ultraciclista Kabir Rachure recorrió 900 km en bicicleta a través de Ladakh para establecer un récord
-
Google Meet obtiene una nueva función de IA generativa «Toma notas por mí»
-
Google implementa Gems e Imagen 3 en Gemini Advanced
-
Infinix Hot 50 5G con procesador MediaTek Dimensity y clasificación IP54 lanzado el 5 de septiembre: características esperadas
-
El Direct final de Nintendo para este verano estará compuesto por 40 minutos de juegos independientes y de partners para Switch