Presentación de GPT-4o:
Fecha: El 13 de mayo de 2024, OpenAI anunció GPT-4o.

  • Características clave:

    • Multimodal: GPT-4o puede razonar a través de audio, visión y texto en tiempo real.

    • Entradas y salidas flexibles: Acepta combinaciones de texto, audio e imágenes como entrada y genera respuestas en cualquiera de estos formatos.

    • Latencia reducida: Puede responder a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, similar al tiempo de respuesta humano en una conversación.

    • Mejora en idiomas no ingleses: Supera el rendimiento de GPT-4 Turbo en texto en inglés y código, con una mejora significativa en textos en otros idiomas.

    • Eficiencia económica: Es un 50% más barato en la API que GPT-4.

    • Mejora en visión y audio: GPT-4o comprende mejor imágenes y audio en comparación con modelos anteriores.

  • Ejemplos de capacidades:

    • Interacción natural: GPT-4o puede mantener conversaciones más naturales y rápidas con los usuarios.

    • Traducción en tiempo real: Ahora puede usarse como traductor en tiempo real.

    • Exploración continua: Aún estamos explorando las capacidades y limitaciones de GPT-4o.

Demostraciones:

  • Durante la presentación, GPT-4o respondió con naturalidad a consultas, analizó expresiones faciales y ofreció pistas para resolver ecuaciones matemáticas.

  • La latencia se ha reducido significativamente, lo que mejora la experiencia de conversación con el chatbot.

Disponibilidad:

  • ChatGPT Plus: Se implementará una nueva versión de Voice Mode con GPT-4o en alfa dentro de ChatGPT Plus en las próximas semanas.

  • API: Los desarrolladores ahora pueden acceder a GPT-4o como un modelo de texto y visión en la API, con mayor velocidad y eficiencia.

En resumen, GPT-4o es un emocionante avance en la interacción humano-computadora, y su capacidad para procesar texto, audio e imágenes en tiempo real lo convierte en un modelo versátil y poderoso. ¡Esperamos seguir descubriendo todo lo que puede hacer!