OpenAI lanza o3 y o3 mini con mejoras en razonamiento y matematic

Introducción a o3 y o3-mini

OpenAI ha presentado sus últimos modelos, o3 y o3-mini, que destacan en razonamiento y superan a o1 en varias pruebas, incluyendo matemáticas y ciencia. Al lanzar o3, el CEO de OpenAI, Sam Altman, anunció que el modelo estaría disponible a finales de enero, y hoy la empresa ha cumplido su promesa.

Características de o3-mini

o3-mini es el modelo más rentable de la serie de razonamiento de OpenAI, que se ha lanzado al público. Hasta ahora, la serie estaba compuesta por o1 y o1-mini. Al igual que su predecesor, el modelo es particularmente fuerte en ciencia, matemáticas y codificación, según la empresa. Cuando se selecciona o3-mini, utiliza un esfuerzo de razonamiento medio, que equilibra velocidad y precisión. Aunque el modelo original o1 todavía tiene un conocimiento general más amplio que o3-mini, la principal ventaja del nuevo modelo es su mayor velocidad y rendimiento en comparación con o1-mini.

Rendimiento de o3-mini

Al comparar el rendimiento de o3-mini con o1-mini, los expertos encontraron que o3-mini entregó respuestas más precisas, razonadas y claras que o1-mini. Según la publicación, prefirieron las respuestas de o3-mini el 56% del tiempo y observaron una reducción del 39% en errores graves. Además de las evaluaciones de preferencia humana, en varias pruebas de STEM, incluyendo la Competencia de Matemáticas (AIME 2024), Preguntas de Ciencia de Nivel de Doctorado (GPQA Diamond) y Competencia de Codificación (Codeforces), o3-mini con esfuerzo de razonamiento medio superó a o1-mini. También es notable que o3-mini, con un esfuerzo de razonamiento alto en las pruebas, se acercó al rendimiento de o1, a veces incluso superándolo, como se ve en las pruebas de AIME 2024 y Software Engineering (SWE-bench Verified). El modelo o3-mini con esfuerzo de razonamiento medio igualó el rendimiento de o1 en la prueba de Codeforces.

Seguridad de o3-mini

OpenAI evaluó la seguridad de o3-mini a través de una versión pública y evaluaciones de contenido no permitido. La empresa encontró que el modelo supera significativamente a GPT-4 en las evaluaciones. OpenAI publicó los resultados de la evaluación y también lanzó una tarjeta de sistema o3-mini, un PDF de 37 páginas que incluye los resultados detallados de las evaluaciones.

Acceso a o3-mini

Todos los suscriptores de los planes pagos de OpenAI, incluyendo ChatGPT Plus, Team y Pro, pueden acceder a o3-mini a partir de hoy. Los usuarios de Plus y Team ahora tienen un límite de velocidad tres veces mayor, pasando de 50 mensajes por día con o1-mini a 150 mensajes por día. El acceso a ChatGPT Enterprise estará disponible en una semana.

Conclusión

o3-mini reemplazará a o1-mini en el selector de modelos, ya que sería útil para las mismas tareas, excepto que la experiencia ahora se mejorará con una latencia más baja y límites de velocidad más altos. Si no tienes una suscripción, no te preocupes: puedes ver si o3-mini vale la pena la hype desde tu cuenta gratuita. Todos los usuarios gratuitos de ChatGPT tienen que hacer es hacer clic en «Razonar» en el cuadro de mensaje o regenerar una respuesta. El CEO de OpenAI, Sam Altman, confirmó el acceso gratuito en una publicación. Hasta ahora, todos los modelos de razonamiento han estado detrás de un paywall; OpenAI no especificó ninguna limitación alrededor del nuevo modelo para usuarios gratuitos. En resumen, o3-mini es un modelo de razonamiento avanzado que ofrece una mayor velocidad y precisión en comparación con o1-mini, y está disponible para todos los usuarios de ChatGPT, tanto gratuitos como pagos.

You May Have Missed