En mayo, Anthrope anunció dos nuevos sistemas de IA, Opus 4 y soneto 4. Ahora, menos de seis meses después, la compañía está presentando Sonnet 4.5 y lo llama el mejor modelo de codificación del mundo hasta la fecha. La base de Anthrope para esa afirmación es una selección de puntos de referencia donde la nueva IA supera no solo a su predecesor, sino también a los sistemas Opus 4.1 más caros, incluidos los de Google. Géminis 2.5 Pro y GPT-5 de OpenAi. Por ejemplo, en Osworld, una suite que prueba los modelos de IA en las tareas informáticas del mundo real, el soneto 4.5 establece una puntuación récord del 61.4 por ciento, lo que lo pone 17 puntos porcentuales por encima de Opus 4.1.
Al mismo tiempo, el nuevo modelo es capaz de trabajar de manera autónoma en proyectos de varios pasos durante más de 30 horas, una mejora significativa de las siete horas de Opus 4 podría mantenerse en el lanzamiento. Ese es un hito importante para el tipo de sistemas de agente que Anthrope quiere construir.
El soneto 4.5 supera a los modelos más antiguos de Anthrope en codificación y tareas de agente.
(Antrópico)
Quizás lo más importante es que la compañía afirma que Sonnet 4.5 es su sistema de IA más seguro hasta la fecha, y el modelo se sometió a una capacitación de seguridad “extensa”. Esa capacitación se traduce en un chatbot antrópico, dice que es “sustancialmente” menos propenso a la “sycofancia, el engaño, la búsqueda de poder y la tendencia a fomentar el pensamiento delirante”, todos los rasgos de modelo potenciales que tienen aterrizó OpenAi en agua caliente en los últimos meses. Al mismo tiempo, Anthrope ha fortalecido las protecciones del soneto 4.5 contra ataques de inyección inmediatos. Debido a la sofisticación del nuevo modelo, Anthrope está liberando el soneto 4.5 bajo su marco de nivel 3 de seguridad AI, lo que significa que viene con filtros diseñados para evitar resultados potencialmente peligrosos relacionados con indicaciones alrededor de las armas químicas, biológicas y nucleares.

Un gráfico que muestra cómo Sonnet 4.5 se compara con otros modelos fronterizos en las pruebas de seguridad.
(Antrópico)
Con el anuncio de hoy, Anthrope también está implementando mejoras de calidad de vida en la pila de productos Claude. Para comenzar, Claude Code, el popular agente de codificación de la compañía, tiene una interfaz terminal renovada, con una nueva característica llamada Puntos de control incluidos. Como probablemente pueda adivinar por el nombre, le permiten guardar su progreso y regresar a un estado anterior si Claude escribe un código funky que no funciona como lo imaginó. Creación de archivos, que antrópico comenzó a implementarse a principios de mesahora está disponible para todos los usuarios profesionales, y si se unió a la lista de espera de Claude para Chrome, puede comenzar a usar la extensión hoy.
El precio de API para Sonnet 4.5 permanece en $ 3 por un millón de tokens de entrada y $ 15 por la misma cantidad de tokens de salida. El lanzamiento de Sonnet 4.5 corbea un fuerte septiembre para Anthrope. Solo un día después de Microsoft Se agregaron modelos Claude al copilot 365 La semana pasada, Openai aceptado Su rival ofrece la mejor IA para tareas relacionadas con el trabajo.