Xataka – Anthropic dice que Claude Sonnet 4.5 puede clonar un servicio como Slack en 30 horas. La realidad es más complicada

Anthropic ha lanzado Claude Sonnet 4.5 asegurando que lo pusieron a trabajar 30 horas seguidas para construir una réplica de Slack. Durante ese tiempo, generó 11.000 líneas de código sin supervisión y solo se detuvo al completar la tarea. En mayo, su modelo Opus 4 logró operar durante siete horas. La empresa lo presenta como «el mejor modelo del mundo para agentes, programación y uso de ordenadores».

Por qué es importante. Anthropic, OpenAI y Google libran una batalla por dominar agentes autónomos y herramientas de programación. Quienes convenzan, capturarán mucho dinero en licencias empresariales.

Scott White, responsable de producto, dice que opera «al nivel de un jefe de gabinete»: coordina agendas, analiza datos, redacta informes… Dianne Penn dice usarlo para buscar candidatos en LinkedIn y generar hojas de cálculo.

Sí, pero. Los desarrolladores cuentan otra historia más matizada. Miguel Ángel Durán, conocido como @midudev, lo resume: «Claude Sonnet 4.5 refactorizó todo mi proyecto en un prompt. 20 minutos pensando. 14 archivos nuevos. 1.500 líneas modificadas. Aplicó arquitectura limpia. Nada funcionaba. Pero qué bonito fue».

Otros desarrolladores reportan lo mismo: miles de líneas con una estructura impecable, pero que no ejecutan. Código que parece profesional pero colapsa al compilarlo. 

Entre líneas. Anthropic no ha mostrado la aplicación de Slack funcionando. Solo ha dicho que la construyó. Tampoco ha demostrado que el código sea operativo. La diferencia entre comunicar algo y demostrarlo, subrayada por Ed Zitron.

La empresa está reconociendo indirectamente el problema: Claude Sonnet 4.5 llega con infraestructura extra para construir agentes —máquinas virtuales, gestión de memoria, gestión de contexto, soporte multiagente…–. Traducción: incluso con el modelo más avanzado, los desarrolladores necesitan herramientas extras para que los agentes programen de forma fiable.

En detalle. Penn ha explicado a The Verge que las mejoras sorprendieron al equipo interno. El modelo es tres veces más hábil usando ordenadores que la versión de octubre. El equipo se pasó el último mes trabajando con feedback de GitHub y Cursor. Canva, beta-tester, dice que ayuda con «tareas complejas de largo contexto».

El contraste. Hay una brecha enorme entre marketing y realidad técnica. Anthropic promete una IA que opera 30 horas construyendo software complejo. Los desarrolladores confirman que genera código muy bien estructurado pero funcionalmente roto.

Este patrón se repite en toda la industria. Los modelos mejoran generando código que parece profesional. Fallan sistemáticamente generando código que funcione de verdad sin intervención humana importante.

Y ahora qué. La pregunta sigue sin respuesta: ¿cuándo pasaremos de IA que genera código bonito pero difuncional a IA que genera código funcional por sí sola?

Anthropic apuesta por que su combinación de modelo potente e infraestructura extra cierre esa brecha. De momento hay que seguir esperando que lleguen pruebas concretas, no demos sin código verificable.

En Xataka | OpenAI firma con Samsung y SK Hynix para una demanda de chips potencial de 900.000 obleas al mes. Es una cifra absurda

Imagen destacada | Anthropic


La noticia

Anthropic dice que Claude Sonnet 4.5 puede clonar un servicio como Slack en 30 horas. La realidad es más complicada

fue publicada originalmente en

Xataka

por
Javier Lacort

.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *