Xataka – La industria se obsesionó con entrenar modelos de IA, mientras Google preparaba su jugada maestra: chips para inferencia

Durante los últimos años lo verdaderamente relevante era entrenar modelos de IA para hacerlos mejores. Ahora que han madurado y el entrenamiento ya no escala de forma tan notable, lo que más importa es la inferencia: que cuando usemos chatbots de IA estos funcionen rápida y eficientemente. Google se dio cuenta de ese cambio de foco, y tiene chips precisamente preparados para ello.

Ironwood. Así se llaman los nuevos chips de la célebre familia de Tensor Processing Units (TPUs) de Google. La empresa, que comenzó a desarrollarlos en 2015 y lanzó los primeros en 2018, obtiene ahora frutos especialmente interesantes de todo ese esfuerzo: unos chips realmente prometedores no para entrenar modelos de IA, sino para que los usemos más rápido y eficientemente que nunca.

Inferencia, inferencia, inferencia. Estas «TPUv7» estarán disponibles en las próximas semanas y se podrán usar para entrenamiento de modelos de IA, pero están especialmente orientadas a «servir» esos modelos a los usuarios para que puedan usarlos. Es la otra gran pata de los chips de IA, la realmente visible: una cosa es entrenar los modelos y otra muy distinta la de «ejecutarlos» para que respondan a las peticiones de los usuarios.

Eficiencia y potencia por bandera. El avance en las prestaciones de estos chips de IA es enorme, al menos según Google. La empresa afirma que Ironwood ofrece cuatro veces más rendimiento que la generación anterior tanto en entrenamiento como en inferencia, además de que estamos ante «el silicio personalizado más potente y eficiente en energía hasta la fecha». Google ya ha llegado a un acuerdo con Anthropic para que esta última tenga acceso hasta a un millón de TPUs para ejecutar Claude y servirlo a sus usuarios.

La supercomputadoras de IA de Google. Estos chips son los componentes clave del llamado AI Hypercomputer, un sistema de supercomputación integrado que según Google permite reducir en un 28% los costes de IT y un ROI del 353% a los clientes en tres años. O lo que es lo mismo: prometen que si usas estos chips, el retorno de la inversión se multiplicará por más de cuatro en ese plazo.

Casi 10.000 chips interconectados. Los nuevos Ironwood están dotados además de la capacidad de formar parte de unir fuerzas a lo grande. Es posible combinar hasta 9.216 de ellos en un único nodo o pod, lo que teóricamente hace que desaparezcan los cuellos de botella de los modelos más exigentes. La dimensión de este tipo de cluster es enorme, y permite disponer de hasta 1,77 Petabytes de memoria HBM compartida mientras que esos chips se comunican con un ancho de banda de 9,6 Tbps gracias al llmado Inter-Chip Interconnect (ICI).

Más FLOPS que nadie. La empresa también asegura que un «pod Ironwood» (un cluster con esas 9.216 TPUs Ironwood) ofrece 118x más ExaFLOPS FP8 que su mejor competidor. Los FLOPS miden cuántas operaciones matemáticas en coma flotante pueden resolver estos chips por segundo, lo que garantiza que básicamente cualquier carga de trabajo de IA va a ejecutarse en tiempos récord.

NVIDIA cada vez tiene más competencia (y eso es bueno). Los chips de Google son la demostración de esa clara vocación de las empresas de evitar demasiadas dependencias de terceros. Google tiene todos los ingredientes para hacerlo, y sus TPUv7 son la demostración de ello. No es la única, y desde hace tiempo muchas otras empresas de IA buscan crear sus propios chips. El dominio de NVIDIA sigue siendo claro, pero la empresa tiene un pequeño problema.

En inferencia CUDA ya no es tan vital. Una vez que el modelo de IA ya ha sido entrenado, la inferencia opera bajo reglas de juego diferentes a las del entrenamiento. El soporte CUDA sigue siendo un factor relevante, pero su importancia en la inferencia es mucho menor. La inferencia se centra en obtener la respuesta más rápida posible. Aquí los modelos «se compilan» y pueden funcionar de forma óptima en el hardware de destino. Puede que eso haga que esa relevancia de NVIDIA pierda enteros ante alternativas como la de Google.

En Xataka | Cuando eres OpenAI y no puedes comprar suficientes GPU, la solución es obvia: fabricar las tuyas


La noticia

La industria se obsesionó con entrenar modelos de IA, mientras Google preparaba su jugada maestra: chips para inferencia

fue publicada originalmente en

Xataka

por
Javier Pastor

.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *