El Blog de Labu: NVIDIA Vera Rubin vs AMD Helios

En mi humilde opinión:

Lo que ha hecho NVIDIA es un hito tecnológico

Pero AMD ha entrado muy fuerte al mercado de los racks IA apostando por tecnologías abiertas.

Las diferencias principales entre una plataforma y otra son las siguientes:

-AMD usa un nodo de fabricación más pequeño: 2-3nm, frente a los 3nm de NVIDIA. Lo cual es posible que implique un menor consumo eléctrico para AMD.

-Sin embargo NVIDIA va a ser más eficiente por Watio ofrecido. Esto es por su ventaja en GPU + NPU y por la escalabilidad, interconexión y eficiencia que le da el ecosistema de procesadores propietarios que han creado.

Ahora... vayamos al barro:

-AMD ha apostado por un diseño compacto de 1 CPU y 4 GPU conectados verticalmente por sistemas de red UALink, que es un estándar abierto diseñado entre varias empresas que se usa tanto para conectar GPU entre si como para conectar las distintas bandejas. Para conectar los racks se usa Ethernet clásico a través del NIC Pensado con una transferencia de 400-800Gbs

-NVIDIA ha apostado por un ecosistema de tecnologías y chips propietarios para optimizar la interoperatibilidad y escalabilidad. Cada placa contiene 1CPU Vera + 2GPU. Cada bandeja llevará dos placas, es decir, 2 CPU y 4 GPU por tray que se conectarán con chips NVIDIA NVLink 6 Switch. (NvLink conecta GPU dentro de la misma placa y NVLink Switch conecta las placas). Luego las bandejas se conectaran verticalmente a través de los NVIDIA ConnectX-9 SuperNIC a 1,6Tb/s para formar un NVL72, y los racks se conectarán entre si con los chips NVIDIA Spectrum-X Ethernet con óptica coempaquetada que es una gran novedad ya que la óptica se monta junto al chip y no fuera lo que permite mayor velocidad de interconexión (1,6Tb/s), más fiabilidad y menos temperatura.

- NVIDIA utiliza DPU NVIDIA BlueField-4 para aislar los entornos virtualizados mientras que AMD utiliza la DPU de Pensado. (No confundir con el NIC de Pensado)

-1 CPU AMD Venice (Zen6) tendrá 256 nucleos y 512 hilos pero eso no llegará hasta 2027, actualmente AMD dispone de EPYC Turin (Zen 5) 128 núcleos/256 hilos y EPYC Turin Dense 192 núcleos/384 hilos, mientras que 1 CPU NVIDIA Vera tendrá 88 nucleos y 176 subprocesos lo que da un total de 176 nucleos y 352hilos por cada bandeja. Puede parecer que la cantidad de nucleos e hilos es menor en NVIDIA pero hay que tener en cuenta todos los descargos para la CPU que tiene el entorno de NVL72 gracias a los chips y tecnologías propietarias que se encargan de funciones específicas en vez de hacerlo la CPU:

Las GPU de AMD se conectan entre si a través de UALink pero requieren de la CPU, sin embargo las GPU de NVIDIA se interconectarán a través de los chips NVIDIA NVLink 6 Switch lo cual podría redundar en una mejor conexión entre GPU y un menor uso de CPU. Es decir, en Blackwell, la generación anterior, con NVLink‑C2C: la CPU Grace no mueve datos, solo los ve. También el stack DPU NVIDIA BlueField-4 está más integrado que el DPU AMD Pensado. En cuanto a la comunicación entre nodos pasa lo mismo: AMD también descarga esto con Pensando NIC, pero al tener mayor velocidad de transferencia y más estabilidad Spectrum‑X está más optimizado para IA distribuida. Luego hay que recordar que Blackwell ya tenia Tensor Memory Accelerator (TMA) y motores DMA en GPU por lo que La CPU no toca ni un byte de datos de entrenamiento. Además, NVIDIA ha movido gran parte del scheduling de kernels a NVSwitch y a la GPU por lo que la CPU solo lanza grandes tareas pero la micro gestión se deriva en gran parte.

Luego, además está el pequeño detalle de que una vez las piezas en el datacenter los NVL72 se van a montar más fácil y rápido que los Helios.

No puedo a entrar al trapo a comparar TOPS y FLOPS porque aún no tenemos todos los datos de AMD accesibles tan fácilmente como los de NVIDIA. Pero ya sabes que seguramente habrá que esperar a que los centros de datos empiecen a montar tanto unos racks como otros para poder ver comparativas más exhaustivas.

En resumidas cuentas:

-El Rack completo de NVIDIA son 18 bandejas, con 36 cpu y 72 gpu. con un total de 20,7Tb de memoria gpu,

-El Rack completo de AMD son 18 bandejas con 18 cpu y 72 gpu. con un total de 31Tb de memoria

Potencia bruta: AMD 2.9Hexaflops vs 3,6Hexaflops Nvidia.

En cuanto a las fechas... NVIDIA Vera Rubin está en producción masiva y saldrá a la venta en la segunda mitad de 2026. AMD Instinct MI455 también debería de haber empezado a producirse pero no se sabe mucho aunque dicen que "Early 2026" que imagino que será Q1 ó Q2. Hay que tener en cuenta que las CPU Epic Venice con arquitectura Zen6 no saldrán hasta 2027. En 2027 saldrán también los AMD Instinct MI500.

A simple vista la cosa parece bastante igualada...

Realmente la plataforma de AMD no es mala y tiene puntos positivos aunque se nota que NVIDIA tiene cierta ventaja. Más sin duda AMD ha demostrado que puede competir con NVIDIA en IA.

Y finalmente... mi humilde opinión:

Si tuviera que apostar por una de las plataformas a corto plazo... apostaría por NVIDIA por la velocidad de interconexión entre nodos que es posiblemente la causa por la cual han aumentado tanto la eficiencia del entrenamiento y el coste de inferencia con respecto a Blackwell.

Y me duele un poco decir que recomiendo el stack de NVIDIA... Porque soy más de tecnologías abiertas y porque todos sabemos lo que pasa con los drivers de NVIDIA en linux XD siendo que AMD ha apostado muy fuerte por linux abriendo sus drivers a los usuarios de sobremesa lo cual aclamo ya que también abre y facilita el mundo de las IA entrenadas por usuarios en linux así como el gaming en linux. Pero la verdad que en esto del hardware de datacenters... seguramente de un poco igual si las tecnologías son abiertas o privativas ya que no puedes hacerte un procesador en casa XD. Lo que importa para las grandes empresas que están entrenando modelos es ahorrarse tiempo en cada ciclo de entrenamiento y obtener el máximo rendimiento por el mismo precio.

Y a largo plazo: si, podría pasar cualquier cosa. AMD podría sacar nuevas GPU que superaran a NVIDIA, o AMD podría demostrar ser más eficiente energéticamente y ganar ventaja al reducir costes, o quizás NVIDIA se adapta rápidamente a menores nodos de fabricación a través de SAMSUNG en vez de TSMC y consiguen llegar a los 2nm antes de lo esperado, pero si se les alarga mucho llegar a los 2nm y no demuestran una clara ventaja en su arquitectura, AMD podría ir comiéndoles terreno...

Habrá que ver a lo largo de 2026 como es la eficiencia de las arquitecturas en la práctica más allá de los datos que tenemos en papel. Ya sabes lo que pienso: desde la teoría podemos hablar muchas cosas, pero el precio es un marcador del valor real... Y cuando una decisión u otra cuesta millones es cuando el dinero decide... ¡No hay mejor árbitro que el propio mercado!.

El Blog de Labu

miércoles, 14 de enero de 2026

NVIDIA Vera Rubin vs AMD Helios

No hay comentarios:

Entrada destacada

Definiciones milagrosas v 3.42.1

Archivo del blog

Datos personales