Inicio / Sistemas IA / Soluciones / Enterprise

Pack Enterprise — Soberania total de datos e IA

Infraestructura IA enterprise: soberanía total.

Desde clústeres HGX con 8 GPUs H100 SXM hasta AI Factory Racks con 72 GPUs Blackwell B200. Diseñamos, instalamos y operamos infraestructura IA enterprise on-premise para organizaciones de 500+ empleados que necesitan soberanía total sobre sus datos, modelos y operaciones de inteligencia artificial.

Agenda auditoría gratuita Ver metodología

Para quien es este pack

Infraestructura IA enterprise on-premise para grandes organizaciones.

Si tu organización tiene más de 500 empleados, la IA ya no es un proyecto piloto: es una decisión estratégica. Por lo tanto, necesitas infraestructura que garantice soberanía total, rendimiento extremo y capacidad de entrenamiento de modelos propios desde cero.

Las grandes organizaciones se enfrentan a requisitos que van mucho más allá de la inferencia de modelos preentrenados. En primer lugar, necesitan la capacidad de entrenar modelos completos desde cero con sus propios datos corporativos. En segundo lugar, requieren que absolutamente ningún dato salga de su infraestructura, ni siquiera durante el entrenamiento. Por eso, la infraestructura IA enterprise on-premise se ha convertido en una prioridad estratégica para empresas de este tamaño.

Nuestro pack Enterprise cubre el espectro completo: desde clústeres NVIDIA HGX con 8 GPUs H100/H200 SXM hasta AI Factory Racks con 72 GPUs Blackwell B200 y 36 CPUs Grace. Es decir, desde configuraciones que ejecutan Llama 405B con facilidad hasta plataformas capaces de entrenar modelos fundacionales propios desde cero.

Además, para organizaciones que buscan alternativas al ecosistema NVIDIA, también trabajamos con GPUs AMD Instinct MI300X, que ofrecen 192 GB de memoria HBM3 por GPU. De este modo, tienes flexibilidad para elegir la plataforma que mejor se adapte a tu estrategia tecnológica y a tus relaciones con proveedores.

A diferencia de los packs PYME y Empresa, la infraestructura IA enterprise on-premise incluye networking de alta velocidad con InfiniBand NDR a 400 Gb/s para comunicación entre nodos GPU. Esto es fundamental para el entrenamiento distribuido, donde múltiples servidores trabajan en paralelo para entrenar un único modelo. Como resultado, puedes escalar la capacidad de cómputo de forma casi lineal añadiendo más nodos al clúster.

El servicio Enterprise incluye todo lo de los packs anteriores, más diseño de arquitectura distribuida, SLA dedicado, soporte 24/7 y consultoría estratégica de IA. En otras palabras, no solo instalamos hardware: nos convertimos en tu socio tecnológico para la estrategia de IA de tu organización. Puedes ver casos de éxito de implementaciones similares.

La refrigeración líquida es estándar en las configuraciones Blackwell, ya que las GPUs B200 generan más calor que las generaciones anteriores. Por consiguiente, diseñamos el sistema de refrigeración como parte integral de la arquitectura, no como un añadido posterior. Esto garantiza rendimiento máximo sostenido 24/7 sin throttling térmico.

Tiers de hardware

Tres niveles de infraestructura IA enterprise on-premise.

Cada organización tiene requisitos distintos. Por eso, ofrecemos tres configuraciones escalables que cubren desde inferencia de modelos grandes hasta entrenamiento de modelos fundacionales.

Tier 1

HGX 8U

La plataforma HGX combina 8 GPUs H100 o H200 SXM en un formato 8U con NVLink de 4ª generación a 900 GB/s y NVSwitch para comunicación all-to-all entre las 8 GPUs. Es decir, las 8 GPUs pueden compartir memoria como si fueran una única GPU gigante. Esto es fundamental para ejecutar modelos como Llama 405B, que requiere más de 800 GB de VRAM para funcionar sin cuantización.

8x H100 SXM (80 GB HBM3 cada una = 640 GB total) o 8x H200 SXM (141 GB HBM3e cada una = 1.13 TB total)
NVLink 4th gen a 900 GB/s + NVSwitch para comunicación all-to-all entre las 8 GPUs
4 a 8 TB de DDR5 ECC, almacenamiento NVMe de alta capacidad y networking InfiniBand NDR
Ideal para: inferencia de modelos 405B, fine-tuning de modelos grandes, servicio multi-modelo a escala

Tier 2

Blackwell 10U

La generación Blackwell representa un salto cuántico en rendimiento para infraestructura IA enterprise on-premise. Cada GPU B200 ofrece 192 GB de memoria HBM3e, lo que significa 1.5 TB de VRAM total en una configuración de 8 GPUs. Además, NVLink Gen5 proporciona un ancho de banda de 1.8 TB/s entre GPUs, duplicando la generación anterior. La refrigeración líquida permite mantener el rendimiento máximo de forma sostenida.

8x NVIDIA B200 con 192 GB HBM3e cada una = 1.5 TB de VRAM total
NVLink Gen5 a 1.8 TB/s de ancho de banda GPU-to-GPU, el doble que Hopper
Refrigeración líquida integrada para rendimiento máximo sostenido sin throttling térmico
Ideal para: entrenamiento de modelos fundacionales, HPC, investigación de IA, producción 24/7 a máxima escala

Tier 3

AI Factory Rack

La configuración máxima para organizaciones que necesitan capacidad de cómputo a escala de data center. Un rack completo con 72 GPUs Blackwell B200 y 36 CPUs Grace forma una unidad de cómputo masiva con aproximadamente 13 TB de VRAM total y 130 TB/s de ancho de banda GPU-to-GPU. En consecuencia, esta configuración puede entrenar modelos de cientos de miles de millones de parámetros desde cero en tiempos razonables.

72x NVIDIA B200 + 36x Grace CPUs = ~13 TB de VRAM total
130 TB/s de ancho de banda GPU-to-GPU, networking InfiniBand NDR 400 Gb/s entre nodos
Refrigeración líquida integrada en todo el rack, diseño optimizado para densidad de potencia máxima
Ideal para: entrenamiento de LLMs propios desde cero, multi-modal training, HPC a escala, IA como ventaja competitiva estratégica

Alternativas y networking

Alternativas de hardware y conectividad enterprise.

No estamos atados a un único fabricante de GPUs. Además, el networking es tan importante como las GPUs en una infraestructura IA enterprise on-premise distribuida.

AMD Instinct MI300X como alternativa

Para organizaciones que buscan diversificar su stack de GPU o que tienen relaciones estratégicas con AMD, ofrecemos configuraciones con AMD Instinct MI300X. Cada GPU MI300X ofrece 192 GB de memoria HBM3, proporcionando una alternativa competitiva a las H100 de NVIDIA.

El ecosistema ROCm de AMD ha madurado significativamente y soporta frameworks como PyTorch, vLLM y la mayoría de herramientas de entrenamiento e inferencia. Por consiguiente, la migración entre plataformas NVIDIA y AMD es viable para la mayoría de cargas de trabajo enterprise.

Networking: InfiniBand NDR + 400GbE

En clústeres multi-nodo, el networking es el componente que más limita el rendimiento del entrenamiento distribuido. Por eso, todas nuestras configuraciones enterprise incluyen InfiniBand NDR a 400 Gb/s para comunicación entre nodos GPU. También desplegamos 400GbE como alternativa Ethernet de alta velocidad para las organizaciones que prefieren este estándar.

Diseñamos la topología de red (fat-tree, rail-optimized) según el tipo de carga de trabajo: entrenamiento distribuido, inferencia de alta concurrencia o combinaciones de ambos. De esta forma, cada byte de datos viaja por la ruta más eficiente entre GPUs.

Capacidades

Capacidades de la infraestructura IA enterprise on-premise.

Con este nivel de hardware, las posibilidades van mucho más allá de la inferencia. A continuación, lo que tu organización puede hacer con esta infraestructura.

Entrenamiento de LLMs propios

Entrena modelos de lenguaje completos desde cero con tus datos corporativos. Llama 405B, modelos custom de cientos de miles de millones de parámetros. Tu modelo, tu propiedad intelectual, tu ventaja competitiva. No dependes de ningún proveedor externo.

Entrenamiento distribuido multi-nodo

Con InfiniBand NDR a 400 Gb/s, múltiples servidores GPU trabajan en paralelo como si fueran uno solo. Por lo tanto, puedes escalar el entrenamiento de forma casi lineal añadiendo más nodos. Esto es esencial para modelos que superan la capacidad de un único servidor.

HPC y cargas de trabajo científicas

Simulaciones numéricas, análisis genomómico, modelado financiero, investigación farmacéutica. La infraestructura enterprise soporta cargas de trabajo HPC que requieren computación masiva en paralelo. De este modo, aceleramos la investigación de semanas a horas.

Soberanía total de datos

Ni un solo byte sale de tu infraestructura. Entrenamiento, inferencia, fine-tuning: todo ocurre dentro de tu CPD. Cumplimiento RGPD, ENS y cualquier regulación sectorial sin dependencia de terceros. Consulta nuestra página de seguridad y cumplimiento.

Servicio Enterprise

Servicio completo para infraestructura IA enterprise on-premise.

Todo lo que incluyen los packs anteriores, más diseño de arquitectura distribuida, SLA dedicado, soporte 24/7 y consultoría estratégica. En definitiva, nos convertimos en tu socio tecnológico para IA.

Diseño de arquitectura distribuida

Diseño de la topología de clúster, configuración de InfiniBand/Ethernet, optimización de la comunicación GPU-to-GPU y planificación de la escalabilidad futura. Cada detalle se adapta a tus cargas de trabajo específicas.

SLA dedicado + soporte 24/7

Acuerdo de nivel de servicio personalizado con tiempos de respuesta garantizados. Equipo de soporte dedicado disponible 24/7 para incidencias críticas. Nuestro equipo conoce tu infraestructura como si fuera propia.

Consultoría estratégica de IA

Reuniones periódicas con tu equipo directivo para alinear la estrategia de IA con los objetivos de negocio. Identificación de nuevas oportunidades, evaluación de modelos emergentes y planificación de la evolución tecnológica. Siguiendo nuestra metodología probada.

El servicio Enterprise va más allá del soporte técnico. En primer lugar, nuestro equipo trabaja estrechamente con tu CTO y tu equipo de IT para diseñar una arquitectura que no solo resuelva las necesidades actuales, sino que anticipe las futuras. A su vez, evaluamos continuamente las nuevas generaciones de hardware y modelos para recomendarte cuándo y cómo evolucionar tu infraestructura.

La instalación de un clúster enterprise es un proyecto complejo que incluye diseño eléctrico, refrigeración líquida, networking de alta velocidad y configuración de software distribuido. Nuestro equipo gestiona el proyecto completo de principio a fin, coordinando con tu equipo de IT y con los proveedores de hardware. Como resultado, el clúster entra en producción con la mínima disrupción para tu operativa diaria.

La formación enterprise es intensiva y multinivel: desde sesiones ejecutivas para directivos que necesitan entender las capacidades y limitaciones de la IA, hasta workshops técnicos para ingenieros que van a operar y mantener el clúster. Además, documentamos toda la arquitectura, procedimientos y playbooks para que tu equipo pueda resolver la mayoría de situaciones sin necesidad de soporte externo.

Finalmente, nuestro servicio de consultoría estratégica se reúne trimestralmente con tu equipo directivo para revisar el rendimiento del sistema, identificar nuevas oportunidades de aplicación de IA y planificar la evolución tecnológica. Por lo tanto, tu inversión en infraestructura IA enterprise on-premise se mantiene alineada con tu estrategia de negocio a largo plazo. Puedes conocer mejor nuestro enfoque en la página de hardware IA.

Preguntas frecuentes

Preguntas sobre infraestructura IA enterprise on-premise.

¿Cuál es la diferencia entre HGX, Blackwell y AI Factory Rack?

El HGX usa GPUs H100/H200 SXM con NVLink 4th gen y es ideal para inferencia de modelos grandes y fine-tuning. El Blackwell 10U usa GPUs B200 con NVLink Gen5 y refrigeración líquida, duplicando el ancho de banda y la memoria por GPU. El AI Factory Rack combina 72 GPUs B200 con 36 CPUs Grace en un rack completo, proporcionando ~13 TB de VRAM para entrenamiento de modelos fundacionales desde cero. En resumen, cada tier duplica la capacidad del anterior.

¿Necesitamos refrigeración líquida en nuestro CPD?

Para configuraciones HGX con H100/H200, la refrigeración por aire es suficiente en la mayoría de casos, aunque requiere un diseño adecuado de flujo de aire en el CPD. Sin embargo, para Blackwell B200 y AI Factory Rack, la refrigeración líquida es necesaria debido a la densidad de potencia. Diseñamos el sistema de refrigeración como parte integral del proyecto, incluyendo circuito de agua, CDUs (Coolant Distribution Units) y monitorización de temperatura.

¿Podemos usar AMD Instinct MI300X en lugar de NVIDIA?

Sí. Las GPUs AMD Instinct MI300X ofrecen 192 GB de HBM3 por GPU y son compatibles con la mayoría de frameworks de IA a través de ROCm. Son una alternativa viable para organizaciones que buscan diversificar su stack de GPU o que tienen acuerdos estratégicos con AMD. No obstante, el ecosistema NVIDIA (CUDA, cuDNN, TensorRT) sigue siendo más maduro para algunas cargas de trabajo específicas. Evaluamos tu caso de uso y te recomendamos la mejor opción.

¿Cuánto tiempo lleva instalar un clúster enterprise?

Depende de la configuración. Un HGX de 8 GPUs se puede instalar en 8-12 semanas. Un clúster Blackwell multi-nodo requiere 12-20 semanas, incluyendo el diseño de refrigeración líquida. Un AI Factory Rack completo puede llevar 16-24 semanas desde la auditoría hasta la producción. En todos los casos, el diseño de arquitectura y la preparación del CPD se hacen en paralelo con el aprovisionamiento del hardware para minimizar el tiempo total.

¿Qué tipo de soporte incluye el SLA enterprise?

El SLA enterprise incluye soporte 24/7 con tiempos de respuesta garantizados (típicamente 1 hora para incidencias críticas, 4 horas para incidencias altas). Además, incluye monitorización proactiva con alertas automáticas, actualizaciones de firmware y drivers, optimización trimestral del rendimiento y sesiones de consultoría estratégica. Un equipo dedicado conoce tu infraestructura en detalle y puede intervenir remotamente o presencialmente según la situación.

¿Necesitas infraestructura IA enterprise?

Agenda una auditoría gratuita con nuestro equipo. Diseñamos la infraestructura IA enterprise on-premise que tu organización necesita para alcanzar la soberanía total.

Agenda auditoría gratuita