IA local en servidores privados: despliegue seguro de LLM on-premise para empresas

Centro de datos privado con despliegue de LLM on-premise gestionado por Pango Studio

Durante los últimos tres años, la inteligencia artificial generativa ha pasado de ser una curiosidad técnica a un componente operativo en banca, seguros, salud, industria, administración pública y gran consumo. Al mismo tiempo, el marco regulatorio europeo —EU AI Act, NIS2, DORA, ENS, RGPD— se ha endurecido lo suficiente como para que muchas organizaciones se hayan dado cuenta de lo mismo: enviar datos sensibles a una API de OpenAI, Anthropic o Google ya no es una opción cómoda, es una opción que hay que justificar por escrito ante el regulador, el cliente y el cliente del cliente.

Ese es el punto de partida de esta página. Si diriges tecnología, seguridad, cumplimiento o innovación en una empresa española y estás valorando desplegar IA generativa sin depender de proveedores cloud extranjeros, aquí tienes el marco de referencia completo: qué significa realmente una IA local en servidores privados, cuándo merece la pena, qué arquitectura tiene, qué modelos abiertos están a la altura de GPT-4 o Claude, qué obligaciones regulatorias cubrir y cuánto cuesta en coste total de propiedad a tres años.

En Pango Studio somos una agencia técnica con sede en Madrid, certificada en ISO/IEC 27001, que despliega este tipo de soluciones llave en mano: elegimos el modelo, montamos la infraestructura on-premise o en nube soberana, integramos con tu stack (Shopify, ERP, Klaviyo, SAP, CRM, data warehouse), cubrimos el compliance y nos quedamos a mantenerlo. Este documento es, a la vez, nuestra guía pública sobre el tema y el punto de entrada a nuestros dos servicios asociados: despliegue de LLM privado y consultoría de IA y compliance.

Qué es una IA local en servidores privados

Llamamos IA local a un sistema de inteligencia artificial —habitualmente un modelo de lenguaje, aunque también modelos de visión, audio o embeddings— que se ejecuta íntegramente en infraestructura controlada por la organización, sin enviar inferencias ni datos de entrenamiento a APIs de terceros.

«Servidores privados» puede significar tres cosas distintas, y conviene no confundirlas:

  • On-premise puro: el hardware está físicamente en un CPD propio o alquilado, conectado a la red corporativa. Es lo más cerrado posible y lo único que encaja con sectores donde los datos no pueden salir del edificio.
  • Nube privada dedicada: servidores dedicados en un proveedor europeo (OVHcloud, Stackscale, Scaleway, Arsys) con aislamiento lógico y contractual. Tus datos no se mezclan con los de otros clientes, y el proveedor está sometido a derecho de la UE.
  • Virtual private cloud soberana: instancias propias en AWS/Azure/GCP con restricciones estrictas de región y cláusulas contractuales de soberanía. Es el punto medio más habitual; adecuado cuando el riesgo regulatorio no es extremo.

Las tres opciones comparten el rasgo esencial: el modelo se ejecuta donde tú decides y los datos no se envían a una API pública de OpenAI, Anthropic o Google. Eso cambia por completo el análisis de riesgo, la gestión de proveedores y la forma de documentar tratamientos bajo RGPD.

Cuándo te conviene IA local y cuándo no

No toda empresa necesita un LLM on-premise. Hacer este esfuerzo tiene sentido cuando se cumple al menos uno de estos criterios.

Escenarios donde la IA local es la opción correcta

  • Regulación sectorial estricta: banca (PSD2, DORA), seguros, sanidad (LOPDGDD reforzada, datos de categoría especial), defensa, administración pública (ENS Media o Alta), energía, telecomunicaciones críticas.
  • Tratamiento masivo de datos personales o confidenciales: historias clínicas, datos biométricos, información financiera detallada, propiedad intelectual sensible, planos técnicos, código fuente propietario.
  • Exigencia contractual del cliente: clientes corporativos que prohíben explícitamente enviar sus datos a APIs de terceros como condición de suministro.
  • Previsión de uso intensivo y sostenido: a partir de cierto volumen de inferencias, el hardware propio amortiza la inversión frente a facturación por tokens.
  • Latencia crítica: aplicaciones que necesitan respuesta en milisegundos y no pueden permitirse el round trip a Estados Unidos.
  • Política interna de soberanía del dato: decisiones de gobierno corporativo que van por delante de la regulación mínima.

Escenarios donde es un error forzar IA local

  • Pruebas de concepto y prototipos: muévete rápido en cloud, migra a privado cuando el caso de uso esté validado.
  • Volúmenes bajos o esporádicos: el coste fijo del hardware supera el coste variable de la API.
  • Organizaciones sin equipo técnico: si no hay quien mantenga el stack (MLOps, seguridad, observabilidad), el despliegue se degrada en meses.
  • Tareas donde la diferencia de calidad entre GPT-4/Claude y un modelo abierto es decisiva y los datos no son sensibles: aquí la mejor decisión es un contrato enterprise con protección contractual, no levantar hardware.

En la práctica, muchos despliegues reales terminan siendo híbridos: modelo abierto privado para todo lo que toca datos sensibles, modelo propietario cloud para tareas generales bajo acuerdo enterprise. La clave está en el diseño del router que decide qué consulta va a dónde.

Arquitectura de referencia

Un despliegue serio de IA local para una empresa mediana o grande no es «instalar Llama y listo». La arquitectura típica que montamos en Pango Studio tiene cinco capas.

1. Capa de modelos

Uno o varios LLMs open source ejecutándose en servidores con aceleración GPU, servidos mediante vLLM, Text Generation Inference (TGI) o llama.cpp según el caso. Para sistemas multi-modelo usamos Ollama o LocalAI en orquestación detrás de un router de inferencia.

2. Capa de datos y RAG

La mayoría de casos útiles requieren que el modelo consulte información corporativa: documentación, manuales, tickets, código, expedientes. Para eso se monta un sistema RAG (Retrieval-Augmented Generation) con base de datos vectorial (Qdrant, Weaviate, pgvector sobre PostgreSQL) y pipelines de ingesta y chunking que respetan permisos de origen.

3. Capa de orquestación y agentes

La lógica de negocio se implementa con frameworks como LangChain, LlamaIndex o servidores MCP (Model Context Protocol) propios. Aquí es donde definimos qué herramientas puede usar el modelo, a qué APIs puede llamar, qué bases de datos consulta y qué guardarraíles aplica.

4. Capa de seguridad y compliance

Autenticación corporativa (SSO/SAML/OIDC), control de acceso granular por caso de uso, DLP (Data Loss Prevention) en prompts y respuestas, cifrado en reposo y en tránsito, registro de auditoría inmutable, trazabilidad de cada inferencia para poder responder a requerimientos regulatorios. Esta capa es el verdadero diferencial de un despliegue profesional frente a «probar un modelo en local».

5. Capa de observabilidad y MLOps

Métricas de rendimiento del modelo, detección de drift, evaluación continua con bancos de pruebas internos, gestión de versiones de modelo y de prompts, rollback controlado, A/B testing de cambios, dashboards para negocio y SOC. Sin esto, el sistema es una caja negra y termina por abandonarse.

Este stack se entrega documentado, con políticas operativas y con un SLA claro. No es un proyecto cerrado: es un sistema vivo que hay que mantener como se mantiene cualquier servicio crítico.

Modelos open source que recomendamos hoy

El panorama de modelos abiertos cambia cada pocos meses. A fecha de 2026, estos son los que desplegamos con más frecuencia y para qué casos.

Modelo Parámetros Puntos fuertes Buen encaje en
Llama 3.1 / 3.3 (Meta) 8B · 70B · 405B Equilibrio general, licencia comunitaria, ecosistema maduro Asistentes internos, generación de contenido, soporte multilingüe
Mistral Large 2 / Mixtral 123B · 8x22B Razonamiento, código, licencia comercial clara Banca, compliance, análisis de documentos
Qwen 2.5 / 3 (Alibaba) 7B · 72B Código y razonamiento matemático de primer nivel Automatización técnica, data analysis, ingeniería
DeepSeek V3 / R1 236B · 671B Razonamiento avanzado a coste competitivo Casos complejos donde antes solo cabía GPT-4 o Claude
Gemma 2 (Google) 9B · 27B Eficiencia en hardware modesto, buena calidad base Edge computing, despliegues distribuidos
Phi-3 / Phi-4 (Microsoft) 3,8B · 14B Ratio calidad/tamaño excepcional Clasificación masiva, extracción, asistentes en dispositivo

La elección depende del caso de uso, del hardware disponible y de la tolerancia a latencia. En un proyecto real no se elige un modelo: se prueban tres o cuatro con el corpus del cliente, se evalúan con métricas ajustadas al caso y se toma una decisión defendible con datos. Ese benchmark inicial es parte estándar de nuestros proyectos.

El mapa regulatorio que no se puede ignorar

Operar IA generativa en la Unión Europea en 2026 significa convivir con un paquete normativo muy concreto. Simplificar y olvidar cualquiera de estas piezas sale caro.

EU AI Act (Reglamento UE 2024/1689)

Aplicación escalonada entre 2025 y 2027. Define obligaciones por nivel de riesgo (prohibido, alto, limitado, mínimo) y un régimen específico para modelos de propósito general. Incluye deberes de documentación, gobernanza, transparencia y evaluación de impacto. Multas de hasta el 7 % de la facturación global para infracciones graves.

NIS2 (Directiva UE 2022/2555)

Transpuesta a España y en aplicación. Obliga a entidades esenciales e importantes —18 sectores— a establecer medidas de ciberseguridad, gestión de riesgo de la cadena de suministro tecnológica y notificación de incidentes. Si tu proveedor de IA no cumple sus controles, los problemas son tuyos.

DORA (Reglamento UE 2022/2554)

En aplicación desde enero de 2025 para entidades financieras. Gestión de riesgos TIC, pruebas de resiliencia, obligaciones contractuales con proveedores de terceros críticos (incluidos los de IA). Para banca, seguros e inversión es prácticamente imposible utilizar IA cloud sin un marco contractual reforzado.

ENS (Real Decreto 311/2022)

Obligatorio para administraciones públicas españolas y proveedores que les prestan servicios. Tres categorías —Básica, Media y Alta—. Si tu cliente final es el sector público y el caso de uso toca datos de ciudadanos, la IA utilizada debe entrar en el alcance de su ENS.

RGPD + LOPDGDD

Opinión 28/2024 del Comité Europeo de Protección de Datos y directrices de la AEPD sobre IA han dejado claro que los tratamientos con LLMs requieren base legal sólida, minimización, trazabilidad y —si hay decisiones automatizadas— medidas específicas del artículo 22.

ISO/IEC 27001 y 42001

La norma 27001 es el estándar de referencia en gestión de seguridad de la información. La nueva ISO/IEC 42001 específica para sistemas de gestión de IA completa el esquema. Integrar la IA generativa en un SGSI ya certificado es uno de los encargos más habituales que recibimos. Pango Studio está certificada en ISO/IEC 27001 y aplicamos los controles del Anexo A directamente a los despliegues que realizamos.

Ninguna de estas normas por sí sola justifica levantar un LLM en local. Todas juntas, combinadas con el perfil de datos que se va a tratar, sí.

Seguridad del despliegue: lo que realmente protege

Un LLM privado mal desplegado puede ser tan peligroso como enviar los datos a OpenAI sin contrato. Estos son los controles que aplicamos por defecto.

  • Aislamiento de red: VPC dedicada, reglas explícitas de entrada y salida, sin conectividad directa a internet desde las instancias de inferencia salvo lo imprescindible.
  • Cifrado: en reposo con KMS propio o HSM, en tránsito con TLS 1.3, rotación automática de claves.
  • IAM y SSO: integración con Azure AD, Google Workspace u Okta. Acceso federado, MFA obligatorio, principio de mínimo privilegio.
  • DLP en prompts y respuestas: detección y redacción automática de datos personales, credenciales y patrones confidenciales antes de que entren o salgan del modelo.
  • Registro inmutable: cada prompt, cada respuesta, cada herramienta invocada por el agente queda registrada con hash, timestamp y usuario. Imprescindible para auditoría y forense.
  • Separación de entornos: desarrollo, staging y producción en VPCs distintas, con procesos formales de promoción de cambios.
  • Gestión de vulnerabilidades: parcheo continuo del host, escaneo de contenedores, pentest anual y revisión específica del stack de IA (inyección de prompts, data poisoning, modelos adversariales).
  • Gobernanza del modelo: política clara de qué modelos pueden entrar en producción, cómo se versionan, cómo se retiran y quién aprueba cada cambio.

Todos estos controles se mapean a los requisitos del Anexo A de ISO/IEC 27001 y a los controles análogos del ENS. La documentación queda alineada con el SGSI del cliente para que la auditoría externa sume evidencias en lugar de abrir desviaciones.

Hardware y coste: cómo se dimensiona una IA local

El coste total de propiedad de un despliegue privado depende de tres variables: modelo elegido, volumen de inferencias y nivel de redundancia. Damos rangos orientativos para empresas medianas.

Hardware base para modelos medianos (7B-14B)

  • 1-2 GPUs tipo NVIDIA L40S o A10G (48 GB VRAM) por servidor.
  • 64-128 GB RAM, 2 TB NVMe.
  • Inversión aproximada: 15-25 K € por nodo.
  • Alternativa cloud privada: 1.500-3.000 € / mes por nodo equivalente.

Hardware para modelos grandes (70B+) con buena latencia

  • 2-8 GPUs NVIDIA H100 o H200 (80-141 GB VRAM) interconectadas con NVLink.
  • 256-512 GB RAM.
  • Inversión aproximada: 150-350 K € por nodo.
  • Alternativa cloud privada: 10-25 K € / mes.

Variables del TCO a tres años

  • Energía y climatización del CPD (o coste repercutido en la nube privada).
  • Soporte y mantenimiento del hardware.
  • Licencias de software propietario, si se usan (suelen ser mínimas con el stack open source).
  • Operación y MLOps: esto es lo que más se subestima. Sin dedicación continua, el sistema se degrada.
  • Ciclo de vida: cada 24-36 meses hay que revisar la generación de GPUs.

Comparado de forma honesta, a partir de ~500.000 inferencias mensuales con contexto medio, una IA local amortiza frente a APIs cloud en 12-24 meses. Por debajo de ese volumen, solo se justifica por compliance o por soberanía.

Casos de uso habituales en ecommerce y empresa

En Pango Studio venimos del ecommerce técnico y hemos extendido el servicio a empresa en general. Estos son los escenarios donde más valor aporta desplegar una IA privada.

  • Asistentes internos con acceso a datos corporativos: respuestas basadas en manuales, contratos, tickets, código propio.
  • Generación de contenido sobre catálogos extensos: descripciones de producto, fichas técnicas, traducciones de alto volumen, sin enviar el catálogo completo a un tercero.
  • Clasificación y enriquecimiento de datos: etiquetado masivo de tickets, transcripciones, expedientes, incidencias.
  • Extracción estructurada de documentos: facturas, contratos, informes médicos, expedientes jurídicos.
  • Automatización de back-office: agentes que orquestan tareas en ERP, CRM y plataformas internas a través de un servidor MCP propio.
  • Compliance y gobernanza: revisión automática de comunicaciones, detección de patrones de riesgo, soporte a SOC y DPO.

En cada caso, el modelo trabaja con datos que no salen del perímetro del cliente y deja registro auditable de cada decisión asistida.

Cómo es un proyecto con Pango Studio

Nuestros despliegues siguen un camino claro, con hitos y entregables asociados.

  1. Discovery (2-3 semanas): entrevistas con negocio, TI, seguridad y compliance. Evaluación de datos, riesgos, objetivos y restricciones regulatorias. Entregable: documento de alcance y arquitectura propuesta.
  2. Prueba de concepto (4-6 semanas): despliegue de uno o dos casos de uso en entorno aislado, con modelo seleccionado tras benchmarking y datos reales anonimizados. Entregable: POC funcional + informe de viabilidad.
  3. Despliegue productivo (8-12 semanas): infraestructura definitiva, integración con stack corporativo, controles de seguridad, documentación, formación y traspaso operativo. Entregable: sistema en producción + manual operativo.
  4. Operación continua: mantenimiento evolutivo, actualización de modelos, revisión trimestral, soporte 8×5 o 24×7 según contrato. Entregable: SLA y dashboards.

En proyectos regulados añadimos una fase de alineación con el SGSI del cliente: mapeo de controles ISO 27001 / 42001 / ENS, actualización del registro de tratamientos, evaluación de impacto y ensayo de auditoría.

Servicios asociados

Trabajamos esta línea con dos servicios complementarios que se pueden contratar por separado o en conjunto:

  • Despliegue de LLM privado on-premise. El proyecto técnico completo, desde el discovery hasta la operación continua: infraestructura, modelo, RAG, agentes, seguridad, MLOps y mantenimiento. Tickets desde 40.000 € hasta 180.000 € o más según criticidad.
  • Consultoría de IA y compliance. El marco regulatorio y la integración en tu SGSI: EU AI Act, NIS2, DORA, ENS, RGPD, ISO 27001 y 42001. Pensado para entidades reguladas y para proveedores del sector público. Diagnósticos desde 8.000 € y proyectos completos hasta certificación desde 45.000 €.

Cuando se contratan juntos, parte del trabajo se integra y los rangos se revisan a la baja.

Preguntas frecuentes

¿Puedo empezar pequeño y escalar?

Sí, y es lo más recomendable en la mayoría de los casos. Un primer despliegue con uno o dos casos de uso y un modelo de 7B-14B permite validar valor antes de invertir en hardware grande. El diseño desde el principio contempla la escalada.

¿Quién es dueño del modelo y del sistema?

El modelo base es open source y su licencia depende del fabricante. El sistema completo —integraciones, RAG, prompts, agentes, documentación— es tuyo. Pango Studio entrega código, configuración y documentación sin lock-in.

¿Qué pasa si un modelo abierto mejora en mitad del proyecto?

Se evalúa, se benchmarquea con el corpus del cliente y, si aporta, se cambia siguiendo el proceso formal de gestión de cambios. El stack está diseñado para que sustituir un modelo sea una operación controlada, no una reescritura.

¿Qué garantías damos sobre alucinaciones?

Ninguna al cien por cien, como ningún proveedor honesto. Lo que sí ofrecemos es un marco de evaluación continua, detección de respuestas de baja confianza, fallback a supervisión humana en decisiones sensibles y registro de trazabilidad completo. La tolerancia a error se define caso a caso con el cliente.

¿Puedo combinar modelos privados con Claude u OpenAI en las tareas que no sean sensibles?

Sí. Los despliegues híbridos son habituales. Se implementa un router que evalúa sensibilidad del prompt y lo dirige al motor adecuado, respetando las políticas del cliente.

¿En qué se diferencia Pango Studio de una consultora grande?

Tamaño, ticket y compromiso técnico. Montamos proyectos completos a partir de 40.000 € sin las capas de coordinación de una consultora Tier 1. El equipo que te entrevista es el mismo que escribe el código y luego mantiene el sistema.

Siguiente paso

Si estás valorando mover toda la IA interna a servidores privados —o solo los casos donde el riesgo regulatorio es inaceptable—, nuestro punto de entrada recomendado es una reunión técnica de 45 minutos sin compromiso. Llegamos con preguntas concretas sobre tu caso y salimos con una recomendación accionable: qué desplegar, en qué infraestructura, con qué presupuesto orientativo y qué obligaciones regulatorias cubrir.

En función de tu necesidad, puedes entrar directamente por el servicio que te toca:

Somos una agencia técnica con oficina en Madrid, certificada ISO/IEC 27001, y desplegamos IA privada para empresas de España y Latinoamérica.

Esta es una página pilar. En las próximas semanas publicaremos los artículos del cluster que la acompañan: comparativa IA local vs cloud, análisis de modelos open source para empresa, cumplimiento del EU AI Act, DORA, NIS2 y ENS aplicado a IA, arquitectura de referencia con RAG, coste total de propiedad y checklist de implantación. Se enlazarán desde esta página según se publiquen.