Héctor Matías

Tus datos son un desastre (y por eso la IA no te funciona)

IA Datos Estrategia Transformación Digital

Todo el mundo habla de IA. Nadie habla de datos.

Es el elefante en la habitación. Empresas que invierten en modelos de IA potentes, plataformas sofisticadas, consultoras carísimas… y fracasan. No por la tecnología. Por los datos que alimentan esa tecnología.

El 80% de los proyectos de IA fracasan. Y la razón principal no es técnica. Es que los datos con los que trabajan son incompletos, inconsistentes, duplicados o directamente inútiles.


El mito del “ya tenemos datos”

Cuando pregunto a un empresario si tiene datos, la respuesta siempre es sí.

“Tenemos un CRM con miles de contactos.” “Nuestro ERP lleva funcionando 8 años.” “Exportamos informes de todo.”

Tener datos no es lo mismo que tener datos útiles.

Un CRM con 10.000 contactos donde el 40% no tiene email, el 30% tiene la empresa mal escrita y el 20% son duplicados no es un activo. Es un problema disfrazado de base de datos.

La IA amplifica lo que le das. Si le das basura, te devuelve basura más rápido. Y con más confianza.


Los 5 problemas de datos que matan proyectos de IA

1. Datos en silos

Ventas tiene su Excel. Marketing tiene su plataforma. Operaciones tiene su sistema propio. Finanzas tiene otro.

Nadie habla con nadie. Los datos no se cruzan. Y cuando intentas implementar una IA que necesita visión completa del cliente, descubres que esa visión no existe.

Ejemplo real: Una empresa quería predecir qué clientes iban a cancelar. Tenían datos de facturación en el ERP, tickets de soporte en Zendesk, y actividad de uso en su plataforma. Tres sistemas. Tres formatos. Cero conexión entre ellos.

El proyecto de IA tardó 3 meses. Conectar los datos tardó 5.

2. Datos sucios

Nombres mal escritos. Fechas en 14 formatos distintos. Campos vacíos que deberían ser obligatorios. Categorías que significan cosas diferentes según quién las rellenó.

La suciedad de datos es acumulativa. Cada empleado que rellena “a su manera” añade una capa más de caos. Después de años, tienes una base de datos que parece limpia por fuera pero es ingobernable por dentro.

Test rápido: Exporta tu lista de clientes. ¿Cuántas formas distintas aparece escrito el mismo sector? “Tecnología”, “Tech”, “IT”, “Informática”, “TIC”, “Tecnológico”… Si tienes más de 3 variantes para el mismo concepto, tus datos están sucios.

3. Datos sin contexto

Un dato sin contexto es un número. Un número sin historia.

“El cliente X compró 500 unidades el mes pasado.” ¿Es mucho o poco? ¿Es normal? ¿Fue una compra puntual o recurrente? ¿Hubo un descuento? ¿Fue una emergencia?

Sin contexto, la IA puede interpretar una compra excepcional como tendencia. O ignorar una señal de alarma porque los números “parecen normales”.

Lo que necesitas: Datos con metadatos. No solo el qué, sino el por qué, cuándo, quién y en qué circunstancias.

4. Datos históricos insuficientes

La IA aprende de patrones. Para encontrar patrones, necesita volumen. Si tu empresa tiene 200 ventas al año, entrenar un modelo predictivo es como intentar aprender un idioma con 200 palabras.

Mínimos razonables:

  • Predicción de ventas: 2-3 años de histórico, mínimo 1.000 transacciones
  • Clasificación de clientes: al menos 500 ejemplos por categoría
  • Detección de anomalías: 6-12 meses de datos “normales” como referencia

Si no llegas a estos mínimos, no significa que no puedas usar IA. Significa que necesitas un enfoque diferente: modelos pre-entrenados, IA generativa para tareas que no requieren tu histórico, o empezar a recopilar datos ahora para implementar IA después.

5. Datos sin gobierno

¿Quién es responsable de la calidad de datos en tu empresa?

Si la respuesta es “nadie” o “todos” (que es lo mismo), ahí tienes el problema.

Sin gobierno de datos:

  • No hay estándares de cómo rellenar campos
  • No hay procesos de limpieza periódica
  • No hay control de quién accede y modifica qué
  • No hay plan de respaldo ni recuperación

Es como tener un almacén sin inventario. Sabes que hay cosas dentro, pero no sabes exactamente qué, dónde ni en qué estado.


Cómo preparar tus datos para IA (sin morir en el intento)

No necesitas un data warehouse de millones de euros. Necesitas orden básico.

Paso 1: Auditoría de lo que tienes

Antes de comprar herramientas, entiende qué tienes. Haz un inventario:

  • ¿Dónde están tus datos? Lista todos los sistemas, Excels, bases de datos, plataformas
  • ¿Qué formato tienen? Estructurados (tablas), semiestructurados (JSON, emails), no estructurados (documentos, imágenes)
  • ¿Qué calidad tienen? Porcentaje de campos vacíos, duplicados, inconsistencias
  • ¿Quién los usa? Qué departamentos y para qué

Esto se puede hacer en 1-2 semanas con entrevistas internas. No necesitas consultoría.

Paso 2: Define el caso de uso primero

No limpies datos “por si acaso”. Limpia los datos que necesitas para tu primer proyecto de IA.

Si quieres un chatbot de soporte, necesitas tu base de conocimiento limpia y actualizada. No necesitas datos de facturación perfectos (todavía).

Enfoque: Caso de uso → Datos que necesita → Limpiar esos datos → Implementar.

El enfoque contrario (limpiar todo → buscar caso de uso) nunca termina. Siempre hay más datos que limpiar.

Paso 3: Limpieza básica

Para la mayoría de empresas, la limpieza se reduce a:

  1. Deduplicar — Eliminar registros repetidos. Herramientas: OpenRefine (gratis), Dedupe.io, o scripts simples
  2. Estandarizar — Un formato para fechas, nombres, categorías. Crear un diccionario de términos
  3. Completar — Rellenar campos críticos vacíos. Priorizar los que tu caso de uso necesita
  4. Validar — Reglas básicas: ¿el email tiene formato correcto? ¿la fecha tiene sentido? ¿el número está en rango?

No busques perfección. Busca “suficientemente bueno para empezar”.

Paso 4: Conecta lo necesario

Si tu caso de uso necesita datos de dos sistemas, conéctalos. No todos. Solo los que necesitas.

Opciones según complejidad:

  • Simple: Exportar-importar con CSV (manual pero funciona para pilotos)
  • Media: Integración con Zapier/Make (automatizado, sin código)
  • Compleja: API directa o middleware como Fivetran, Airbyte

Paso 5: Establece reglas mínimas

No necesitas un gobierno de datos corporativo completo. Necesitas:

  • Un responsable — Alguien que sea “dueño” de cada dataset crítico
  • Reglas de entrada — Cómo se rellenan los campos. Documentado, no “como siempre se ha hecho”
  • Revisión periódica — Una vez al mes, alguien revisa la calidad. 30 minutos bastan

Lo que nadie te dice: la IA también puede limpiar tus datos

Ironía del asunto: la IA es excelente limpiando datos.

Puedes usar modelos de lenguaje para:

  • Estandarizar categorías — “Dame todas las variantes de sector y agrúpalas en categorías estándar”
  • Detectar duplicados — Encontrar registros que son la misma entidad con datos ligeramente diferentes
  • Completar campos — Enriquecer datos con información pública (sector, tamaño de empresa, ubicación)
  • Validar consistencia — Detectar registros que no cuadran con el patrón general

No es la solución definitiva, pero puede acelerar semanas de trabajo manual a horas.


El coste de no hacer nada

“Ya lo haremos cuando implementemos IA.”

He escuchado esa frase docenas de veces. El problema: cuando llega el momento de implementar, los datos están peor que antes. Cada mes que pasa sin gobierno de datos es un mes más de caos acumulado.

El coste real de datos desordenados:

  • Decisiones basadas en información incorrecta
  • Horas perdidas buscando, reconciliando, verificando datos manualmente
  • Oportunidades perdidas por no tener visibilidad completa
  • Proyectos de IA que tardan el doble o fracasan

Gartner estima que la mala calidad de datos cuesta a las empresas una media de 12,9 millones de dólares al año. Tu empresa probablemente no es tan grande, pero proporcionalmente el impacto es igual o mayor.


Plan de acción: las próximas 2 semanas

Si has llegado hasta aquí y reconoces alguno de estos problemas, esto es lo que puedes hacer ahora mismo:

Semana 1:

  • Lista todos los sistemas donde viven tus datos (1 hora)
  • Para cada uno: ¿cuántos registros? ¿qué campos? ¿qué calidad? (2-3 horas)
  • Identifica tu caso de uso de IA más valioso (el que más dinero mueve)
  • Lista los datos que ese caso necesita

Semana 2:

  • Exporta esos datos y evalúa calidad real (duplicados, vacíos, inconsistencias)
  • Haz una limpieza inicial (deduplicar, estandarizar lo más crítico)
  • Asigna un responsable de esos datos
  • Documenta reglas básicas de entrada

En 2 semanas no tendrás datos perfectos. Tendrás datos suficientes para empezar tu primer proyecto de IA con garantías.


FAQ

¿Cuántos datos necesito para empezar con IA?

Depende del caso. Para IA generativa (chatbots, generación de contenido, análisis de texto) no necesitas datos propios — los modelos ya están entrenados. Para IA predictiva (predecir ventas, churn, demanda) necesitas histórico: mínimo 1.000 registros y 6-12 meses de datos.

¿Tengo que contratar un Data Engineer?

Para empezar, no. Un perfil técnico interno (IT, desarrollador) puede hacer la auditoría inicial y las conexiones básicas. Si tu proyecto escala y necesitas pipelines de datos en tiempo real, entonces sí.

¿Qué pasa con el RGPD y la protección de datos?

Si usas datos de clientes para entrenar IA, necesitas base legal (consentimiento, interés legítimo). Para datos internos operativos (ventas, inventario, producción) no suele haber problema. Consulta con tu DPO o asesor legal antes de alimentar datos personales a herramientas externas.

¿Excel es suficiente para empezar?

Sí. Para un piloto, un Excel limpio y bien estructurado es perfectamente válido. No necesitas un data warehouse para tu primer proyecto de IA. Eso sí: Excel limpio. No el Excel de 47 pestañas con macros de 2018 que nadie entiende.

¿Cuánto cuesta preparar los datos?

Para una pyme, la auditoría inicial es gratis (la haces tú). La limpieza básica puede costar entre 500€-2.000€ si subcontratas, o 1-2 semanas de trabajo interno. Herramientas como OpenRefine son gratuitas. El ROI de tener datos limpios se multiplica con cada proyecto futuro.


La conclusión incómoda

La IA no es el problema. Tus datos sí.

Puedes comprar la mejor plataforma de IA del mercado, contratar a los mejores consultores, invertir miles de euros en implementación. Si tus datos son un desastre, el resultado será un desastre sofisticado.

Empieza por abajo. Ordena lo que tienes. Limpia lo que necesitas. Conecta lo imprescindible. Y luego, solo entonces, implementa IA.

Es menos sexy que “transformación digital con inteligencia artificial”. Pero es lo que funciona.

¿Tu equipo necesita dejar de jugar y empezar a facturar?

No vendo trucos. Enseño sistemas de implementación de IA para empresas que valoran su tiempo.

Agendar Formación Estratégica