Ciclo de vida de los datos, el modelo Harvard Business School

AlbertBL marzo 18, 2026

Este artículo describe el ciclo de vida de los datos, un proceso circular de ocho etapas diseñado para transformar información bruta en conocimientos estratégicos.

La secuencia comienza con la generación y recolección de datos, seguidas por el procesamiento, almacenamiento y gestión continua para garantizar su seguridad y utilidad. Posteriormente, el flujo avanza hacia el análisis y la visualización técnica, permitiendo que la información sea comprensible para diversos públicos.

Finalmente, el proceso culmina con la interpretación de los hallazgos, cuyos resultados sirven de base para iniciar nuevos proyectos informados. Comprender este marco permite a los profesionales comunicarse mejor con los equipos técnicos y optimizar el uso de los activos digitales en cualquier organización.

HBS ofrece un modelo Data Life Cycle Stages que se compone de ocho etapas interconectadas, donde los conocimientos obtenidos en un proyecto suelen informar el inicio del siguiente.

Para comprender adecuadamente este modelo hemos creado un resumen detallado de los ocho pasos del ciclo de vida de los datos, integrando herramientas comunes y ejemplos de código.

1. Generación (Generation)

Los datos se crean a través de cada interacción, venta o comunicación, ya sea dentro de la organización o por terceros.

Herramientas: Sistemas POS, aplicaciones web (Django, Node.js), sensores IoT.
Ejemplo: Un evento generado por un usuario al hacer clic.

2. Recolección (Collection)

Se selecciona qué información es relevante y se captura mediante formularios, encuestas, entrevistas u observación directa.

Herramientas: Google Forms, APIs (Python requests), Web Scraping (BeautifulSoup).
Código (Python – Captura de API):

import requests

# Simulación de recolección de datos desde una API externa
response = requests.get("https://api.ejemplo.com/ventas")
data = response.json()
print(data)

3. Procesamiento (Processing)

Consiste en transformar los datos recolectados (como digitalizar un formulario) para que sean utilizables.

Herramientas: Pandas, PySpark, dbt.
Código (Python – Pandas):

import pandas as pd

# Convertir datos crudos en un DataFrame y limpiar valores nulos
df = pd.DataFrame(data)
df_procesado = df.dropna().reset_index(drop=True)