La necesidad es siempre la misma: las organizaciones generan, adquieren y manipulan datos e información cotidianamente,

​sin embargo, utilizar la información para mejorar los resultados de negocio sigue siendo un objetivo complicado de implementar, time-consuming y oneroso.

El primer desafío que enfrentan las organizaciones recae en comprender qué datos se requieren para generar la información que permitirá luego impactar en el negocio.

Y en este sentido, existen al menos 3 familias de datos que debemos considerar:

dataleak1.png

Los Baby Boomers y Generación X, quienes mayoritariamente conducen las organizaciones hoy, han desarrollado capacidades para navegar el océano estructurado y algo de las aguas semi-estructuradas. Pero el nuevo paradigma digital, las redes sociales y la explosión de las nuevas tecnologías, llegaron para desafiar a las organizaciones modernas con inmensas cantidades de datos nuevos, principalmente datos semi estructurados y no estructurados, con un potencial de generación de información que se torna esencial para la optimización de los negocios.

Y en este mundo donde algunos hablan del “nuevo oro negro”, las organizaciones se encuentran con dos modelos para disponibilizar datos, que suelen concebirse como antagónicos pero que bien pueden mirarse de forma complementaria: los Data Warehouse y el Data Lake.

La idea fuerza inicial puede pensarse similar para ambas aproximaciones, ser el “lugar” donde residen los datos necesarios para generar la información que nos permitirá tomar mejores decisiones. Pero al menos en sus inicios, ambos conceptos tienen algunas diferencias:

DATA WAREHOUSE DATA LAKE
Concebido para alojar datos estructurados y semi estructurados, con un proceso previo de transformación y carga (ETLs) Los datos se alojan en su forma original, sin previo procesamiento. Es un repositorio de “raw data”.
Aloja datos organizados según una representación definida del negocio que se quiere analizar. Es decir: hay un modelo del negocio. El modelo o esquema no es requerido para el ingreso de los datos, sí para su salida.
Los datos deben transformarse “antes” de ser cargados al Data Warehouse (en tiempo de escritura), y esa transformación se refiere a “adaptarlos” al modelo de negocio. los datos se transforman en momento de “lectura”, en función de su necesidad de uso.
Los datos deben ser periódicamente actualizados, por lo cual se admiten cargas parciales y reescrituras. No admiten cargas parciales ni reescrituras, alojan todos los datos existentes o ninguno, sean actuales o históricos.
Los datos se identifican por igualdad sintáctica, con mecanismos similares a los de las bases de datos relacionales. Se apoyan en las ontologías y la metadata para dar semántica a los datos que alojan, identificarlos y esquematizarlos para su consumo.

Con los Data Warehouse en su etapa de madurez ya consolidada, y los Data Lakes en pleno surgimiento y buscando un rumbo, no hay balas de plata. Si nos movemos en el mundo de los datos estructurados, posiblemente los Warehouse sigan siendo nuestra mejor opción. Si por el contrario, nuestra base de análisis está compuesta mayormente por datos poco o no estructurados, los Lakes parecen prometer mejores capacidades. Tal vez, la clave esté en no perder de vista el objetivo, transformar los datos en información que nos permita mejorar el negocio.