En la era de la analítica, el dato es el Santo Grial del mundo de los negocios.
Un reciente estudio de IDC revela que para 2025 la cantidad de datos generados en todo el mundo alcanzará los 175 zettabytes o, para dimensionarlo de forma más tangible: si quisiéramos guardar esa información sería necesario 20 discos de 1 Tera por cada hombre, mujer o niño que habite el planeta. La proyección para este año es de “apenas” 40 zettabytes. Lo más importante: el 60% de futuro océano de información será creado por organizaciones empresariales (comparado con el 30% de 2015). El mundo de los datos puede definirse, entonces, como una de las nuevas
fronteras del siglo XXI. Como todo nueva frontera el camino está plagado de potenciales pasos en falso. ¿Cuáles son las trampas típicas que aparecen
en los proyectos de ciencia de datos? ¿Cómo evitarlas? ¿Qué hacer si uno cae en ellas? Cabe destacar que la respuesta nunca es sencilla. Un primer paso radica en tener presente algunos de los errores más comunes que aquí se presentan.
1. EL DESAFÍO DE LA MUESTRA (SAMPLING BIAS)
ilustracion - 1.jpg
Focaliza en la selección inadecuada de las variables para realizar estudios representativos de datos. El reto pasa por saber mantener la separación entre las etapas de construcción del modelo y de la prueba. Un ejemplo: en 1948, el Chicago Tribune pronosticó la victoria del candidato a presidente Thomas E. Dewey en base a una encuesta telefónica en todo EE.UU. El diario no consideró que en esa época solo una parte de la población tenía teléfono en su hogar. Extrapolado a nuestros tiempos: no todos tienen Twitter o usan Facebook.
2. EL SESGO DEL SOBREVIVIENTE (SURVIVORSHIP BIAS)
ilustracion - 2.jpg
Error recurrente de “aprender” de los casos que salieron bien pero ignorar los que salieron mal. Un ejemplo: en la Segunda Guerra Mundial, se le preguntó a un equipo de
analistas en qué parte se le debía reforzar la armadura a los aviones aliados para protegerlos del impacto de balas: la respuesta no incluyó ni el motor ni la cabina del piloto. ¿Cómo llegaron a esa conclusión? Miraron dónde tenían impactos los aviones que volvían de las misiones. Así ignoraron todos los casos de los aviones que eran derribados.

UNA SOLUCIÓN POSIBLE: UN NUEVO GOBIERNO DEL DATO

Las actividades de ciencia de datos – quiere decir: aplicar el método ciéntifico – redefinen la calidad necesaria de los datos e identifican la nueva información que vale la pena capturar, guardar y usar. Es lo que en literatura especializada se llama “sourcing estratégico de datos”. Sin ello, cuando se sale a buscar un nuevo dato, se subestima el costo que exige obtenerlo (“no lo tengo, pero lo consigo fácil”). Entonces, el desafío invita a dimensionar el universo de datos no tanto desde el “uso” sino desde el “trabajar con datos”. Esto impactará en cómo pensar la gestión de los datos y una nueva manera de “gobernar” los datos. Una eventual solución punta a punta para los items definidos arriba pasa por articular lo mejor posible entre la (a) gestión de datos, (b) ciencia de datos, y (c) operación del negocio para partir desde el diagnóstico más adecuado.
 
3. LA CEGUERA DEL JUGADOR (MONTE CARLO FALLACY)
ilustracion - 3.jpg
Esta “trampa” se genera cuando los datos revelados se ordenan en base a un patrón esperado. El ejemplo que le dio el nombre al problema sucedió en 1913, en la mesa de
ruleta del casino de Montecarlo. La bolilla había caído 26 veces seguidas en negro. Los jugadores perdieron millones apostando al rojo. Razonaban que con cada jugada subía la probabilidad de interrumpir la serie. Sin embargo, las chances de que salga rojo o negro son siempre las mismas 50:50. Una rueda de ruleta no tiene memoria.

 

4. LO QUE SE PUEDE MEDIR NO ES SIEMPRE LO ÚNICO QUE DEBE MEDIRSE
ilustracion - 4.jpg
Este sesgo hace hincapié en el error que cometió el exsecretario de Defensa estadounidense, Robert McNamara (1961–1968), al evaluar el desarrollo de la Guerra de Vietnam. En un conflicto de guerrilla donde no tenía sentido medir el territorio controlado, McNamara tomó la cantidad de enemigos abatidos como principal dato para medir el éxito de sus tropas. No consideró la oposición creciente que generaba el conflicto en su país ni la resiliencia incremental en la población vietnamita, que causaba los mayores números de bajas.
5. UNA PREGUNTA NO SIEMPRE ES UNA BUENA PREGUNTA

ilustracion 5 (1).jpg

Decimos, desde siempre, que los proyectos de ciencia de datos no fracasan por falta de técnicas adecuadas, sino porque se eligen preguntas que no son relevantes para el negocio. Como, en general, preferimos no hablar de lo que nos salió mal, es esperable y entendible que no tengamos una buena lista de proyectos fallidos que nos permita validar esto.