«Limpia, fija y da esplendor», con este lema la Real Academia de la Lengua Española viene fijando la normativa lingüística del idioma Castellano desde hace 300 años. Pero ¿tiene eso que ver algo con el análisis de datos? Si, y mucho.
Uno de los problemas en el análisis de datos empresariales es la calidad de los datos. Normalmente, un sistema de gestión o un ERP no fueron concebidos en su día para extraer información de ellos sino para llevar la gestión del día a día.
Pongamos el caso que en su día quisiste incluir en el ticket de la venta un mensaje como «Pruebe nuestros deliciosos cafés y pastas» o «Durante este mes, rebajas de un 10% en electrónica». El problema que tu sistema de gestión no soportaba esos mensajes y una solución rápida fue la de incluir ese mensaje como un artículo más en la venta con 0 unidades.
El problema se resolvió y todos los clientes que compraron recibieron el mensaje que tenías destinado para ellos, pero la sorpresa te viene al hacer el análisis de tus datos y ver que el producto más vendido en el año fue precisamente ese, «Prueba nuestros deliciosos cafés y pastas», o que durante el mes que sacaste ese mensaje el número de líneas de venta por ticket tiene un pico.
En este caso la solución es simple: Eliminar de la base de datos esa línea de venta falsa.
Pongamos otro ejemplo. Hace 6 años decidiste que ya era hora de cambiar tu sistema de gestión propio por otro mucho más potente y actual. Dado que las bases de datos entre el sistema antiguo y el nuevo eran incompatibles, había que hacer la migración a mano y decidiste que era demasiado tiempo el que ibas a perder haciéndolo así que únicamente se migraron aquellos clientes que habían pedido factura y las ventas de contado las eliminaste.
En este caso tendremos a la hora de analizar tu histórico de datos que tienes una espectacular subida de ventas de un 3000% el día 1 de Enero de 2007 (justo el día que comenzó a operar el nuevo ERP), con lo que cualquier análisis de tendencia en las ventas siempre saldrá creciente pues según los datos que hay estuviste 6 años vendiendo una media de 2-3 unidades de cada producto cada mes y a partir del 1 de Enero pasaste a 60-70 unidades.
En este último caso la solución es muy simple: eliminar todas las ventas anteriores a la puesta en marcha del nuevo ERP, pero estás perdiendo un histórico de información que podría ser muy valioso. En este caso los datos que tendemos son a partir del 1 de Enero de 2007, que es justo en el momento que comenzaron las ventas a bajar, con lo que todo análisis de tendencias estará sesgado por una tendencia a la baja.
En el análisis de datos hay una ley que siempre se cumple: «Si metes basura, sacas basura». Mientras más fiables y buenos sean los datos que introduzcamos, mejores resultados tendremos.
Si, ya se que a veces el esfuerzo necesario para conseguir el dato con precisión milimétrica es gigante, al igual que dedicarse a revisar y corregir los datos generados. Para ello hay que ser consciente que nunca vamos a tener los datos perfectos, pero eso no quiere decir que el análisis que hagamos de ellos sea inservible. Como todo en esta vida, depende. Volvamos a los ejemplos anteriores y así verás con más claridad dónde quiero llegar.
Supongamos que me resulta imposible borrar esas promociones de mi ticket. Tengo un pequeño repunte en el número de líneas de venta por ticket en el mes que imprimí la promoción. ¿Es eso importante? Depende del tamaño del pico. Si es muy pequeño podemos tomarlo como un pequeño error y podemos seguir considerando el dato como válido. Si el pico fuese muy grande podemos directamente obviar la métrica de líneas de venta por ticket y sustituirla por el número de unidades de producto vendida por ticket. Dado que esa promoción va a 0 unidades, no tendremos ningún error en esa métrica.
Con respecto a únicamente tener los datos de ventas desde el 1 de Enero de 2007, tendemos un pequeño sesgo a la baja en todas las predicciones que hagamos. ¿Qué significa eso? Pues que cuando comiencen a repuntar tus ventas no se detectará un cambio de tendencia al alza hasta 1 ó 2 meses después de que realmente se haya producido. ¿Es esto crítico? Quizás podrías decirme que sí, pero te puedo asegurar que si no dispones de estas herramientas, tardarás en darte cuenta del cambio por ti mismo muchos más meses.
Como ves, cualquier sistema de gestión que no cometa auténticas barbaridades (los hay, pero son una excepción), puede darte unos resultados muy buenos de tu empresa. ¿Podrían ser mejores? Por supuesto, pero el esfuerzo que tendríamos que dedicar sería gigante.
Como ves, el «Limpia, fija y da esplendor» también se aplica al análisis de datos.