Esta entrada está pensada para usuarios de negocio, quienes no suelen tener tiempo para entender sobre conceptos técnicos pero han crecido con experiencia en este mundo de los datos.
Nosotros los “Artesanos de Datos”, las personas encargadas de generar reportes, de arreglar y limpiar datos y, si nos queda algún tiempo, de hacer un análisis de los mismos; nos hemos enfrentado muchas veces a datos con estructuras extrañas y/o retazos de datos que tenemos que ir uniendo para realizar ese informe mensual que tanto nos desgastamos en generar. A continuación, vemos un esquema de la cadena de datos desde el acceso, preparación y limpieza, hasta la salida a los usuarios de negocio:
¿En dónde quedan la mayoría de analistas? Bueno, quedan entre tecnología y el área de los científicos de datos, todo porque los datos pocas veces están presentables, lo que hace que tengamos que encargarnos de limpiarlos y arreglarlos para el análisis. Lo anterior deja el análisis de datos relegado a otra persona que SÍ va a generar valor a la compañía.
Limpiamos y arreglamos los #datos dejando el análisis relegado a alguien que SÍ va a generar valor Clic para tuitearDatos Arreglados Vs. Limpios
Al final de todo el proceso que hacemos obtenemos datos ordenados o arreglados pero no necesariamente datos limpios. Para entender la diferencia entre estos dos conceptos veamos lo siguiente: los datos que necesitamos están en una base de datos (Tablas) que se alojan en una fuente de datos (SQL Server, Oracle, MySQL, etc.) para luego ser integradas con otras tablas (Data Blending), de este proceso obtenemos nuestros datos, los cuales (en muy pocas ocasiones) están limpios, razón por la cual debemos verificar, entre otros, la Exactitud, Integridad y Consistencia para así poder arreglar nuestros datos y seguir con el análisis.
Todo este proceso puede tomar el 80% del total de nuestro análisis. Hadley Wickham, profesor adjunto de las universidades de Auckland, Standford y Rice, se ha interesado en profundizar este tema y explica que este proceso no se hace “sólo una vez”, es un proceso iterativo.
Cada mes llega una fecha en la cual nos tenemos que preparar física y mentalmente para ese reporte mensual que tanto nos quita tiempo. Esto hace que nos preguntemos qué está pasando dentro de los datos y que indaguemos el porqué se presentan errores en los mismos, entonces nos damos cuenta de que el problema es más profundo. El objetivo de todo esto es simplemente obtener una estructura para hacer el análisis que queremos.
Verifica la #Exactitud, #Integridad y #Consistencia para poder arreglar tus #datos para el #Análisis Clic para tuitear¿Qué son los datos Arreglados?
Wickham nos explica que, como las familias, todos los datos arreglados son iguales pero cada dataset desordenado es desordenado en su propia forma, lo que hace que sea único. Los datos arreglados son una forma estándar de mapear el sentido de un set de datos con su estructura. Los datos pueden estar desordenados u ordenados dependiendo siempre de cómo las filas, columnas y tablas se relacionan con las observaciones, variables y tipos.
Los #datos arreglados son iguales pero cada #dataset desordenado es desordenado en su forma,es único Clic para tuitearPara esto se establecen 3 principios para la estructura:
1.Cada variable forma una columna.
2.Cada observación forma una fila.
3.Cada tipo de unidad de observación forma una tabla.
Una vez nosotros tengamos la estructura de datos en este formato podemos transformarla (agregar variables) para luego poder utilizarla en visualizaciones y/o en modelos estadísticos.
¿En qué forma encontramos los datos desordenados?
Los datos desordenados tienen varias características. A continuación, se presentan las más comunes:
- Los nombres de las columnas son valores, no son nombres de variables.
- Las variables múltiples son almacenadas en una columna.
- Las variables son almacenadas en filas y columnas.
- Múltiples tipos de unidad en una misma columna.
- ¡Y muchos más!
Estas características no están del todo mal. De hecho, algunas nos ayudan a digerir mejor los datos (mucho mejor que los datos arreglados). Por ejemplo, tomemos la siguiente estructura:
Podemos observar fácilmente cómo le fue a cada una de las personas en cada mes en cuanto a Valores y Unidades. Como vemos esta tabla no cumple con los principios antes expuestos pero, es fácil leer e interpretas los datos.
Beneficios de los datos Arreglados
El problema de los datos con estructura desordenada se presenta cuando queremos usarlos y manipularlos para poderlos cargar a un sistema o incluso, visualizarlos en un futuro. Por eso, podemos afirmar que el verdadero poder de los datos arreglados reside en su versatilidad y flexibilidad. Desde que tengamos nuestros datos cumpliendo los 3 principios antes expuestos, podemos transformarlos en la estructura que queramos.
Independientemente de la plataforma de analítica que usemos para nuestros modelos estadísticos (R, Python, Alteryx, etc.) o del visualizador de datos (Excel, Tableau, etc.) podemos beneficiarnos enormemente de la simplificación de nuestros procesos cuando tenemos nuestros Datos Arreglados.
Podemos beneficiarnos de la simplificación de procesos con los #DatosArreglados Clic para tuitear Para más información acerca de los datos arreglados (o Tidy Data) les recomiendo los siguientes enlaces,(todos en inglés):Aquí encontraran la página principal de Hadley Wickham.
Aquí encontraran una charla que dio acerca de datos arreglados.
Aquí encontraran el articulo donde nos explica a profundidad más estos temas.