La alternativa sin código para hojas de cálculo en Excel
Consulta este artículo en Medium aquí: https://medium.com/evidentebm/gigasheet-for-beginners-98d54c44849c
GigaSheet es una empresa fundada en agosto de 2020 que pretende ayudar a cualquiera que pueda usar una hoja de cálculo a analizar rápidamente conjuntos de datos masivos y dispares sin código.
En este tutorial se seguirán estos pasos para poder probar esta plataforma:
- Carga tu archivo;
- Dimensión (filas y columnas)
- Visualización de datos
- Transformación de datos (limpieza de datos y gestión de datos)
- Realizar estadísticas descriptivas
- Dibujar tus gráficos
Conociendo GigaSheet
Conocemos software como Microsoft Excel y GoogleSheets que nos permiten trabajar con hojas de cálculo usando solo un puñado de fórmulas. Además, algunos software de análisis de datos (Stata y SPSS) le permiten usar menús desplegables para realizar una gestión de datos compleja y análisis inferenciales.
Sin embargo, GigaSheet lleva el abordaje sin código (no-code) a un nuevo nivel de simplicidad. Tan simple como comenzar tu análisis arrastrando y soltando tu archivo y luego usando menús fáciles de usar para realizar las diferentes tareas.
GigaSheets permite que los principiantes casi no tengan barreras de entrada y permite que todos los usuarios minimicen el tiempo perdido escribiendo líneas de código.
Ejecución de datos paso a paso
Volveremos a una base de datos que hemos usado mucho en los tutoriales de Epidence . La cohorte del corazón de Framingham de código abierto.
1. Carga tu archivo
Después de registrarte, aparecerá esta ventana. Aquí puedes importar tu archivo. Aquí puedes:
- Carga otros formatos de archivo como CSV, JSON, XLSX, TSV y GZIP;
- Carga tu archivo directamente desde Google Drive, Dropbox, OneDrive, etc.
2. Dimensión (filas y columnas)
El número de filas y columnas se muestra automáticamente una vez que se carga el archivo.
En este caso, se redondea 4,2k. Para tener el número exacto de filas y columnas, haz clic en los 3 puntos y elije "Propiedades del archivo"
3. Visualización de datos
Una vez que abras tu hoja de cálculo por primera vez, GigaSheet mostrará un breve tutorial con algunos consejos sobre la gestión y visualización de datos.
Visualización de datos
Puedes visualizar 100 filas a la vez. Y puedes usar las flechas inferiores izquierdas para cambiar la "página" que muestra 100 observaciones diferentes.
Modo de columnas vs modo de filas
En la barra derecha, tienes la opción de elegir entre columnas y filas.
Gestión de columnas
En la última columna de la derecha, verás una lista con todas las variables (columnas) disponibles.
Puedes seleccionar y deseleccionar para filtrar qué variables se muestran y en qué orden (arrastrando la variable hacia arriba o hacia abajo).
Si por alguna razón necesitas ELIMINAR una columna, haz clic en las 3 barras al lado del nombre de la columna y haz clic en "DELETE".
4. Transformación de datos (limpieza de datos y gestión de datos)
Si echamos un vistazo a nuestro conjunto de datos de Framingham, vemos, usando la visualización de filas, que la variable "GLUCOSE" está en el formato incorrecto. Debe ser numérico (símbolo de calculadora) pero está codificado como texto (símbolo T).
Necesitamos transformar esta variable al formato correcto.
Data cleanup -> Change Data type
Luego tendrás la opción de elegir entre enteros y decimales. Usaremos el decimal aquí... y luego Aplicar y Continuar.
Ahora, está listo. Nuestra variable se cambia al formato deseado.
Algunas técnicas avanzadas de formateo...
Para técnicas más avanzados, puedes usar la función BUSCARV para fusionar diferentes hojas de cálculo.
More about it on their official YouTube channel
NOTA: La opción de función ha cambiado un poco. Ahora se ve algo como; Insert -> Cross File VLookup
5. Realizar estadísticas descriptivas
Puedes ver la información anterior utilizando varias agregaciones disponibles en la parte inferior de la hoja.
Aquí en lugar de usar funciones de "tab" o "describe", tendremos que confiar en “Data aggregation”.
Para responder a la pregunta clínica; ¿Cuántos pacientes tuvieron un evento cardíaco isquémico (variable TenYearCHD)? Tendremos que preguntarle a GigaSheet;
¿Cuántos participantes tienen una observación única para la variable TenYearCHD?
En otras palabras, estamos preguntando GigaSheet, cuántos participantes son “=1” (tuvieron un evento isquémico) y cuántos son “=0”, no tuvieron un evento isquémico.
Vamos a Group y luego seleccionamos qué variable nos gustaría agrupar.
Vemos cómo 2420 filas se “colapsaron” en solo 2 filas. Llegamos aquí la respuesta a la pregunta anterior
¿Cuántos participantes tienen una observación única para la variable TenYearCHD?
Hay 343 con un evento isquémico (TenYearCHD =1).
Pero, ¿qué tal la tabulación cruzada (cross-tab)?
Probemos nuestra primera tabulación cruzada. En otras palabras, crucemos las observaciones de las diferentes variables discretas.
Aquí queremos cruzar los eventos isquémicos (TenYearCHD) con la presencia de hipertensión (prevalentHyp). Con el fin de ver…
¿Cuántos pacientes con eventos isquémicos tenían hipertensión? ¿Y cuántos pacientes sin evento isquémico tenían hipertensión?
De la selección anterior (donde agrupamos las observaciones según la variable TenYearCHD), haremos clic arriba de una de las celdas debajo de la columna “PREVALENTHYP” y elegiremos la opción “row count”.
Aquí vemos:
- 325 pacientes de los 644 con un evento isquémico previo tenían hipertensión (prevalenthyp=1 + TenYearCHD=1).
- 325 pacientes de los 644 con un evento isquémico previo tenían hipertensión (prevalenthyp=1 + TenYearCHD=1).
Sin embargo, no podemos probar aquí si esta diferencia tiene algún significado estadístico.
No es perfecto para estadísticas descriptivas. Lo entendemos…
- No es tan práctico como tener una tabla (de output) con todos los resultados
- Para obtener más de un parámetro (por ejemplo, recuento, rango y proporción), tendríamos que repetir esto manualmente mientras escribe el resultado en otra ventana (no es realmente factible);
- No permite el cálculo de la significación estadística.
Pero aún así, es una buena manera de explorar datos visualmente.
6. Dibujar tus gráficos
Obtengamos un gráfico de barras en el que cada barra muestre el número de pacientes con hipertensión en ambos grupos (con y sin evento cardíaco isquémico).
Tienes que hacer clic y arrastrar (en Windows, mantén presionada la tecla Shift mientras haces clic en todas las celdas deseadas). A continuación, haga clic con el botón derecho en Chart Range -> Bar -> Grouped
Aquí tienes un gráfico de barras. Hay muchas otras opciones como gráficos circulares y gráficos de dispersión (este último es muy útil para dos variables continuas).
Más tutoriales
No necesitamos profundizar demasiado en los tutoriales aquí, ya que el equipo de GigaSheet ya ha creado buenos tutoriales (tanto en texto como en video) con casi cualquier posible problema que puedas enfrentar al usar este Software.
https://www.gigasheet.com/how-to
Mensajes clave
- GigaSheets es un software de hoja de cálculo. No esperes que realice análisis inferenciales o machine learning. Piensa en ello más como un "Excel online" (con mucho potencial);
- Al ser un servicio en la nube (como Kagle), siempre existe la cuestión de seguridad y confianza. No es como un Jupyter Notebook sin conexión o R Markdown;
- GigaSheet ofrece una gran oportunidad para que el usuario se concentre más en el análisis en sí mismo en lugar de perder el tiempo aprendiendo el código. Una plataforma muy fácil de usar.
- A diferencia de R o Python, GigaSheet no es un programa gratuito. Es más bien Freemium. Cobran entre 79 y 95$ al mes por su versión “Premium”, que permite exportar más de 100 filas o utilizar más de 10GB de datos.
Mi opinión personal
GigaSheet es una plataforma que debes probar. ¡Su interfaz sin código es el futuro del análisis de datos!🚀
Sin embargo, esto está muy por debajo de mis necesidades. Es decir, no me permite realizar fácilmente*:
- Gestión de datos (creación de nuevas variables mediante fórmulas),
- Probar diferencias estadísticas ("valores p"),
- Realizar estadísticas inferenciales (ejecutar modelos para probar asociaciones).
Tal vez pueda satisfacer tus necesidades. Así que pruébalo.
Disclosure
Ninguno es este contenido fue patrocinado. No soy accionista ni empleado de Gigasheet. No hay vínculo entre Epidence y Gigasheet.
Este artículo NO da ningún tipo de recomendación médica individual. Si buscas asesoramiento médico, visita a un médico con licencia en tu país.
*Estas características pueden o no estar disponibles en el futuro. Esta información es cierta en el momento de la redacción.