You are currently viewing GigaSheet for beginners
gigasheet tutorial

GigaSheet para principiantes

A alternativa sem código para folhas de cálculo em Excel

Get to know one of the easiests softwares to handle spreadsheets without needing coiding skills. Only drag and drop and drop-down menus.
Photo by Ivan Samkov from Pexels

Lê este artigo na Medium aqui: https://medium.com/evidentebm/gigasheet-for-beginners-98d54c44849c

GigaSheet é uma empresa fundada em agosto de 2020 que pretende ajudar a qualquer pessoa que possa usar uma folha de cálculo para analisar rapidamente conjuntos de dados massivos e enviar sem código.

Neste tutorial seguiremos estes passos a fim de testar esta plataforma:

  1. Sube o teu arquivo;
  2. Dimensão (linhas e colunas)
  3. Visualização dos dados
  4. Transformação de dados (limpeza de dados e gestão de dados)
  5. Executar estatísticas descritivas
  6. Desenhando seus gráficos

Conhecer o GigaSheet

Conhecemos softwares como Microsoft Excel e GoogleSheets que permitem que você trabalhe com planilhas usando apenas algumas fórmulas. Além disso, alguns softwares de análise de dados (Stata e SPSS) permitem que você use menus suspensos para realizar gerenciamento de dados complexos e análise inferencial.

No entanto, o GigaSheet leva a abordagem sem código (no-code) a um novo nível de simplicidade. Tão simples quanto começar a tua análise a arrastar e soltar o teu ficheiro e depois usar menus amigáveis ​​para realizar as diferentes tarefas.

O GigaSheets permite que os iniciantes quase não tenham barreiras de entrada e permite que todos os usuários minimizem o tempo perdido na digitação de linhas de código.

Execução de dados passo a passo

Voltaremos a uma base de dados que temos usado muito nos tutoriais prévios da Epidence . O Framingham Heart Cohort de código aberto.

1. Sube o teu arquivo

Depois de te registares, verás uma janela aberta. Aqui encontras o teu arquivo. Aqui podes:

  • Carga outros formatos de arquivo, como CSV, JSON, XLSX, TSV e GZIP;
  • Carrega o teu arquivo diretamente do Google Drive, Dropbox, OneDrive, etc.

2. Dimensão (linhas e colunas)

O número de linhas e colunas é exibido automaticamente assim que carregares o arquivo.

Aqui temos cerca de 4200 linhas (observações) e 17 colunas (variáveis)

Nesse caso, 4,2k é arredondado. Para obteres o número exato de linhas e colunas, clica nos 3 pontos e escolhe “Propriedades do arquivo”

Aqui vemos que existem exatamente 4240 linhas (observações) e 17 colunas (variáveis)

3. Visualização dos dados

Depois de abrir a base de dados pela primeira vez, o GigaSheet mostrará um breve tutorial com algumas dicas sobre gerenciamento e visualização de dados.

Visualização de dados

Podes visualizar 100 linhas por vez e podes usar as setas no canto inferior esquerdo para mudar a “página” onde são mostradas diferentes 100 observações.

Modo de colunas vs modo de linhas

Na barra da direita, tens a opção de escolher entre colunas e linhas.

ESQUERDA: Modo de colunas — mostra todas as colunas disponíveis | DIREITA: Modo de linhas — mostra todos os valores para cada linha

Gestão de colunas

Na coluna mais à direita, verás uma lista com todas as variáveis ​​(colunas) disponíveis.

Podes selecionar e desmarcar para filtrar quais as variáveis que ​​são exibidas e em qual ordem (ao arrastar a variável para cima ou para baixo).

Se precisares de ELIMINAR uma coluna, clica nas 3 barras ao lado do nome da coluna e clique em “Delete”.

4. Transformação de dados (limpeza de dados e gestão de dados)

Se olharmos os dados do Framingham, veremos, usando a visualização de linhas, que a variável “GLUCOSE” está no formato errado. Deve ser numérico (símbolo da calculadora), mas é codificado como texto (símbolo T).

Precisamos de transformar essa variável para o formato correto.

Data cleanup -> Change Data type

Tens a opção de escolher entre inteiro e decimal. Iremos para decimal aqui... e então Aplicar e Continuar.

Agora, está feito. Nossa variável é alterada para o formato desejado.

Algumas técnicas avançadas de formatação…

Como técnicas mais avançados, poderás, por exemplo, usar a função VLOOKUP para unir folhas de cálculo diferentes.

More about it on their official YouTube channel

NOTA: A função mudou um pouco. Agora o aspecto é algo como; Insert -> Cross File VLookup

5. Executar estatísticas descritivas

Podes visualizar as informações acima através das várias opções disponíveis no fundo da folha.

Aqui, em vez de usar as funções “tab” ou “describer”, teremos que confiar em “Data aggregation”.

Para responder à questão clínica; Quantos pacientes tiveram um evento isquémico cardíaco (variável TenYearCHD)? Teremos que perguntar ao GigaSheet;

Quantos participantes têm uma observação única para a variável TenYearCHD?

Em outras palavras, estamos a perguntar ao GigeSheet, quantos participantes são “=1” (tiveram um evento isquêmico) e quantos são “=0”, não tiveram um evento isquémico.

Vamos para Groupe, em seguida, selecionamos qual variável gostaríamos de agrupar.

Vemos como 2.420 linhas “colapsaram” em apenas 2 linhas. Obtemos aqui a resposta à pergunta anterior

Quantos participantes têm uma observação única para a variável TenYearCHD?

Existem 343 com um evento isquémico (TenYearCHD =1).

E a tabulação cruzada (cross-tab)?

Vamos tentar a nossa primeira tabulação cruzada. Noutras palavras, vamos cruzar as observações das diferentes variáveis ​​discretas.

Aqui queremos tabular eventos isquêmicos (TenYearCHD) com presença de hipertensão (prevalentHyp). Em ordem para ver…

Quantos pacientes com eventos isquémicos têm hipertensão? E quantos pacientes sem evento isquémico tinham hipertensão?

A partir da seleção anterior (onde agrupamos as observações de acordo com a variável TenYearCHD), clicaremos acima de uma das células abaixo da coluna “PREVALENTHYP” e escolheremos a opção “row count”.

Aqui vemos:

  • 992 pacientes daqueles 3.596 sem nenhum evento isquémico tinham hipertensão (hipertensão = 1 + TenYearCHD = 0);
  • Dos 644 com evento isquémico prévio, 325 participantes apresentavam hipertensão (hipertensão = 1 + CHD de dez anos = 1).

No entanto, não podemos testar aqui se essa diferença tem algum significado estatístico.

Não é perfeito para estatísticas descritivas. Percebemos…

  • Não é tão prático quanto ter uma tabela (de output) com todos os resultados
  • Para obter mais do que um parâmetro na tabela (por exemplo; contagem, intervalo e proporção), terias que repetir isso manualmente enquanto digitas os resultados noutra janela (não é realmente viável);
  • Não permite o cálculo da significância estatística.

Ainda assim, é uma boa maneira de explorar visualmente os dados.

6. Desenhando seus gráficos

Vamos fazer um gráfico de barras com cada barra a mostrar o número de participantes com hipertensão em ambos os grupos (com e sem evento isquémico cardíaco).

Temos que clicar e arrastar (no Windows segure shift enquanto clica em todas as células desejadas). Em seguida, clique com o botão direito em Chart Range -> Bar -> Grouped

Hoover over the bar to see the exact count

Aqui você tem um gráfico de barras. Existem muitas outras opções, como gráficos circulares e gráficos de dispersão (este último é muito útil para duas variáveis ​​contínuas).

Mais tutoriais

Não precisamos de aprofundar muito nos tutoriais aqui, pois a equipa do Gigasheet já criou bons tutoriais (tanto em texto quanto em vídeo) com quase todos os possíveis problemas que poderás enfrentar ao usar este software.

https://www.gigasheet.com/how-to

Mensagens chave

  • GigaSheets é um software de planilhas. Não espere que este execute análises inferenciais ou de machine learning. Pensa nisto mais como um “Excel online” (com muitos potenciais);
  • Como um serviço em nuvem (como o Kagle), sempre há a questão de segurança e confiança. Não é como um Jupyter Notebook offline ou R Markdown;
  • O GigaSheet oferece uma grande oportunidade para o usuário se concentrar mais na análise em si, em vez de perder tempo a aprender código. Uma plataforma muito amigável.
  • Ao contrário do R ou do Python, o GigaSheet não é freeware. É bastante Freemium. Eles cobram entre 79 e 95$ por mês pela sua versão “Premium”, que permite exportar mais de 100 linhas ou usar mais de 10 GB de dados.

A minha opinião pessoal

É quase "obrigatório" testar o GigaSheet. A sua interface sem código é o futuro da análise de dados! 🚀

No entanto, isso fica muito aquém das minhas necessidades. Ou seja, não me permite executar facilmente*:

  • Gerenciamento de dados (criação de novas variáveis ​​com recurso a fórmulas),
  • Testar diferenças estatísticas ("p-valores"),
  • Realizar estatísticas inferenciais (executar modelos para testar associações).

Talvez possa preencher suas necessidades. Experimenta-o

Disclosure

Nenhum é este conteúdo foi patrocinado. Não sou acionista nem funcionário da Gigasheet. Não há ligação entre Epidence e Gigasheet.

Este artigo NÃO fornece nenhum tipo de recomendação médica individual. Se precisares de aconselhamento médico, visita um médico licenciado no teu país.

*Esses recursos podem ou não estar disponíveis no futuro. Esta informação é verdadeira no momento da escrita.