O valor do valor p "p-value"
Por que um “valor de p <0,05” não é suficiente
A interpretação do valor-p é um dos assuntos pior compreendidos na ciência e na estatística, não só pelo público em geral, mas também pelos académicos. Isto leva a publicações de baixa qualidade e notícias enganosas, com consequente desconfiança na ciência. Apenas declarar “p<0,05 = bom” e “p-valor≥0,05 = ruim” é uma simplificação perigosa.
Este artigo tenta depurar alguns conceitos, focando em:
- Distribuição e descrição de dados
- Teste de hipóteses
- O valor do valor p "p-value"
- Limitações práticas do valor p
- Como escolher o teste para calcular o valor-p?
1. Distribuição e descrição de dados
Tomemos, por exemplo, a altura de homens adultos versus mulheres. Empiricamente, sabemos que, em média, os homens são mais altos que as mulheres (grandes números). Mas, se não soubéssemos isto e nos perguntássemos…
Existe diferença entre a altura de homens adultos e mulheres adultas?
Para responder a esta pergunta objetivamente, temos que projetar um estudo para testar uma hipótese.
Após amostrar 100 homens e 100 mulheres e descrever as suas alturas (em cm) numa tabela, obtemos os seguintes números….
Digamos que a altura seja normalmente distribuída e encontramos os seguintes resultados:
Nesta amostra, o homem é, em média, 6 cm mais alto que a mulher (178–172).
Normally and other distributions will be approached in another publication…
É provável que a diferença em nossa amostra seja observada na população ampla?
2. Teste de hipóteses
Quando entramos no mundo do teste de hipóteses (pelo menos na estatística clássica, não abordamos aqui a estatística bayesiana), temos que pensar em duas hipóteses.
- H0: Hipótese nula — a hipótese sem diferença padrão que tentamos rejeitar. Neste exemplo específico; não há diferença na altura média de homens e mulheres.
- H1: Hipótese alternativa — a hipótese da diferença. Neste exemplo, há uma diferença na altura média de homens e mulheres. Aqui dizemos que há uma diferença sem dizer quem é mais alto (este é o chamado teste p bicaudal).
Aqui temos 4 hipóteses possíveis:
- Verdadeiro positivo: encontramos uma diferença (rejeitamos o H0) quando há uma diferença real. Aqui entra Poder; A hipótese de detectar um efeito/diferença quando realmente existe um efeito/diferença.
- Verdadeiro negativo: não encontramos diferença (não rejeitamos H0) quando não há diferença real
- Falso positivo: Encontramos uma diferença (rejeitamos o H0) quando não há diferença real. Erro tipo 1 (α).
- Falso negativo: não encontramos diferença (não rejeitamos H0) quando há uma diferença real. Erro tipo 2 (β).
Normalmente, α (erro tipo 1) tem um valor de 0,05, o que significa que aceitamos uma chance de 5% de erro tipo 1 (falso positivo) e β (erro tipo 2) tem um valor superior a 0,8 ou 0,9 , o que significa que aceitamos uma alteração de 20% ou 10%, respectivamente, de ter um erro tipo 2 (falso negativo).
De fato, de acordo com o ponto de corte (cut-off) que escolhemos (a posição da linha vertical pontilhada) há um trade-off entre os erros tipo 1 e tipo 2. Mas isso será assunto para outro artigo…
Mas até agora só abordamos distribuição de dados, teste de hipóteses e erros tipo 1 e tipo 2. Onde estão os valores de p? Tudo fará sentido em breve...
3. O valor do valor p
Ao testar as diferenças, o valor-p só nos diz uma coisa. A diferença encontrada é estatisticamente significativa?
Um valor de p de 0,04 significa que há 4% de encontrar os resultados encontrados se a hipótese nula for verdadeira
Por outras palavras...
- Um valor de p de 0,30 significa que, se a hipótese nula for verdadeira (por exemplo: não há diferença de altura entre os grupos), há 30% de possibilidade de encontrar os resultados observados. Isso soa como um evento provável.
- Um valor de p de 0,04 significa que, se a hipótese nula for verdadeira (não há diferença de altura entre os grupos), há apenas 4% de chance de encontrar os resultados encontrados. Isso não parece um evento provável, o que significa que é mais provável que esses resultados sejam encontrados em uma distribuição alternativa (se houver diferença entre os grupos).
Um valor-p por si só NÃO tem significado, ele precisa de uma pergunta significativa e, consequentemente, de uma hipótese subjacente a ser testada – a pesca de dados não é ciência
Como saber se o resultado encontrado é estatisticamente significativo. E assim entramos no erro tipo 1…
Se o valor p (o resultado obtido) for menor que o ponto de corte para α (o valor que definimos a priori, que geralmente é 0,05), dizemos que;
- Que nos sentimos confortáveis em aceitar uma possibilidade de 5% de ter um falso positivo;
- Se o valor de p<α (por exemplo, p=0,04), rejeitamos a hipótese nula e dizemos que há uma diferença estatisticamente relevante, mas se o valor de p≥α (por exemplo, p=0,30) não podemos rejeitar a hipótese nula e não há diferença estatisticamente relevante.
Quando deixamos de rejeitar nossa hipótese nula, não a estamos a “aceitar". O teste de hipótese nula não nos permite aceitar uma “hipótese nula” ou fornecer evidências de que o nulo é verdadeiro. Nós apenas falhamos em fornecer evidências que mostrem que é falso.
4. Limitações práticas do valor p
Então, da próxima vez que vires um valor-p, pergunta-te. O que estamos a testar? Mais importante ainda, os valores-p não são uma maneira universal de testar uma hipótese, precisamos verificar todas estas outras coisas;
- Quem é representado por esta amostra? E a validade intrínseca e extrínseca? Se estou a estudar a altura em adultos, não posso concluir nada sobre crianças.
- Quais fontes de viés podem estar presentes? Avaliei uma amostra representativa ou estou avaliando a altura de pessoas que têm uma doença que diminui sua altura?
- Quais formas de confusão podem estar presentes?
- Os autores escolheram um teste válido para calcular o valor p? Por exemplo, distribuições normais e não normais… Um teste t de Student não é uma escolha adequada para uma variável contínua que não é normalmente distribuída.
- Qual é o poder de teste? Os autores relatam o poder do teste? Uma regra prática é ter pelo menos 80% ou 90% de Powe, ou uma mudança de 20% a 10% do erro tipo 2 (β) respectivamente (Power = 1-β).
- Por último mas não menos importante. A diferença é clinicamente significativa? Eu poderia fazer um teste e afirmar que a “droga mágica A” reduz a pressão arterial quando comparada ao placebo, devido ao valor p<0,05. No entanto, se a diferença média for de apenas 2mmHg na pressão arterial sistólica, isso pode não ser um efeito relevante.
Por favor, nunca aceites a expressão “há uma tendência para” “há uma tendência” para um valor-p de 0,06. Os valores-p são definidos a priori, portanto, só pode haver uma resposta Sim/Não. Não existe algo quase significativo
5. Como escolher o teste para calcular o valor-p?
O truque é… não há necessidade de memorizar todos os testes. Basta tentar entender o tipo de variáveis estás a avaliar e saber como usar uma boa “folha de dicas” para escrever a sintaxe no software estatístico da sua escolha.
Escolher o teste estatístico correto no SAS, Stata, SPSS e R
A tabela a seguir mostra as diretrizes gerais para a escolha de uma análise estatística. Ressaltamos que são gerais…
Este site da UCLA é uma fonte incrível com toda a sintaxe que precisas; Stata, SAS, R e SPSS.
1. Dependência de observações
- Observações independentes;
- Observações dependentes;
2. Tipo de variável a ser comparada
- Contínua
- Discreta
3. Quantos grupos (níveis)?
- 2 grupos
- Mais de 2 grupos
Isso é tudo sobre como fazer as escolhas certas. O software de análise estatística é ótimo para fazer o que se pede. Se inserires uma variável binária (onde 0=é “ausência de evento” e 1= “presença de evento”) e pedires ao software para executar um teste como se fosse uma variável contínua, o programa assumirá que estamos a usar uma variável contínua que varia de 0 a 1 e mostra um resultado.
Disclaimer
Todos os exemplos fornecidos são feitos para fins educacionais e não necessariamente transmitem o estado da arte atual. Nenhuma destas informações se destina a fornecer qualquer aconselhamento médico.