You are currently viewing The value of p-value

O valor do valor p

O valor do valor p "p-value"

Por que um “valor de p <0,05” não é suficiente

by Lum3n from Pexels

A interpretação do valor-p é um dos assuntos pior compreendidos na ciência e na estatística, não só pelo público em geral, mas também pelos académicos. Isto leva a publicações de baixa qualidade e notícias enganosas, com consequente desconfiança na ciência. Apenas declarar “p<0,05 = bom” e “p-valor≥0,05 = ruim” é uma simplificação perigosa.

Este artigo tenta depurar alguns conceitos, focando em:

  1. Distribuição e descrição de dados
  2. Teste de hipóteses
  3. O valor do valor p "p-value"
  4. Limitações práticas do valor p
  5. Como escolher o teste para calcular o valor-p?

1. Distribuição e descrição de dados

Tomemos, por exemplo, a altura de homens adultos versus mulheres. Empiricamente, sabemos que, em média, os homens são mais altos que as mulheres (grandes números). Mas, se não soubéssemos isto e nos perguntássemos…

Existe diferença entre a altura de homens adultos e mulheres adultas?

Para responder a esta pergunta objetivamente, temos que projetar um estudo para testar uma hipótese.

Após amostrar 100 homens e 100 mulheres e descrever as suas alturas (em cm) numa tabela, obtemos os seguintes números….

M= masculino; F = feminino (apresentam-se 11 de 200 observações)

Digamos que a altura seja normalmente distribuída e encontramos os seguintes resultados:

SD= Desvio padrão

Nesta amostra, o homem é, em média, 6 cm mais alto que a mulher (178–172).

Normally and other distributions will be approached in another publication…

É provável que a diferença em nossa amostra seja observada na população ampla?

2. Teste de hipóteses

Quando entramos no mundo do teste de hipóteses (pelo menos na estatística clássica, não abordamos aqui a estatística bayesiana), temos que pensar em duas hipóteses.

  • H0: Hipótese nula — a hipótese sem diferença padrão que tentamos rejeitar. Neste exemplo específico; não há diferença na altura média de homens e mulheres.
  • H1: Hipótese alternativa a hipótese da diferença. Neste exemplo, há uma diferença na altura média de homens e mulheres. Aqui dizemos que há uma diferença sem dizer quem é mais alto (este é o chamado teste p bicaudal).

Aqui temos 4 hipóteses possíveis:

  • Verdadeiro positivo: encontramos uma diferença (rejeitamos o H0) quando há uma diferença real. Aqui entra Poder; A hipótese de detectar um efeito/diferença quando realmente existe um efeito/diferença.
  • Verdadeiro negativo: não encontramos diferença (não rejeitamos H0) quando não há diferença real
  • Falso positivo: Encontramos uma diferença (rejeitamos o H0) quando não há diferença real. Erro tipo 1 (α).
  • Falso negativo: não encontramos diferença (não rejeitamos H0) quando há uma diferença real. Erro tipo 2 (β).
Curva azul = distribuição H0 (nulo); Curva vermelha = distribuição H1 (alternativa); α = erro tipo 1; β = erro tipo 2

Normalmente, α (erro tipo 1) tem um valor de 0,05, o que significa que aceitamos uma chance de 5% de erro tipo 1 (falso positivo) e β (erro tipo 2) tem um valor superior a 0,8 ou 0,9 , o que significa que aceitamos uma alteração de 20% ou 10%, respectivamente, de ter um erro tipo 2 (falso negativo).

De fato, de acordo com o ponto de corte (cut-off) que escolhemos (a posição da linha vertical pontilhada) há um trade-off entre os erros tipo 1 e tipo 2. Mas isso será assunto para outro artigo…

Mas até agora só abordamos distribuição de dados, teste de hipóteses e erros tipo 1 e tipo 2. Onde estão os valores de p? Tudo fará sentido em breve...

3. O valor do valor p

Ao testar as diferenças, o valor-p só nos diz uma coisa. A diferença encontrada é estatisticamente significativa?

Um valor de p de 0,04 significa que há 4% de encontrar os resultados encontrados se a hipótese nula for verdadeira

Por outras palavras...

  • Um valor de p de 0,30 significa que, se a hipótese nula for verdadeira (por exemplo: não há diferença de altura entre os grupos), há 30% de possibilidade de encontrar os resultados observados. Isso soa como um evento provável.
  • Um valor de p de 0,04 significa que, se a hipótese nula for verdadeira (não há diferença de altura entre os grupos), há apenas 4% de chance de encontrar os resultados encontrados. Isso não parece um evento provável, o que significa que é mais provável que esses resultados sejam encontrados em uma distribuição alternativa (se houver diferença entre os grupos).

Um valor-p por si só NÃO tem significado, ele precisa de uma pergunta significativa e, consequentemente, de uma hipótese subjacente a ser testada – a pesca de dados não é ciência

Como saber se o resultado encontrado é estatisticamente significativo. E assim entramos no erro tipo 1…

Se o valor p (o resultado obtido) for menor que o ponto de corte para α (o valor que definimos a priori, que geralmente é 0,05), dizemos que;

  • Que nos sentimos confortáveis ​​em aceitar uma possibilidade de 5% de ter um falso positivo;
  • Se o valor de p<α (por exemplo, p=0,04), rejeitamos a hipótese nula e dizemos que há uma diferença estatisticamente relevante, mas se o valor de p≥α (por exemplo, p=0,30) não podemos rejeitar a hipótese nula e não há diferença estatisticamente relevante.

Quando deixamos de rejeitar nossa hipótese nula, não a estamos a “aceitar". O teste de hipótese nula não nos permite aceitar uma “hipótese nula” ou fornecer evidências de que o nulo é verdadeiro. Nós apenas falhamos em fornecer evidências que mostrem que é falso.

4. Limitações práticas do valor p

Então, da próxima vez que vires um valor-p, pergunta-te. O que estamos a testar? Mais importante ainda, os valores-p não são uma maneira universal de testar uma hipótese, precisamos verificar todas estas outras coisas;

  1. Quem é representado por esta amostra? E a validade intrínseca e extrínseca? Se estou a estudar a altura em adultos, não posso concluir nada sobre crianças.
  2. Quais fontes de viés podem estar presentes? Avaliei uma amostra representativa ou estou avaliando a altura de pessoas que têm uma doença que diminui sua altura?
  3. Quais formas de confusão podem estar presentes?
  4. Os autores escolheram um teste válido para calcular o valor p? Por exemplo, distribuições normais e não normais… Um teste t de Student não é uma escolha adequada para uma variável contínua que não é normalmente distribuída.
  5. Qual ​​é o poder de teste? Os autores relatam o poder do teste? Uma regra prática é ter pelo menos 80% ou 90% de Powe, ou uma mudança de 20% a 10% do erro tipo 2 (β) respectivamente (Power = 1-β).
  6. Por último mas não menos importante. A diferença é clinicamente significativa? Eu poderia fazer um teste e afirmar que a “droga mágica A” reduz a pressão arterial quando comparada ao placebo, devido ao valor p<0,05. No entanto, se a diferença média for de apenas 2mmHg na pressão arterial sistólica, isso pode não ser um efeito relevante.

Por favor, nunca aceites a expressão “há uma tendência para” “há uma tendência” para um valor-p de 0,06. Os valores-p são definidos a priori, portanto, só pode haver uma resposta Sim/Não. Não existe algo quase significativo

5. Como escolher o teste para calcular o valor-p?

O truque é… não há necessidade de memorizar todos os testes. Basta tentar entender o tipo de variáveis estás a avaliar e saber como usar uma boa “folha de dicas” para escrever a sintaxe no software estatístico da sua escolha.

Escolher o teste estatístico correto no SAS, Stata, SPSS e R

A tabela a seguir mostra as diretrizes gerais para a escolha de uma análise estatística. Ressaltamos que são gerais…

stats.idre.ucla.edu

Este site da UCLA é uma fonte incrível com toda a sintaxe que precisas; Stata, SAS, R e SPSS.

1. Dependência de observações

  • Observações independentes;
  • Observações dependentes;

2. Tipo de variável a ser comparada

  • Contínua
  • Discreta

3. Quantos grupos (níveis)?

  • 2 grupos
  • Mais de 2 grupos

Isso é tudo sobre como fazer as escolhas certas. O software de análise estatística é ótimo para fazer o que se pede. Se inserires uma variável binária (onde 0=é “ausência de evento” e 1= “presença de evento”) e pedires ao software para executar um teste como se fosse uma variável contínua, o programa assumirá que estamos a usar uma variável contínua que varia de 0 a 1 e mostra um resultado.

Disclaimer

Todos os exemplos fornecidos são feitos para fins educacionais e não necessariamente transmitem o estado da arte atual. Nenhuma destas informações se destina a fornecer qualquer aconselhamento médico.