O valor do valor p "p-value"

Por que um “valor de p <0,05” não é suficiente

A interpretação do valor-p é um dos assuntos pior compreendidos na ciência e na estatística, não só pelo público em geral, mas também pelos académicos. Isto leva a publicações de baixa qualidade e notícias enganosas, com consequente desconfiança na ciência. Apenas declarar “p<0,05 = bom” e “p-valor≥0,05 = ruim” é uma simplificação perigosa.

Este artigo tenta depurar alguns conceitos, focando em:

Distribuição e descrição de dados
Teste de hipóteses
O valor do valor p "p-value"
Limitações práticas do valor p
Como escolher o teste para calcular o valor-p?

1. Distribuição e descrição de dados

Tomemos, por exemplo, a altura de homens adultos versus mulheres. Empiricamente, sabemos que, em média, os homens são mais altos que as mulheres (grandes números). Mas, se não soubéssemos isto e nos perguntássemos…

Existe diferença entre a altura de homens adultos e mulheres adultas?

Para responder a esta pergunta objetivamente, temos que projetar um estudo para testar uma hipótese.

Após amostrar 100 homens e 100 mulheres e descrever as suas alturas (em cm) numa tabela, obtemos os seguintes números….

M= masculino; F = feminino (apresentam-se 11 de 200 observações)

Digamos que a altura seja normalmente distribuída e encontramos os seguintes resultados:

Nesta amostra, o homem é, em média, 6 cm mais alto que a mulher (178–172).

Normally and other distributions will be approached in another publication…

É provável que a diferença em nossa amostra seja observada na população ampla?

2. Teste de hipóteses

Quando entramos no mundo do teste de hipóteses (pelo menos na estatística clássica, não abordamos aqui a estatística bayesiana), temos que pensar em duas hipóteses.

H0: Hipótese nula — a hipótese sem diferença padrão que tentamos rejeitar. Neste exemplo específico; não há diferença na altura média de homens e mulheres.
H1: Hipótese alternativa — a hipótese da diferença. Neste exemplo, há uma diferença na altura média de homens e mulheres. Aqui dizemos que há uma diferença sem dizer quem é mais alto (este é o chamado teste p bicaudal).

Aqui temos 4 hipóteses possíveis:

Verdadeiro positivo: encontramos uma diferença (rejeitamos o H0) quando há uma diferença real. Aqui entra Poder; A hipótese de detectar um efeito/diferença quando realmente existe um efeito/diferença.
Verdadeiro negativo: não encontramos diferença (não rejeitamos H0) quando não há diferença real
Falso positivo: Encontramos uma diferença (rejeitamos o H0) quando não há diferença real. Erro tipo 1 (α).
Falso negativo: não encontramos diferença (não rejeitamos H0) quando há uma diferença real. Erro tipo 2 (β).

Curva azul = distribuição H0 (nulo); Curva vermelha = distribuição H1 (alternativa); α = erro tipo 1; β = erro tipo 2

Normalmente, α (erro tipo 1) tem um valor de 0,05, o que significa que aceitamos uma chance de 5% de erro tipo 1 (falso positivo) e β (erro tipo 2) tem um valor superior a 0,8 ou 0,9 , o que significa que aceitamos uma alteração de 20% ou 10%, respectivamente, de ter um erro tipo 2 (falso negativo).

De fato, de acordo com o ponto de corte (cut-off) que escolhemos (a posição da linha vertical pontilhada) há um trade-off entre os erros tipo 1 e tipo 2. Mas isso será assunto para outro artigo…

Mas até agora só abordamos distribuição de dados, teste de hipóteses e erros tipo 1 e tipo 2. Onde estão os valores de p? Tudo fará sentido em breve...

3. O valor do valor p

Ao testar as diferenças, o valor-p só nos diz uma coisa. A diferença encontrada é estatisticamente significativa?

Um valor de p de 0,04 significa que há 4% de encontrar os resultados encontrados se a hipótese nula for verdadeira

Por outras palavras...

Um valor de p de 0,30 significa que, se a hipótese nula for verdadeira (por exemplo: não há diferença de altura entre os grupos), há 30% de possibilidade de encontrar os resultados observados. Isso soa como um evento provável.
Um valor de p de 0,04 significa que, se a hipótese nula for verdadeira (não há diferença de altura entre os grupos), há apenas 4% de chance de encontrar os resultados encontrados. Isso não parece um evento provável, o que significa que é mais provável que esses resultados sejam encontrados em uma distribuição alternativa (se houver diferença entre os grupos).

Um valor-p por si só NÃO tem significado, ele precisa de uma pergunta significativa e, consequentemente, de uma hipótese subjacente a ser testada – a pesca de dados não é ciência

Como saber se o resultado encontrado é estatisticamente significativo. E assim entramos no erro tipo 1…

Se o valor p (o resultado obtido) for menor que o ponto de corte para α (o valor que definimos a priori, que geralmente é 0,05), dizemos que;

Que nos sentimos confortáveis em aceitar uma possibilidade de 5% de ter um falso positivo;
Se o valor de p<α (por exemplo, p=0,04), rejeitamos a hipótese nula e dizemos que há uma diferença estatisticamente relevante, mas se o valor de p≥α (por exemplo, p=0,30) não podemos rejeitar a hipótese nula e não há diferença estatisticamente relevante.

Quando deixamos de rejeitar nossa hipótese nula, não a estamos a “aceitar". O teste de hipótese nula não nos permite aceitar uma “hipótese nula” ou fornecer evidências de que o nulo é verdadeiro. Nós apenas falhamos em fornecer evidências que mostrem que é falso.

4. Limitações práticas do valor p

Então, da próxima vez que vires um valor-p, pergunta-te. O que estamos a testar? Mais importante ainda, os valores-p não são uma maneira universal de testar uma hipótese, precisamos verificar todas estas outras coisas;

Quem é representado por esta amostra? E a validade intrínseca e extrínseca? Se estou a estudar a altura em adultos, não posso concluir nada sobre crianças.
Quais fontes de viés podem estar presentes? Avaliei uma amostra representativa ou estou avaliando a altura de pessoas que têm uma doença que diminui sua altura?
Quais formas de confusão podem estar presentes?
Os autores escolheram um teste válido para calcular o valor p? Por exemplo, distribuições normais e não normais… Um teste t de Student não é uma escolha adequada para uma variável contínua que não é normalmente distribuída.
Qual é o poder de teste? Os autores relatam o poder do teste? Uma regra prática é ter pelo menos 80% ou 90% de Powe, ou uma mudança de 20% a 10% do erro tipo 2 (β) respectivamente (Power = 1-β).
Por último mas não menos importante. A diferença é clinicamente significativa? Eu poderia fazer um teste e afirmar que a “droga mágica A” reduz a pressão arterial quando comparada ao placebo, devido ao valor p<0,05. No entanto, se a diferença média for de apenas 2mmHg na pressão arterial sistólica, isso pode não ser um efeito relevante.

Por favor, nunca aceites a expressão “há uma tendência para” “há uma tendência” para um valor-p de 0,06. Os valores-p são definidos a priori, portanto, só pode haver uma resposta Sim/Não. Não existe algo quase significativo

5. Como escolher o teste para calcular o valor-p?

O truque é… não há necessidade de memorizar todos os testes. Basta tentar entender o tipo de variáveis estás a avaliar e saber como usar uma boa “folha de dicas” para escrever a sintaxe no software estatístico da sua escolha.

Escolher o teste estatístico correto no SAS, Stata, SPSS e R

A tabela a seguir mostra as diretrizes gerais para a escolha de uma análise estatística. Ressaltamos que são gerais…

stats.idre.ucla.edu

Este site da UCLA é uma fonte incrível com toda a sintaxe que precisas; Stata, SAS, R e SPSS.

1. Dependência de observações

Observações independentes;
Observações dependentes;

2. Tipo de variável a ser comparada

Contínua
Discreta

3. Quantos grupos (níveis)?

2 grupos
Mais de 2 grupos

Isso é tudo sobre como fazer as escolhas certas. O software de análise estatística é ótimo para fazer o que se pede. Se inserires uma variável binária (onde 0=é “ausência de evento” e 1= “presença de evento”) e pedires ao software para executar um teste como se fosse uma variável contínua, o programa assumirá que estamos a usar uma variável contínua que varia de 0 a 1 e mostra um resultado.

Disclaimer

Todos os exemplos fornecidos são feitos para fins educacionais e não necessariamente transmitem o estado da arte atual. Nenhuma destas informações se destina a fornecer qualquer aconselhamento médico.

Cookie	Duração	Descrição
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

O valor do valor p

O valor do valor p "p-value"

Por que um “valor de p <0,05” não é suficiente

1. Distribuição e descrição de dados

É provável que a diferença em nossa amostra seja observada na população ampla?

2. Teste de hipóteses

3. O valor do valor p

Como saber se o resultado encontrado é estatisticamente significativo. E assim entramos no erro tipo 1…

4. Limitações práticas do valor p

5. Como escolher o teste para calcular o valor-p?

Escolher o teste estatístico correto no SAS, Stata, SPSS e R

A tabela a seguir mostra as diretrizes gerais para a escolha de uma análise estatística. Ressaltamos que são gerais…

Disclaimer

Contatos

Mais páginas

O valor do valor p "p-value"

Por que um “valor de p <0,05” não é suficiente

1. Distribuição e descrição de dados

É provável que a diferença em nossa amostra seja observada na população ampla?

2. Teste de hipóteses

3. O valor do valor p

Como saber se o resultado encontrado é estatisticamente significativo. E assim entramos no erro tipo 1…

4. Limitações práticas do valor p

5. Como escolher o teste para calcular o valor-p?

Escolher o teste estatístico correto no SAS, Stata, SPSS e R

A tabela a seguir mostra as diretrizes gerais para a escolha de uma análise estatística. Ressaltamos que são gerais…

Disclaimer

You Might Also Like

Como deixar de ignorar o confundimento em investigação

Obter proporções (%) em R não deve ser uma dor de cabeça

Regressão linear com StatsModels

Contatos

Mais páginas