Discussão sobre The Cult of Significance
Seguindo a dica do Shikida, fui dar uma olhada no Econ Journal Watch. E nessa edição há um excelente artigo de "Ziliak and McCloskey’s Criticisms of Significance Tests: An Assessment" por Thomas Mayer, levantando mais e mais problemas nas discussões do livro de Ziliak e McCloskey.
Além do tom sensacionalista do livro, eu achava a abordagem estatística muito limitada, com uma séria incompreensão sobre funções de perda estatística (como no caso da função de perda 0-1) e outros problemas. Christian Robert tem uma excelente crítica do livro em seu blog que discute muito bem esses pontos.
O que mais me incomoda é que eles basicamente ignoram a enorme literatura anterior sobre problemas de testes de significância e p-valores (toda a discussão Bayesiana sobre testes clássicos de hipóteses é ignorada) e além disso adotam uma posição ingênua defendendo o significância econômica contra testes sobre a existência do efeito, que é um dos pontos discutidos nesse artigo do Mayer.
Eu gostei especialmente do apêndice B do artigo do Mayer - "Reappraising eleven papers that Z-M rank “poor” or “very poor” with respect to their use of significance tests". O interessante é que em geral os artigos classificados como pobres por Ziliak e McCloskey tiveram um impacto importante na análise econômica, muito além de qualquer discussão sobre significância, e isso já diz muito sobre a própria importância do livro de Ziliak e McCloskey ...
Além do tom sensacionalista do livro, eu achava a abordagem estatística muito limitada, com uma séria incompreensão sobre funções de perda estatística (como no caso da função de perda 0-1) e outros problemas. Christian Robert tem uma excelente crítica do livro em seu blog que discute muito bem esses pontos.
O que mais me incomoda é que eles basicamente ignoram a enorme literatura anterior sobre problemas de testes de significância e p-valores (toda a discussão Bayesiana sobre testes clássicos de hipóteses é ignorada) e além disso adotam uma posição ingênua defendendo o significância econômica contra testes sobre a existência do efeito, que é um dos pontos discutidos nesse artigo do Mayer.
Eu gostei especialmente do apêndice B do artigo do Mayer - "Reappraising eleven papers that Z-M rank “poor” or “very poor” with respect to their use of significance tests". O interessante é que em geral os artigos classificados como pobres por Ziliak e McCloskey tiveram um impacto importante na análise econômica, muito além de qualquer discussão sobre significância, e isso já diz muito sobre a própria importância do livro de Ziliak e McCloskey ...
19 Comments:
Márcio,
Eu concordo que a retórica da McCloskey no livro "The Cult" foi muito ruim e estrategicamente errada. O que acaba sendo um paradoxo para alguém que trata de retórica. Mas, o ponto principal do livro é verdade e não acho produtivo tentar negar o fato.
Assim, eu acho que a leitura o artigo do Tom acaba pendendo mais para o lado de que ele não entendeu muito bem a questão e acaba deixando as pessoas mais confortáveis a não encararem o problema.
Um exemplo simples de como ele ignora o ponto. No apêndice A ao discutir a questão 8 de Z-M(p.282), ele fala:
"If the test rejects the hypothesis there is no reason why its power need be mentioned. Hence it is not relevant in some of the cases"
Isso é falso, pois há muitos testes em que a função poder se comporta de maneira não monotonica e bizarra (teste de raiz unitária, por exemplo). E se você não sabe como funciona o poder do teste, como ele se comporta sob hipóteses alternativas, difícil interpretar substantivamente tanto uma rejeição quanto uma não rejeição.
Essa frase dele faz menos sentido ainda no contexto do artigo dele, quando ele cita reiteradas vezes a Mayo e o Spanos, que usam o "poder" para análise de severidade.
Eu analisei os últimos 4 anos da RBE, e o problema que a McCloskey falou está lá. A retórica dela esta muito pesada e não técnica, o que atrapalha a discussão, mas acho que não devemos deixar isso se sobrepor a uma reflexão sobre os rumos da pesquisa aplicada.
Abs
Acabei de lembrar aqui de um post do Dave Giles sobre poder nos testes Reset e DW:
http://davegiles.blogspot.com.br/2012/07/decline-and-fall-of-power-curve.html
Abs
Carlos
Não é que o ponto deles esteja errado, essa questão foi sempre considerada relevante.
Mas os problemas de testes de significância e p-valores são discutidos desde a introdução dessas idéias. Não tem nada de original no Z-M, e além disso eu acho que toda a discussão é bem pobre.
Por exemplo é bem ingênuo pensar que só a introdução de loss function resolve o problema. Todo o arcabouço de testes de Neyman-Person é baseado em uma função de perda,e basicamente assume um nível de significância fixo. Mais fundamental e não discutido no Z-M é quais funções de perda levam a procedimentos ótimos de teste.
No caso da questão de poder que você levantou, ela exatamente é relevante porque aborda a questão de especificação incorreta - se o modelo é mal especificado ou não standard o poder é afetado. Mas isso só é endereçado com o uso de testes de especificação e seleção de modelos, que são um tipo especial de teste de significância. Quando você a lista de artigos pobres no Z-M, boa parte foi incluída por fazer testes de especificação, que são "condenados" pela abordagem do Z-M.
Em resumo eu acho o livro do Z-M uma abordagem simplista para um problema muito complicado, com uma solução ingênua.
Além disso eu acho que existe um exagero nessa questão de que obter significância é condição necessária para publicar um artigo. Talvez em outras áreas (medicina, etc) seja mais importante, mas em economia outras questões são muito mais relevantes.
Por exemplo toda a literatura de ciclos reais é basicamente rejeitada pelos dados, e ainda assim é uma área de publicação relevante, bem como boa parte dos modelos DSGE mais antigos.
Então, fugindo um pouco da questão se o livro de ZM é bom ou ruim, eu acredito que muitos tenham interpretado mal o problema, justamente talvez porque o livro foi muito agressivo e pouco técnico.
ZM, por exemplo,não criticam os testes de especificação.Na verdade, erro de especificação é um dos erros dentro do que eles chamam de "erro real" em contraposição ao "erro amsotral". O que eles criticam é o uso dos testes de especificação sem uma métrica relevante (que é o que Kramer acaba fazendo ao final do artigo dele sobre o culto na alemanha, ou que o Spanos também acaba admitindo após se juntar com a Mayo).
Por exemplo, você rejeitar a normalidade com uma amostra de 500.000 e p-valor de 5% não é a mesma coisa de rejeitar com o mesmo p-valor e uma amostra de 20. Hoje as pessoas tratam como se fosse.
Pelo levantamento que fiz, eu diria que o viés de resultados significantes existe e é muito forte (depois eu passo as referências).
Carlos
É óbvio que existem abusos e desconhecimento, mas eu acho que boa parte dos trabalhos leva em conta os problemas dos testes em amostras finitas ou sobre especificação incorreta.
O caso do teste de normalidade é um bom exemplo - é fato comum que os testes usuais de normalidade (JB, por exemplo) tem problemas em amostras pequenas. Mas justamente por isso são desenvolvidos testes melhores, mais robustos, etc. Mas da mesma forma estes novos testes seriam criticados pela falta de uma métrica relevante pelo Z-M.
Outro caso interessante são testes de raízes unitárias. Em finanças basicamente ninguém perde tempo com esses testes, já que são sempre inconclusivos para as séries de interesse, como por exemplo séries de taxas de juros. Todo mundo reconhece as limitações desses testes, e por isso a análise é baseada em outros fundamentos. Não acho que as pessoas ignorem estes procedimentos.
Acredito que possa haver manipulação de significância, claro.
Mas acho que na maioria dos casos isso não afeta a aceitação ou rejeição de um artigo, especialmente em economia. De novo acho que a maioria dos pareceristas em boas revistas sempre levanta as limitações existentes nos procedimentos e julga se a análise do artigo sobrevive na presença destas limitações.
Márcio, com relação a:
"boa parte dos trabalhos leva em conta os problemas dos testes em amostras finitas ou sobre especificação incorreta".
Eles não levam.
Na RBE, por exemplo, 74% dos artigos não demonstraram preocupação com a especificação do modelo.
Na German Economic Review, o número foi igual.
Na AER é a mesma coisa, apesar de na análise original de ZM não terem feito esta pergunta específica.
Na maior parte dos trabalhos, a preocupação é a significância ou não significância do coeficiente.
Eu estou escrevendo um artigo da minha dissertação sobre essa questão aqui no Brasil. Estava postergando um pouco por conta de outras atividades, mas esse seu post sobre o artigo do Tom me reanimou a terminar isso logo, pelo menos colocar um working paper no ar!
Se você tiver interesse no assunto, seus comentários (críticas) seriam muito bem-vindos, seja na dissertação ou no artigo.
Abs
Carlos
Muito legal, vocẽ tem que levar para frente essa discussão mesmo.
Mas um fator importante é que o fato de um artigo não colocar uma discussão sobre testes de especificação não quer dizer que o autor não se preocupou com isso.
Os problemas de algumas análises são de conhecimento comum (por exemplo raizes unitárias, quebras) e por isso mesmo ninguém perde tempo voltando a esta discussão, a não ser quando ela é vital para os resultados.
Na maioria dos casos é realizado um procedimento de seleção de modelos que leva em conta os problemas de especificação, só que o autor só reporta os resultados do modelo final, mesmo que toda a análise tenha sido realizada com cuidado. Eu por exemplo não vou reportar testes padrão e me incomoda muito ter que dar parecer em artigos que gastam paginas preciosas reportando resultados de testes de especificação. E já tive artigos rejeitados pelo fato de gastar muito tempo fazendo análise de especificação e não ter ido diretamente ao modelo mais adequado.
A grande parte das boas revistas favorece (com razão) artigos mais curtos, e por isso na maioria dos casos essas análises são limadas na versão final, já que não fazem parte da discussão principal do artigo.
E em outras áreas isso é ainda mais importante, já que os artigos são ainda mais curtos que em economia.
E quanto mais top a revista, menor a probabilidade de ver as análises padrão (correlação, normalidade, heterocedasticidade) reportadas.
Acho que isso pode viesar um pouco sua análise. e seria interessante pensar em alguma forma de tratar esse problema.
Márcio, eu teria que mostrar os exemplos para ilustrar melhor a situação. Mas, a maior parte dos artigos apenas adota um termo de erro "plug-in" (soma um "e" ou um "u" ao final da equação) e diz que se supõe ser um ruído branco.
A ideia foi ser o menos rigoroso possível. Se, por exemplo, o autor mencionasse em apenas uma frase que o modelo não aparenta ter grandes problemas de especificação ou adequação estatística (ou mencionasse que mesmo a versão final ainda tem alguns problemas, mas ele julga que é possível continuar a análise), ainda assim o artigo receberia um "sim" para a questão.
Com relação ao poder dos testes, por exemplo, 83% dos artigos nem lembravam que isso existia.
Abs
Carlos
Eu acho que eu mesmo estou viesado nessa análise, já que estou julgando pelo tipo de artigo que eu mesmo leio, em geral mais ligado a econometria do que somente aplicações.
Mas o ponto é que se um artigo levanta uma questão sobre o poder do teste, ele de alguma forma precisa indicar alguma forma de minimizar esse problema, o que não é o objetivo nos artigos aplicados.
Acho que na maioria dos trabalhos puramente aplicados você aceita que o método utilizado tem limitações e que se o método foi aplicado corretamente a análise está no limite do possível.
Acho que ninguém espera que as conclusões sejam universais. Eu só espero que o problema e a análise sejam relevantes e adequadas para o problema, sujeita as limitações existentes.
Eu não espero que um artigo na RBE proponha um teste que funcione melhor que os demais testes existentes. Se o autor consegue esse teste, ele não vai submeter para a RBE e sim para um journal com mais impacto.
Isso gera um viés de seleção nos artigos e na forma que os resultados são apresentados, e acho que esse viés pode ser confundido com viés de significância.
Márcio,
hehe acho que está um pouco viesado sim, mas essa discussão é boa, pois eu sei que esse tipo de questionamento vai ser constante!
Quando falo do poder do teste, não seria para elaborar um teste mais poderoso ou algo do tipo, mas apenas para saber se o teste aplicado naquela situação tinha o poder detectar o que ele queria detectar. Ou seja, é preciso saber o poder do teste naquele experimento para interpretá-lo melhor. Como a gente não foi ensinado a usar isso, a maioria das pessoas nem para pensar no assunto.
Por exemplo, como interpretar um resultado em estatisticamente "insignificante"? Sem o poder do teste (ou severidade do teste, seguindo Mayo), não é possível avançar muito na análise.
Antes que alguém argumente que isso é muito complicado na econometria, o Andrews em 1989 já tinha mostrado uma forma fácil, um rule of thumb, para ver o poder de testes de coeficientes! (é assintótico mas melhor que nada!)
http://www.jstor.org/discover/10.2307/1913623?uid=3737664&uid=2129&uid=2&uid=70&uid=4&sid=21101204561171
Por exemplo, na psicologia, alguns softwares já vem com uma estimativa de poder como default.
Carlos
Mas de novo, você está usando uma aproximação, que vai depender de condições de regularidade, que o modelo esteja corretamente especificado, etc. Em particular para os testes que o Andrews discute as propriedades em amostras finitas são bem distintas das propriedades assintóticas, e assim na prática é bem mais complicado.
Da forma como o problema está sendo colocado a única solução é ser Bayesiano - condicional a amostra observada e ao modelo (likelihood) escolhido, eu tiro todas as conclusões somente olhando para a distribuição posterior ou então para um fator de Bayes.
(mas aí entra a questão da prior, paradoxo de Lindley, etc);
O ponto é que no Z-M toda a análise Bayesiana foi ignorada, e acho que uma interpretação assintótica não é o que particularmente o Z-M advogam.
Eu não tenho problema com nenhuma da duas soluções acima - elas são consistentes com a abordagem de inferência utilizada.
Márcio,
A ideia acima foi apontar o seguinte: nos textos aplicados, as pessoas usam técnicas frequentistas. Por exemplo, usam p-valores. Mas, para ser interpretado corretamente como evidência, mesmo dentro do paradigma frequentista, somente o teste de significância é incompleto, seria preciso, por exemplo, observar também o poder do teste (poder empírico, aplicado naquela situação).
Como as pessoas usam p-valores assintóticos (erros-padrão robustos, por exemplo)entao elas não teriam problema com uma estimativa do poder observado assintótico (aí citei a solução já fornecida pelo Andrews, uma função poder inversa).
Mas nem isso as pessoas usam hoje!
O que tem acontecido muito é se observar uma variável como "insignificante" e julgá-la como "não importante", como "negligenciável", como "zero".
Essa seria uma das formas do "culto" da significância estatística.
Carlos
Meu ponto pessoal sobre esse tema é que é fundamental lembrar que modelos econômicos e modelos estatísticos são apenas aproximações úteis de problemas complexos.
Nisso é importante lembrar que parâmetros, formas funcionais, variáveis latentes, não são reais. São apenas componentes de uma ferramenta de análise, uma construção artificial. Quando uma variável é excluída de um modelo (não significante, baixa probabilidade a posteriori, etc) isso significa que na construção (modelo) utilizado, ela não adicionava poder de análise relevante em função da amostra observada. Mas isso é sempre condicional ao modelo.
Mais importante que análise de significância é todo o procedimento de seleção de modelos, a busca pela construção mais adequada ao problema, e especialmente verificar se a forma escolhida é realmente útil para resolver o ponto em análise.
Modelos, procedimentos de inferência e teste de hipóteses são apenas construções que servem para simplificar e sumarizar as relações mais importantes. Minha visão é que na prática, todos os modelos são incorretamente especificados, mas seus resultados podem ser úteis se os pontos fundamentais forem capturados.
Por isso acho um tanto ingênua a discussão do Z-M, já que implicitamente a discussão sobre funções de perda econômicas, significância econômica, etc, ignora completamente fato que modelos são aproximações e no limite são sempre incorretamente especificados. Nenhum modelo é uma descrição completa e atemporal da realidade, e naturalmente vão omitir algumas variáveis significantes.
Outro ponto desprezado é a questão de identificação - se existe mais de um vetor de parâmetros que gera a mesma verossimilhança, conta a mesma história, é fundamental obter uma forma de identificação. E uma forma de identificação natural é remover variáveis ou fixar parâmetros, buscando a forma mais simples que pode ser identificada, ao custo de um modelo mais simplista mas que permite uma interpretação única dos resultados obtidos.
Por isso eu acho que embora a discussão de significância seja relevante, ela é apenas um dos problemas importantes em modelagem e análise aplicada.
E só para lembrar, é essa a minha visão pessoal.
Márcio,
O que você escreveu é na verdade um dos argumentos da McCloskey - que se o modelo não é uma representação fiel da realidade, um simples teste de significância estatística não é suficiente para te dizer se ele é adequado ou não.
Quando você fala:
"Minha visão é que na prática, todos os modelos são incorretamente especificados, mas seus resultados podem ser úteis se os pontos fundamentais forem capturados. "
Isso é o que fala também a McCloskey, o Edward Leamer, Zellner etc. E justamente por isso eles criticam a prática atual, porque ela se assenta em uma interpretação erronea dos testes de significância.
O que eu queria chamar a atenção, contudo, é que essa visão não é posta na prática. As pessoas estão interpretando modelos e testes literalmente e, assim, interpretando incorretamente os resultados de testes estatísticos.
Um exemplo comum é interpretar uma falha em rejeitar a hipótese nula como uma confirmação (ou uma evidência a favor) desta hipótese.
Vou dar um exemplo simples:
- suponha que eu queira mostrar que aposentadoria rural não diminui a pobreza. Então eu vou e estimo uma regressão com pobreza como variável dependente e aposentadoria rural como independente. Depois eu testo se o coeficiente é diferente de zero. Vamos supor que eu não rejeito que o coeficiente é zero. Então eu posso falar que eu trouxe evidência de que ele é aproximadamente zero?
Não. Mesmo supondo que o modelo esteja adequado, dentro do paradigma frequentista sem o poder (observado) do teste você não pode inferir isso.
Por quê? Porque eu poderia testar que o coeficiente é positivo e para uma série de valores eu não rejeitaria a hipótese também. Para saber se o coeficiente é de fato aproximadamente zero, eu precisaria ver o poder do teste nas alternativas relevantes.
Mas o problema é que ninguém olha o poder do teste.
O próprio Mayer discute isso brevemente no artigo dele que você citou a partir da p. 271.
O que as pessoas estão olhando é se você não rejeita H0, então isso é evidência a favor da teoria ou da hipótese. E se você rejeita H0, então isso é evidência contra a teoria ou a hipótese.
Se você não considera que modelos são réplicas exatas da realidade, a interpretação acima é incorreta. Mas é isso que se vê na prática.
Abs
Carlos
Eu acho que meu ponto é exatamente o oposto do da McCloskey. Você tira conclusões condicionais ao modelo utilizado.
Se a hipótese não é rejeitada, condicional ao modelo e a amostra isso é uma evidência a favor do hipótese. Se ela é realmente verdadeira? Não, é isso é impossível de mostrar, já que a hipótese e o modelo são construções artificiais.
De novo na minha opinião o ponto fundamental é o procedimento de seleção de modelos, e não significância.
O problema é que a não ser que você esteja trabalhando com dados simulados, tenha um modelo estatístico regular e não precise de nenhuma aproximação, nunca vai conhecer a verdadeira função poder em um trabalho aplicado. Você pode aproximar - aproximações estocásticas, bootstrap, monte carlo, mas de novo, isso só é sofisticar o mesmo processo de inferência. Não muda a substância do problema.
Na sua colocação -
"O que as pessoas estão olhando é se você não rejeita H0, então isso é evidência a favor da teoria ou da hipótese. E se você rejeita H0, então isso é evidência contra a teoria ou a hipótese."
Essa é exatamente a base do procedimento de Neymann-Pearson, que Z-M consideram ok porque é baseado em uma função de perda 0-1. É sujeito a erro - amostral e de modelo. Mas isso é conhecimento comum. A validade de função loss, seu valor esperado (risco) de novo são condicionais ao modelo.
Meu ponto é ? qual é a contribuição do Z-M? dizer que testes de significância não são verdades absolutas e podem ser mal interpretados? Qual é a novidade nisso?
Nessa forma o único procedimento de inferência válido é Bayesiano - condicional ao modelo e a amostra observada. A inferência condicional é um dos pilares fundamentais de métodos de Bayes.
Então, só para esclarecer, temos duas questões separadas aqui:
1) Z-M contribuíram com algo novo?
Não. O ponto deles já é discutido a muito tempo.
2) As pessoas estão sistematicamente usando testes significância de forma errada?
Sim. Eles constataram isso na AER. O Kramer constatou isso na GER. Eu constatei isso na RBE.
***
Uma não rejeição não é uma confirmação dentro do paradigma frequentista. Também não é necessariamente uma evidência a favor, isso depende do poder do teste. Interpretar uma não rejeição como confirmação ou evidência a favor de H0 sem olhar o poder é errado.
Vou dar um contra-exemplo simples:
- suponha que em um estudo você queira testar H0: a=0.
Aí você obtém a*=2 (* estimado), e p-valor=0,27.
Aí você vai e fala que é uma evidência a favor de H0.
- agora suponha que você faça uma revisão de literatura e encontre mais três estudos independentes, com p-valores iguais a 26%, 23% e 31%.
Hoje as pessoas falariam o seguinte: "o meu resultado confirma o encontrado pelos estudos tais e tais, de que a é insignificante!"
Ocorre que com a evidência acima você tem que o resultado é estatisticamente significante e não o contrário (um teste qui-quadrado com a soma dos logs dos p-valores).
Interpretar cada não rejeição como uma evidência a favor é logicamente errado!
Carlos
Acho que o problema, como já foi discutido naquele comentário do Christian Robert, é que os exemplos discutidos noZ-M são completamente artificiais.
Esse mesmo exemplo que você colocou, de meta-análise de Fisher é extremamente problemático, já que normalmente existe dependência entres os testes. Não estou dizendo que as amostras sejam dependentes, mas que se o teste nos 3 estudos é realizado de forma similar, isso gera depêndencia nos resultados, que precisa ser corrigida (False Discovery Rate), e após essa correção a meta análise deve indicar que o resultado continua a não ser significante. Não houve problema nos testes individuais, mas sim na agregação dos resultados.
Márcio,
Concordo que em caso de dependência o resultado pode ir para outra direção. Apenas quis ilustrar o ponto com um exemplo simples, mas poderiamos dar outros mais realistas.
A ideia geral aqui é que as pessoas estão inferindo dos testes (da "significância") mais do que eles podem dizer e isso tem direcionado os trabalhos empíricos para um caminho não muito saudável.
Se a linguagem da McCloskey é agressiva e pouco técnica, a gente poderia discutir isso tanto do ponto de vista Bayesiano (como o Leamer, que eu tenho gostado bastante), quanto do ponto de vista frequentista (Freedman ou Mayo, que também tenho gostado). Mas acho que o ideal é não deixar a discussão perder o foco em questões pessoais (que é o que tenho visto acontecer lá nos EUA).
Abs
Abs
Carlos
Realmente a forma como está acontecendo esta discussão la fora é péssima.
Eu acho interessante essa discussão porque é uma forma de auto reflexão sobre a validade de algumas metodologias e o limite que pode ser alcançado nas aplicações práticas. E também uma forma de aprender novas idéias.
Acho que não existe uma solução para essa discussão. Como eu coloquei, acho que ela depende muito da visão pessoal de cada pesquisador.
Mas é um debate bem divertido.
[]s
Postar um comentário
<< Home