
Como avaliar o melhor modelo de regressão para seu projeto
Escolher o modelo de regressão mais apropriado para seu projeto pode ser difícil. Tentar modelar com apenas uma amostragem, mais ainda. Dada essa dificuldade, irei descrever alguns métodos estatísticos comuns para a seleção de modelos, eventuais complicadores que poderão ocorrer e, como usual, alguns conselhos práticos para escolher o melhor modelo de regressão para chamar de seu.
Tudo começa quando você tenta descrever matematicamente a relação entre alguns preditores e a variável de resposta. A equipe de projeto normalmente mede muitas variáveis, mas inclui apenas algumas delas no modelo. Os analistas tentam eliminar as variáveis que não estão relacionadas e incluem apenas aquelas com um relacionamento verdadeiro. Ao longo do caminho, os analistas consideram muitos modelos possíveis com equivalente potenciais de explicação – qual caminho tomar?
Primeiramente, precisamos entender o impacto da escolha de um modelo para previsão de comportamento de um processo. Tipicamente podemos ter um modelo subespecificado que tende a produzir estimativas tendenciosas, um modelo superespecificado que tende a ter estimativas menos precisas ou, no melhor caso, um modelo com os termos corretos que não tem viés e produz estimativas mais precisas. É esse que buscamos.
Métodos estatísticos para encontrar o melhor modelo de regressão
Para um bom modelo de regressão, você deseja incluir as variáveis que você está testando especificamente junto com outras variáveis que afetam a resposta, a fim de evitar resultados tendenciosos. O primeiro parâmetro que você deveria estudar, até antes do resíduo, é o R-quadrado.
Precisamos avaliar o R-quadrado ajustado e R-quadrado previsto. Geralmente, você escolhe os modelos que têm maiores valores de ambos para evitar um problema-chave quando olhamos somente um deles. Isso pois o R-quadrado ajustado compara o poder explicativo dos modelos de regressão que contêm diferentes números de preditores.
Suponha que você compare um modelo com cinco preditores com um R-quadrado maior para um modelo com um preditor. O modelo com cinco preditores tem um R-quadrado maior porque é melhor? Ou o R-quadrado é mais alto porque tem mais preditores? Basta comparar os valores ajustados de R-quadrado para descobrir.
O R-quadrado ajustado é uma versão modificada do R-quadrado que foi ajustada para o número de preditores no modelo. O R-quadrado ajustado aumenta somente se o novo termo melhorar o modelo mais do que seria esperado pelo acaso.
Já o R-quadrado previsto indica quão bem um modelo de regressão prevê respostas para novas observações. Essa estatística ajuda a determinar quando o modelo se ajusta aos dados originais, mas é menos capaz de fornecer previsões válidas para novas observações.
O R-quadrado previsto é calculado removendo sistematicamente cada observação do conjunto de dados, estimando a equação de regressão e determinando como o modelo prevê a observação removida.
Um dos principais benefícios do R-quadrado previsto é que ele pode impedir que você faça overfitting de um modelo. Como mencionado anteriormente, um modelo overfit contém muitos preditores e começa a modelar o ruído aleatório.
Como é impossível prever o ruído aleatório, o R-quadrado previsto deve diminuir para um modelo de superposição. Se você vê um R-quadrado predito que é muito mais baixo que o R-quadrado regular, você quase certamente tem muitos termos no modelo.
Além disso, cabe avaliarmos os valores de P para os preditores. Em uma regressão, os baixos valores de p indicam termos estatisticamente significativos. “Reduzir o modelo” refere-se à prática de incluir todos os preditores candidatos no modelo e, em seguida, remover sistematicamente o termo com o valor p mais alto, um a um, até que você fique com apenas preditores significativos.
Isso pode ser feito, por exemplo no Minitab, através da Regressão Stepwise e Regressão de Melhor Subconjunto: Esses são dois procedimentos automatizados podem identificar os preditores úteis durante os estágios exploratórios de modelagem, reduzindo o modelo considerando as variáveis significativas.
Complicações no mundo real
Dessa forma, devemos olhar o R-quadrado e também o valor P para cada variável preditora – é isso? Infelizmente, também há várias outras complicações potenciais.
O melhor modelo pode ser tão bom quanto as variáveis medidas pelo estudo. Os resultados das variáveis consideradas na análise podem ser influenciadas pelas variáveis significativas que você não nem mediu. Dessa forma, um bom mapa de variáveis é fator crítico de sucesso.
Além disso, sua amostra pode ser incomum, por casualidade ou por metodologia de coleta de dados. Falsos positivos e falsos negativos fazem parte do jogo quando se trabalha com amostras.
Os valores de P podem mudar com base nos termos específicos do modelo. Em particular, a multicolinearidade pode minar o significado e dificultar a determinação do papel de cada preditor. Multicolinearidade consiste em um problema comum em regressões, no qual as variáveis independentes possuem relações lineares exatas ou aproximadamente exatas. O índício mais claro da existência da multicolinearidade é quando o R² é bastante alto, mas nenhum dos coeficientes da regressão é estatisticamente significativo.
As consequências da multicolinearidade em uma regressão são a de erros-padrão elevados no caso de multicolinearidade moderada ou severa e até mesmo a impossibilidade de qualquer estimação se a multicolinearidade for perfeita.
Se você avaliar modelos suficientes, encontrará variáveis que parecem ser significativas, mas são correlacionadas apenas por acaso. Essa forma de mineração de dados pode fazer com que dados aleatórios pareçam significativos. Um baixo R-quadrado é uma boa maneira de verificar esse problema.
Recomendações para encontrar o melhor modelo de regressão
Modelos Referenciados
Pesquise o que os outros fizeram e incorpore essas descobertas na construção de seu modelo. Antes de iniciar a análise de regressão, desenvolva uma ideia de quais são as variáveis importantes, juntamente com suas relações, sinais de coeficiente e magnitudes de efeito. Com base nos resultados de outras pessoas, fica mais fácil coletar os dados corretos e especificar o melhor modelo de regressão sem a necessidade de mineração de dados.
Considerações teóricas não devem ser descartadas com base apenas em medidas estatísticas. Depois de ajustar seu modelo, determine se ele se alinha com a teoria e possivelmente faça ajustes. Por exemplo, com base na teoria, você pode incluir um preditor no modelo, mesmo que seu valor p não seja significativo. Se algum dos sinais de coeficiente contradizer a teoria, investigue e mude seu modelo ou explique a inconsistência.
Complexidade
Você pode pensar que problemas complexos exigem modelos complexos, mas muitos estudos mostram que modelos mais simples geralmente produzem previsões mais precisas. Dados vários modelos com capacidade explicativa semelhante, o mais simples é provavelmente a melhor escolha. Comece simples e apenas torne o modelo mais complexo, conforme necessário. Quanto mais complexo você fizer o seu modelo, mais provável é que você esteja adaptando o modelo ao seu conjunto de dados especificamente, e a generalização sofre.
Resíduos
Ao avaliar os modelos, verifique os gráficos residuais porque eles podem ajudá-lo a evitar modelos inadequados e ajudá-lo a ajustar seu modelo para obter melhores resultados. Por exemplo, o viés em modelos subespecificados pode aparecer como padrões nos resíduos, como a necessidade de modelar a curvatura. O modelo mais simples que produz resíduos aleatórios é um bom candidato para ser um modelo relativamente preciso e imparcial.
No final, nenhuma medida individual pode dizer qual modelo é o melhor. Os métodos estatísticos não compreendem o processo subjacente ou a área de assunto. Seu conhecimento é uma parte crucial do processo. Avalie a coerência, conheça as ferramentas e bora modelar.
Veja todos os Treinamentos das áreas de: