Em disciplinas relacionadas, como estatística, econometria e epidemiologia, métodos de variáveis instrumentais (VI) podem ser usados quando experimentos controlados não podem ser realizados ou quando o tratamento não é administrado com sucesso a todas as amostras em um experimento randomizado para estimar a causalidade. O principal objetivo das variáveis instrumentais é ajudar a descobrir relações causais que podem existir quando as variáveis independentes estão relacionadas ao termo de erro, especialmente no caso de viés ao usar o método tradicional dos mínimos quadrados (MQO).
A eficácia das variáveis instrumentais reside no fato de que elas podem induzir mudanças nas variáveis independentes, mas não têm efeito independente sobre a variável dependente e não estão relacionadas ao termo de erro, para que os pesquisadores possam revelar o impacto causal entre as variáveis independentes e a variável dependente.
Os métodos de variáveis instrumentais permitem que os pesquisadores façam estimativas consistentes quando variáveis explicativas (covariáveis) estão relacionadas aos termos de erro em um modelo de regressão. Essa correlação pode ocorrer nas seguintes situações: causalidade “reversa” entre variáveis, variáveis omitidas que afetam as variáveis independentes e dependentes ou problemas de variáveis causados por erro de medição. Neste caso, o algoritmo OLS produz resultados de estimação tendenciosos e inconsistentes. Contudo, se forem encontradas variáveis instrumentais válidas, podem ser obtidas estimativas consistentes apesar dos problemas.
Variáveis instrumentais são geralmente definidas como variáveis que não estão na equação da variável independente, mas são relevantes para as variáveis independentes endógenas. Usando o teste de estágio, se a variável instrumental tiver uma forte correlação com a variável independente endógena, a variável instrumental é chamada de primeiro estágio forte, caso contrário, poderá levar a estimativas de parâmetros enganosas e erros padrão.
Nos dados da amostra, observa-se uma associação entre tabagismo (X) e saúde (Y), mas isso não significa que fumar cause problemas de saúde, pois outras variáveis, como a depressão, podem afetar ambos.
Especificamente, os investigadores podem não ser capazes de realizar experiências controladas na população em geral para avaliar diretamente os efeitos do tabagismo na saúde, pelo que podem utilizar a taxa de imposto sobre os produtos do tabaco (Z) como uma variável instrumental para o tabagismo. Assumindo que estas taxas de imposto afectam a saúde apenas através do tabagismo, os investigadores podem estimar os efeitos benignos do tabagismo para a saúde a partir de dados observacionais.
A história das variáveis instrumentais remonta a 1928, proposta pela primeira vez por Philip G. Wright, que utilizou dados de produção e vendas de cereais e óleo animal para explorar a relação entre a procura e a oferta. Olav Reiersøl aplicou essa ideia em seu artigo em 1945 e nomeou o método. Por exemplo, Wright optou por utilizar a precipitação regional como variável instrumental necessária para a sua análise porque confirmou que a precipitação afecta a oferta de produtos lácteos, mas não a procura.
Se a definição de variáveis instrumentais puder separar os termos não correlacionados e de erro, ela poderá revelar ainda mais a relação causal.
Este tipo de causalidade é muito importante na economia, especialmente em modelos econométricos. Na verdade, estas duas condições são os requisitos básicos para a utilização de IV quando tentamos utilizar um modelo de regressão linear em que a variável instrumental Z está relacionada com a variável independente X, mas não relacionada com o erro U. O erro U deve ser composto por todos os fatores exógenos e não deve afetar a variável dependente Y após controlar X. Isso significa que os pesquisadores precisam ter conhecimento prévio sobre o processo de geração de dados para selecionar variáveis instrumentais apropriadas.
Como exemplo, suponha que queiramos estimar o impacto de um programa de reforço escolar na média de notas dos alunos. Os alunos que participam do programa podem ter seus GPAs afetados por fatores como preocupações com notas ou dificuldades acadêmicas. Se os alunos forem distribuídos aleatoriamente em dormitórios, a distância entre o dormitório e o cursinho pode se tornar uma variável instrumental eficaz. Se o cursinho for instalado em uma biblioteca escolar, a correlação entre distância e GPA pode apresentar interferência de outros fatores, portanto outras covariáveis precisam ser adicionadas para manter sua validade.
Em última análise, a escolha de variáveis instrumentais apropriadas é fundamental, pois variáveis instrumentais inadequadas podem levar a conclusões errôneas. Ao mesmo tempo, o uso da representação gráfica pode ajudar os pesquisadores a determinar rapidamente se as variáveis atendem aos critérios IV. A revelação destas relações causais pode não só ajudar os investigadores a obter estimativas consistentes, mas também fornecer recomendações políticas e caminhos de implementação mais claros.
No complexo ambiente de dados atual, existem outras maneiras de revelar com eficácia possíveis relações causais?