Aprendizado Bayesiano:
A lógica do aprendizado indutivo


O que realmente significa dizer que algo é “provável”? A probabilidade é uma propriedade objetiva do mundo ou uma medida do nosso grau de incerteza sobre ele? Como cientistas atualizam racionalmente suas crenças quando novos dados são observados? E por que duas pessoas, diante da mesma evidência, podem chegar a conclusões diferentes sem que nenhuma esteja “errada”? Nesta aula, a probabilidade é reinterpretada como uma linguagem para expressar incerteza e aprendizado, conectando conhecimento prévio, evidência empírica e inferência lógica por meio da regra de Bayes. Ao longo da aula, mostramos como probabilidades podem ser atribuídas a hipóteses e modelos, como a verossimilhança quantifica evidência, e como a atualização bayesiana formaliza o processo de aprender com a experiência. Mais do que uma fórmula, Bayes surge aqui como um modelo conceitual de inferência científica: um método coerente para transformar informação em conhecimento em um mundo inevitavelmente incerto.

O que significa probabilidade? Eventos, proposições e conhecimento

O vídeo retoma os conceitos básicos de probabilidade, enfatizando a distinção entre eventos (que ocorrem ou não) e proposições (que são verdadeiras ou falsas), e usa essa distinção para contrastar a interpretação frequentista (frequências relativas em séries longas de experimentos) com a interpretação epistemológica (grau de incerteza / crença racional). O problema central é esclarecer o que estamos medindo quando atribuímos probabilidades, e a mensagem principal é que, para a inferência científica, probabilidade deve funcionar como linguagem para expressar incerteza sobre proposições e não apenas como propriedade de processos repetitivos.


Probabilidade condicional e a forma bayesiana

Este vídeo desenvolve a noção de probabilidade condicional como o elemento central da inferência (“probabilidade de A dado que B”), mostrando como probabilidades conjuntas e marginais se organizam em uma tabela e como a regra de Bayes emerge como uma reorganização lógica dessas relações, tanto em versões binárias quanto multiestados. O problema aqui é entender como incorporar informação adicional de modo coerente, e a mensagem principal é que a regra de Bayes não é um truque: ela apenas explicita como atualizar probabilidades de forma consistente com as leis da probabilidade.


De eventos a hipóteses: prior, likelihood e posterior.

O vídeo introduz a mudança crucial de notação e interpretação, na qual a observação passa a ser tratada como dado (x) e aquilo que se quer avaliar passa a ser uma hipótese (H). A partir daí, cada termo da equação de Bayes recebe um significado epistemológico: P(H) como conhecimento/crença prévia (prior), P(x|H) como compatibilidade entre modelo e dados (likelihood), P(x) como normalização (marginal), e P(H|x) como crença atualizada (posterior). O problema é reinterpretar a regra de Bayes como inferência sobre hipóteses, e a mensagem principal é que Bayes fornece a ponte formal entre dados empíricos e crenças racionais sobre modelos..


Bayes como modelo de aprendizagem gradual.

Neste vídeo, a regra de Bayes é apresentada explicitamente como um modelo de aprendizagem: aprender é atualizar crenças prévias à luz de novas evidências, reconhecendo que conhecimento científico é sempre parcial e provisório. Exemplos intuitivos (como previsões meteorológicas) são usados para mostrar como a mesma crença inicial pode ser reforçada, enfraquecida ou mantida dependendo do que se observa. O problema é entender o que significa “aprender com dados” em um mundo incerto, e a mensagem principal é que o raciocínio bayesiano formaliza uma atualização racional: posterior é conhecimento atualizado, não uma verdade definitiva.


Respostas e Discussão sobre Mensuração de Evidência

O vídeo final apresenta um exemplo completo de atualização sequencial com hipóteses binárias, mostrando como evidências sucessivas se acumulam e como o posterior de hoje vira o prior de amanhã, caracterizando um processo iterativo de aprendizagem. O exemplo também ilustra por que pessoas com priors diferentes podem chegar a posteriors diferentes diante da mesma evidência, sem violar racionalidade, desde que a atualização seja coerente. O problema é entender o papel do prior e da verossimilhança na mudança de crença, e a mensagem principal é que a inferência bayesiana não elimina subjetividade, mas impõe coerência lógica à forma como crenças devem mudar diante da experiência.


Recursos


Aprendizado e Verossimilhança
Este programa mostra o comportamento da probabilidade à posteriori ao longo de repetições de um experimento, em que o usuário pode controlar quatro quantidades fundamentais: (a) O número de repetições do experimento, (b) A probabilidade à priori, antes do início do experimento, (c) a probabilidade da evidência dado uma hipótese qualquer (ou seja, assumindo que essa hipótese é verdadeira), e (d) a probabilidade da evidência dado uma outra hipótese (ou seja, assumindo que a hipótese em questão é falsa). Esse programa demonstra que: (a) quanto maior for o número de repetições do experimento mais vamos aprender sobre a probabilidade da hipótese, seja aumentando e se tornando cada vez mais plausível, ou diminuindo e se tornando cada vez menos plausível; (b) valor da probabilidade à priori influencia a nossa posição inicial. Assim, se o número de repetições do experimento for pequeno, essa probabilidade à priori terá grande importância. Entretanto, se pudermos repetir o experimento um número grande de vezes, essa probabilidade à priori se torna irrelevante. Se começarmos com uma probabilidade à priori extrema (0.0 ou 1.0), então seremos incapazes de aprender com as evidências, pois a nossa probabilidade à posteriori jamais será diferente da à priori. (c) a relação entre a (i) probabilidade do resultado dado que a hipótese é verdadeira e a (ii) probabilidade do mesmo resultado dado que a hipótese é falsa define como o resultado do experimento influenciará nossa decisão. Se essas probabilidades forem equivalentes, então o experimento não pode nos ajudar a distinguir entre as hipóteses. Ao contrário, quanto mais distantes forem essas probabilidades, mais informativo será o resultado do experimento, permitindo que aprendamos mais rápido; (d) por mais que o experimento seja repitido, a nossa probabilidade à posteriori jamais será extrema (exatamente 0.0 ou 1.0). Ou seja, a inferência Bayesiana não permite certezas absolutas, apesar de que probabilidades muito altas ou baixas são bem próximas disso.



Experimental Mental Original do Bayes
No trabalho original de Thomas Bayes', publicado após sua morte pelo seu amigo Richard Price, há um experimento mental para ilustrar a idéia de probabilidade inversa. Este programa ilustra este experimento mental graficamente. Imagine que uma bola de sinuca é jogada sobre a mesa, mas que você desconhece a posição final onde a bola para. Como é possível estimar a posição onde a bola parou? Que tipo de informação precisamos? É possível calcular probabilides para responder a pergunta? Nosso primeiro passo pode ser dividir a mesa em setores (ou quadrantes), desta forma tornando o problema um pouco mais tratável (discretizado). Para esse exemplo vamos dividir a mesa em dez setores ao longo de seu comprimento (dimensão maior), e ignorar a largura. Inicialmente, se nenhuma informação adicional tiver sido fornecida, o nosso melhor palpite é propor uma probabilidade igual para qualquer posição (setor) possível para a bola, uma vez que, assumindo que o arremesso foi justo, a bola pode ter parado em qualquer lugar ao longo do comprimento da mesa. Ou seja, a nossa probabilidade à priori é uniforme e não informativa entre os setores. Sem informação adicional esse é o melhor e mais razoável que nós temos. Para melhorar nosso palpite lhe oferecem um experimento. Você pode jogar novas bolas de olhos vendados, mas você só será informado se uma nova bola estacionará à esquerda, à direita, ou no mesmo setor (quadrante) da primeira bola. Por incrível que pareça, usando o teorema de Bayes esse experimento é suficiente para calcularmos probabilidades para a posição da primeira bola! Considerando o resultado de cada experimento (posição da nova bola em relação à primeira), podemos calcular uma verossimilhança (likelihood) para cada setor da mesa. Então, considerando que cada setor da mesa é uma hipótese para a posição da primeira bola (H), a posição relativa (ex. à esquerda, à direita)da novas bolas são dados. Por exemplo, se nos disserem que a nova bola parou à esquerda da primeira, então sabemos que a primeira bola não parou no setor mais à esquerda da mesa. Além disso, o setor mais à direita da mesa se torna o mais suspeito para o destino da primeira bola, pois há nove setores à esquerda dele. Ou seja, podemos transformar o resultado da jogada de cada nova bola em L(x|H), onde x é a posição relativa, H é cada setor, e L é a função de verossimilhança (likelihood) que nos informa a probablidade de uma nova ter aquela posição relativa em relação à primeira bola, para cada setor. Como tudo na vida, quanto mais informações tivermos, mais podemos aprender e confiar na nossa conclusão, desde que possamos ser racional. E, de fato, ser Bayesiano é processar informação de maneira racional. Então, com a jogada repetida de diversas bolas novas podemos ir acumulando informação sobre a relação com a bola nova em cada setor. E isso é tudo que preciamos para uma inferencia Bayesiana. De posse de verossimilanças (likelihoods) e de priors, podemos aplicar o teorema de Bayes para estimar a probabilidade da primeira bola ter parado em cada setor (H), dado o resultado do experimento (x), ou seja, a probabilidade invertida P(H|x).