Provavelmente azul

Táxi azul é visto em acidente

Nota aos Profissionais da Educação: Este texto é um excelente recurso didático para a abordagem prática de probabilidade e estatística bayesiana.
- Time editorial

Tempo de leitura: 10 minutos 

Imagine o seguinte cenário, extraído do livro “Rápido e Devagar” do Prêmio Nobel Daniel Kahneman:

“Um táxi se envolveu em um acidente de atropelamento e fuga à noite.
Duas companhias de táxi, a Verde e a Azul, operam na cidade. Você recebe os seguintes dados:

- 85% dos táxis na cidade são Verdes e 15% são Azuis.
- Uma testemunha identificou o táxi como Azul. O tribunal testou a confiabilidade da testemunha nas circunstâncias que existiam na noite do acidente e concluiu que a testemunha identificou corretamente cada uma das duas cores 80% das vezes e falhou 20% das vezes.

Qual é a probabilidade de que o táxi envolvido no acidente fosse Azul em vez de Verde?”

Antes de continuar a leitura, pause por um momento, siga sua intuição, pense e anote a sua resposta.

O texto fornece duas informações importantes: a proporção dos táxis e o depoimento (sujeito a erro) de uma testemunha.

A proporção dos táxis é chamada de taxa base e significa que, se não houvesse qualquer outra informação, esse seria o número que nos basearíamos para estimar a probabilidade de um acidente envolvendo um táxi Azul.

No entanto, a identificação da testemunha muda esse cenário, e a probabilidade deve ser ajustada de acordo.

Você ainda tem a sua resposta anotada?

Spoiler: a resposta para o problema é 41%. Mas é interessante notar que, quando um problema desse tipo é colocado em prática, as pessoas desconsideram a taxa basal e confiam apenas na testemunha, dizendo que a probabilidade de o táxi Azul estar envolvido é 80%.

Vamos ver como chegar na resposta correta.

Primeiro estabelecemos dois eventos:

  • A: representa o evento de o táxi ser Azul.

  • B: representa o evento de a testemunha dizer que o táxi é Azul.

Se você leu a edição #22, vai se lembrar que discutimos eventos independentes, aqueles onde o resultado de um não altera o resultado do outro.

Mas esse não é o caso dos eventos acima: se uma testemunha identifica um táxi como Azul, a probabilidade de o táxi ser Azul não é mais 15%, mas deve ser maior para refletir essa evidência.

Nesse caso, usamos a seguinte notação: P(A|B), que é chamada de probabilidade condicional, já que indica a probabilidade de A ocorrer sob a condição de que B já ocorreu. Ou seja, a probabilidade de o táxi ser azul (A) dado que a testemunha diz que o táxi é azul (B).

Para dois eventos independentes E1 e E2 a probabilidade de E1 ocorrer dado que E2 ocorreu continua sendo a probabilidade E1, ou seja, P(E1|E2)=E1.

Na edição #22, também falamos de eventos mutuamente exclusivos, que são eventos que não podem ocorrer simultaneamente, ou seja, a probabilidade de dois eventos E1 e E2 ocorrerem simultaneamente é nula, ou seja, P(E1E2)=0.

Mais uma vez esse não é o caso com os eventos A e B, visto que uma testemunha pode identificar um táxi como Azul, e o táxi pode simultaneamente ser Azul.

Mas como podemos resolver o problema proposto? Utilizando um teorema da matemática chamado de Teorema de Bayes que nos permite atualizar probabilidades à medida que obtemos novas evidências.

A formulação matemática do teorema é a seguinte:

No nosso caso, P(A) é a probabilidade de o táxi ser azul quando não temos nenhuma evidência, ou seja, a taxa base de 15%; P(B|A) é a probabilidade de a testemunha identificar o táxi como azul, dado que o táxi é azul, o que no nosso caso é 80%, como apresentado no enunciado. Por último, a probabilidade P(B) no denominador é a de a testemunha identificar o táxi como azul. 

Note que o teorema introduz um fator de ajustamento para considerar as novas evidências. Se os eventos A e B fossem independentes o fato de A ocorrer não influenciaria B e a probabilidade condicional P(B|A) seria igual a P(B), como vimos na primeira figura, e o fator de ajustamento seria igual a 1, fazendo com que P(A|B) =P(A).

Mas se o evento B influencia A, saber que um evento ocorreu deve trazer evidências adicionais aos cálculos e o o teorema de Bayes pode ajustar a probabilidade base usando essas novas informações.

Como conhecemos o P(B|A) e P(A), a única probabilidade a ser determinada é P(B). Essa última, inclui o caso em que a testemunha disse que o táxi é Azul e ele é realmente Azul, assim como o caso em que a testemunha disse que o táxi é Azul, mas ele é, na verdade, Verde. 

Podemos calcular essa probabilidade considerando dois eventos mutuamente exclusivos: o evento em que o táxi é Azul (A) e o evento em que o táxi é Verde (que vamos chamar de evento Ã) (no nosso caso, um táxi é Azul ou é Verde, não podendo ser ambos ao mesmo tempo). 

Existem duas situações em que o evento B ocorre:

1. A testemunha identificar o táxi como azul e o táxi de fato ser azul (B∩A).
2. A testemunha identificar o táxi como azul e o táxi ser verde (B∩Ã).

B não existe se o táxi não for verde ou azul o que faz a probabilidade do evento B ocorrer ser a “soma” das áreas em cinza na imagem.

A probabilidade do primeiro caso ocorrer é a probabilidade de a testemunha dizer que o táxi é azul, dado que o táxi era azul, ou seja, 80%, multiplicado pela probabilidade de o táxi ser azul, ou seja, 15%. 

Aqui a multiplicação da probabilidade condicional (P(B|A)) pela probabilidade de o carro ser Azul (P(B)) pondera a probabilidade. Por exemplo, se tivéssemos ainda mais carros Azuis, colocaríamos mais peso na condição em que a testemunha diz que o carro é Azul, dado que ele é Azul.

A probabilidade de a testemunha dizer que o táxi é Azul, dado que o táxi era Verde é equivalente a proporção de vezes que a testemunha falhou em identificar a cor do taxi, ou seja 20%. Multiplicando esse valor pela probabilidade de o táxi ser Verde, temos a área da segunda figura que representa a interseção dos eventos B e Ã.

Como A e à são mutuamente exclusivos, podemos somar as duas probabilidades calculadas anteriormente o que resulta na probabilidade da testemunha dizer que o carro é Azul (P(B)).

A probabilidade de o carro ser Azul, dado que a testemunha identificou o táxi como Azul é então:

Note que, sem a informação da testemunha, a chance de um táxi ser Azul seria 15%. A adição da evidência da testemunha aumenta as chances de o táxi ser Azul para 41%, mas ainda assim é muito menor do que os 80% que muitas pessoas dariam ao peso da evidência sem considerar a totalidade do problema.

Por que isso é importante? Porque uma probabilidade de 80% e uma probabilidade de 41% em um ambiente jurídico pode significar a diferença entre sentenciar ou não uma empresa ou até mesmo uma pessoa. E isso pode mudar o curso de vidas. E isso, sim, é importante.

CITAÇÃO DE HOJE

SUGESTÃO DO NOSSO TIME

Se você deseja aprofundar seus conhecimentos em estatística e entender como as informações podem ser manipuladas, vai adorar a leitura do livro 'Como Mentir com Estatística', de Darrell Huff. O livro revela, de forma clara e bem-humorada, como os dados podem ser apresentados de maneiras enganosas, fornecendo insights valiosos para quem deseja interpretar estatísticas com mais senso crítico.

Amazon | Reprodução

Por hoje é só, obrigado pelo seu tempo, e até a próxima!