É um gráfico, exigindo, portanto, OCR volumoso que falta à maioria dos bots (aparentemente)? Mesmo assim, é um gráfico fixo e realmente não exigiria OCR, apenas uma simples correspondência de padrões em uma biblioteca de um item. Só não entendo como isso representa um obstáculo intransponível para frustrar os bots.
Responder1
O captcha monitora o comportamento do mouse. Embora seja fácil para um bot clicar em um botão em um formulário, é difícil simular o movimento errático de um mouse movido por um humano.
No entanto, não é impossível:https://www.youtube.com/watch?v=fsF7enQY8uI
Responder2
O texto no captcha não será reconhecido pelo OCR. OCR usou regras padrão sobre o que o texto deve reconhecer.
O texto adequado geralmente é distorcido, não paralelo ou executado em linhas retas paralelas; para o horizonte e contêm lixo aleatório que o OCR não consegue lidar.
ou seja, falha nas regras usuais de como o texto deve ser.
Com o Deep Learning se tornando mais comum, é apenas uma questão de tempo até que os Captchas não funcionem.
Existem muitos captchas diferentes, alguns exigem a escolha de um número de gráficos que tenham um tema (por exemplo, que são partes de um sinal que podem mais tarde ser refinados e adicionados à biblioteca do método abaixo, uma vez que todo o sinal esteja montado e o texto gráfico extraído pelo mesmo método) que um computador não será capaz de discernir. Com esse tipo, você sempre será solicitado a identificar um cenário conhecido e, geralmente, um cenário desconhecido para adição à biblioteca de dados conhecidos, uma vez recebidas respostas idênticas suficientes.
As imagens de uso mais comum de 2 maneiras:
1
Uma única imagem distorcida aleatoriamente gerada a partir de uma palavra e depois lixo extra adicionado para confundir o OCR. É como "salgar" uma lista de senhas adicionando uma palavra indesejada "aleatória" para impedir um ataque de arco-íris.
2
Outra forma é usar fotos (geralmente de palavras) de algo que as pessoas tiveram que decidir o que é porque a imagem é muito complexa para ser reconhecida automaticamente. Geralmente está fora dos parâmetros de programação do computador que define o texto (ou um sinal ou qualquer outra coisa) e geralmente é cercado por um ambiente aleatório.
Isso requer uma grande biblioteca de fotos com "texto" conhecido ou outros parâmetros, como os que fazem parte de uma placa, etc.
Nota lateral:
A biblioteca para o segundo método é aumentada fornecendo 2 imagens que os usuários tentam identificar corretamente.
1 imagem é conhecida e outra desconhecida.
Resolver corretamente o conhecido prova que você não é um robô.
Um número suficiente de pessoas combinando/respondendo ao desconhecido com a mesma resposta significa que agora um é conhecido e pode ser adicionado à biblioteca conhecida.
É assim que o Google Maps identifica o que realmente são placas de nomes de ruas/locais (e mais tarde o texto que elas contêm) e os textos do projeto Gutenberg que falharam no OCR foram corrigidos.