¿Es un gráfico, por lo que requiere un OCR voluminoso del que carecen la mayoría de los robots (aparentemente)? Aun así, es un gráfico fijo y realmente no requeriría OCR, solo una simple comparación de patrones con una biblioteca de un elemento. Simplemente no entiendo cómo esto representa un obstáculo insuperable para frustrar a los robots.
Respuesta1
El captcha monitorea el comportamiento del mouse. Si bien es fácil para un robot hacer clic en un botón de un formulario, es difícil simular el movimiento errático de un mouse movido por un humano.
De todos modos, no es imposible:https://www.youtube.com/watch?v=fsF7enQY8uI
Respuesta2
El OCR no habrá reconocido el texto del captcha. OCR utilizó reglas estándar sobre qué es el texto para reconocer texto.
El texto adecuado suele estar distorsionado, no paralelo o trazado en líneas rectas paralelas; al horizonte y contienen basura aleatoria que el OCR no puede manejar.
es decir, no cumplen con las reglas habituales sobre cómo debería verse el texto.
Con el aprendizaje profundo cada vez más común, es solo cuestión de tiempo antes de que los Captchas dejen de funcionar.
Hay muchos captcha diferentes, algunos requieren elegir varios gráficos que tienen un tema (por ejemplo, que son partes de un letrero que luego se pueden refinar aún más y luego agregar al método de biblioteca a continuación una vez que se ensambla todo el letrero y se completa el gráfico de texto). extraído por el mismo método) que una computadora no podrá discernir. Con este tipo siempre se le pide que identifique un escenario conocido y generalmente un escenario desconocido para agregarlo a la biblioteca de conocidos una vez que se reciban suficientes respuestas idénticas.
Lo más común es utilizar imágenes de 2 maneras:
1
Una única imagen distorsionada aleatoriamente generada a partir de una palabra y luego se agrega basura adicional para confundir el OCR. Como "saltar" una lista de contraseñas agregando una palabra basura "aleatoria" para detener un ataque de arcoíris.
2
Otra forma es usar fotografías (generalmente de palabras) de algo que la gente tuvo que decidir qué es porque la imagen es demasiado compleja para reconocerla automáticamente. Generalmente está fuera de los parámetros de programación informática de lo que define el texto (o un signo o lo que sea) y, a menudo, está rodeado de un entorno aleatorio.
Esto requiere una gran biblioteca de fotos con "texto" conocido u otros parámetros como los que forman parte de un letrero, etc.
Nota al margen:
la biblioteca para el segundo método aumenta al proporcionar 2 imágenes que los usuarios intentan identificar correctamente.
1 imagen es conocida y otra desconocida.
Resolver correctamente lo conocido demuestra que no eres un robot.
Un número suficiente de personas que coinciden o responden a lo desconocido con la misma respuesta significa que ahora se conoce uno y se puede agregar a la biblioteca conocida.
Así es como Google Maps identifica lo que en realidad son señales de nombres de calles/lugares (y luego el texto que contienen) y corrige los textos del proyecto Gutenberg que fallaban en el OCR.