
Tengo varios miles de registros almacenados en un archivo de texto que necesito ingresar en una página web (basada en JavaScript), un registro a la vez. Después de ingresar cada registro, necesito analizar los datos devueltos y luego volver a la página inicial. El problema es que la página web usa un Captcha como parte de su secuencia de inicio de sesión (solo un Captcha, luego permaneceré conectado hasta que se agote el tiempo debido a inactividad). Obviamente me gustaría poder escribir esto, pero debido al Captcha, parece que usar Lynx está fuera de discusión. Es algo que haré varias veces al año, por lo que, en mi opinión, el esfuerzo inicial valdría la pena.
¿Alguna forma de hacer esto? Me siento muy cómodo con Perl y los scripts de shell, pero estaría dispuesto a aprender otro lenguaje de script si fuera necesario. La plataforma preferida es Windows, pero, por supuesto, puedo ejecutarla en Cygwin o Linux para Windows (y, si es absolutamente necesario, puedo buscar una Mac para usarla en su lugar).
Respuesta1
No existe una forma confiable de superar CAPTCHA sin humanos de manera consistente sin la presencia de un OCR. Parece que estás intentando hacer esto por pura casualidad. Piense en esto desde un punto de vista probabilístico y pronto se dará cuenta de que son probabilidades casi imposibles, y aún peores de replicar de manera consistente.
Si intenta hacer esto solo una vez, permanezca conectado y simule la actividad humana, entonces esto es realista. mirar en la bibliotecaSelenioque se puede utilizar con varios lenguajes de programación. Creo que puedes hacerlo en Perl, pero probablemente sería más fácil hacerlo en Python.