「我不是機器人」驗證碼如何運作?

「我不是機器人」驗證碼如何運作?

它是一個圖形,因此需要大量的 OCR,而大多數機器人都缺乏(顯然)?即便如此,它是一個固定的圖形,實際上並不需要 OCR,只需與一個專案的庫進行簡單的模式匹配即可。我只是不明白它如何對機器人造成難以克服的障礙。

答案1

驗證碼監視滑鼠行為。雖然機器人點擊表單上的按鈕很容易,但很難模擬人類移動滑鼠的不穩定移動。

然而,這並非不可能:https://www.youtube.com/watch?v=fsF7enQY8uI

答案2

OCR 無法辨識驗證碼遺囑中的文字。 OCR 使用文字的標準規則來識別文字。

適合的文字通常是扭曲的,不是平行的,不是直線平行的;到地平線並包含 OCR 無法處理的隨機垃圾。

即不符合文字外觀的通常規則。

隨著深度學習變得越來越普遍,驗證碼失效只是時間問題。

有許多不同的驗證碼,有些需要選擇多個具有主題的圖形(例如,它們是標誌的一部分,稍後可以進一步細化,然後在組裝整個標誌和文字圖形後將其添加到下面的庫方法中透過相同的方法提取)計算機將無法識別。對於這種類型,您總是被要求識別一個已知場景,並且通常是一個未知場景,一旦收到足夠多的相同答案,就可以將其添加到已知庫中。

最常見的使用影像有兩種方式:

1
從單字產生的單一隨機扭曲圖像,然後添加額外的垃圾來混淆 OCR。就像「加鹽」密碼清單一樣,透過添加「隨機」垃圾字來阻止彩虹攻擊。

2
另一種形式是使用某些事物的照片(通常是文字),人們必須決定它是什麼,因為圖像太複雜而無法自動識別。一般來說,它是定義文字(或符號等)的外部電腦程式設計參數,並且通常被隨機環境包圍。
這需要一個大型照片庫,其中包含已知的“文字”或其他參數,例如標誌等的一部分。

附註:
透過提供使用者嘗試正確識別的 2 個圖像來增加第二種方法的庫。
一張圖像是已知的,另一張圖像是未知的。
正確解決已知問題證明你不是機器人。
有足夠多的人用相同的答案來匹配/回答未知的問題,則意味著該答案現在是已知的,並且可以添加到已知庫中。
這就是 Google 地圖識別實際街道/地名標誌(以及後來它們包含的文本)的方式,並糾正了 OCR 失敗的項目古騰堡文本。

相關內容