해킹 요점 (일명 '남성 홍수')
다음 전략은 reCAPTCHA 구현에서 결함을 찾을 수 있는지 확인하는 것이 었습니다. 그들이 reCAPTCHA에 대해 발견 한 한 가지는 디코딩을 위해 항상 두 단어를 사용자에게 제공한다는 것입니다. 한 단어는 reCAPTCHA 시스템에 의해 알려진 제어 단어이고 다른 단어는 알 수없는 단어입니다 (reCAPTCHA는 인간을 사용하여 OCR 오류를 수정합니다). Wikipedia는 그 과정을 다음과 같이 설명합니다.“스캔 한 텍스트는 두 개의 서로 다른 광학 문자 인식 프로그램으로 분석됩니다. 프로그램이 동의하지 않는 경우 의심스러운 단어는 보안 문자로 변환됩니다. 단어는 이미 알려진 제어 단어와 함께 표시되며 사람이 표시합니다. 인간 판사에 의해 지속적으로 단일 레이블이 부여 된 단어는 제어 단어로 재활용됩니다.” 익명이 깨달은 것은 그들이 항상 같은 단어로 알 수없는 스캔 된 텍스트에 레이블을 붙였다면, 그리고 수천 번이나 수천 번을했다면 결국 알 수없는 단어의 상당 부분이 그들의 단어로 잘못 레이블링 될 것입니다. 그들이해야 할 일은 보안 문자에있는 두 단어를보고 '쉬운'하나에 대한 적절한 레이블을 입력 한 것입니다 (아마도 두 광학 스캐너가 동의 할 것입니다). 어려운 것. 그들이 충분히 자주 그렇게했다면, 곧 이미지의 상당 부분이 '남근'으로 표시되고 자동 투표 기능이 회복 될 것입니다 (익명에서 손실되지 않은 부작용은 앞으로 몇 년 동안의 개념이었습니다) 텍스트 전체에 'penis'라는 단어가 무작위로 삽입 된 많은 디지털 책이있을 것입니다.
reCAPTCHA 최적화
'남성'이라는 단어를 텍스트에 뿌린다는 개념만큼이나, 익명의 팀은 시계가 똑딱 거리고 있다는 것을 알고 있었고, 메시지를 복원하려는 경우 자동 투표자가 온라인으로 돌아올 때까지 기다릴 시간이 없었습니다. 그들은 여러 번 수동으로 투표해야했습니다. 그래서 그들은 가능한 빨리 보안 문자를 입력 할 수 있어야했습니다. 그들은 어떤 reCAPTCHA 단어를 건너 뛸 수 있는지 신속하게 결정할 수있는 일련의 지침을 개발했습니다. 예를 들면 다음과 같습니다.
실제 단어 1 개, 가짜 1 단어 2 개가 제공됩니다.
의 경우 [REAL FAKE]
또는 [FAKE REAL]
, 당신은 입력 할 수 REAL
있으며 허용해야한다.
그것의 경우 [LOOKSREAL LOOKSREAL]
나 [LOOKSFAKE LOOKSFAKE]
,이 두 단어 단지 형식에 불과 빨리 일반적입니다. 어느 것이 진짜인지 결정하는 소중한 시간을 낭비하지 마십시오.
모양과 단어 유형을 모두 사용하여 가짜 단어를 식별하십시오. 그들 중 하나에 만 의존하지 마십시오.
전체 규칙 세트가 여기 있습니다 : fake captcha .