구글의 reCAPTCHA에 숨은 진실


가입을 할 경우 Robot을 막기위해 많이 사용하는 기능이 바로 reCAPTCHA이다.  


reCAPTCHA는 가입시 Robot이 인식하지 못하고 인간이 인식할 수 있는 단어를 이미지로 제시하면 가입을 원하는 사람이 이를 맞췄을 때만 가입이 성공된다.  이 API가 하루 2억 회나 사용된다고 한다. 


그런데 놀라운 것은 이 기능이 단지 가입시 Robot을 막는 용도가 아니라 OCR(광학 문자 인식 , Optical Character Recognition) 인식시 판단에 실패한 단어를 reCAPTCHA 통해 제공한다는 것이다. 


다시 말해,  구글이 현재 진행하고 있는  OCR 디지탈화의 과정에서 실패한 단어들을 일일이 사람이 수정하여 정확도를 높이는 것이 아니라 , reCAPTCHA API를 통해 매일 2억 건 이상씩 교정하면서 그 정확도를 높이고 있다는 것이다. 


비단 OCR 뿐만 아니라 번역  , 검색 등 다양한 서비스의 품질 개선을 위해 이 데이타가 사용될 것이다. 빅데이타  아니 데이타는 결국 어떻게 사용할 것인가를 판단하는 사람의 능력에 따라 쓰레기가 될 수 도 있고 가치있는 자원이 되기도 한다. 

 


Posted by 박재현
,