구글의 reCAPTCHA에 숨은 진실
가입을 할 경우 Robot을 막기위해 많이 사용하는 기능이 바로 reCAPTCHA이다.
reCAPTCHA는 가입시 Robot이 인식하지 못하고 인간이 인식할 수 있는 단어를 이미지로 제시하면 가입을 원하는 사람이 이를 맞췄을 때만 가입이 성공된다. 이 API가 하루 2억 회나 사용된다고 한다.
그런데 놀라운 것은 이 기능이 단지 가입시 Robot을 막는 용도가 아니라 OCR(광학 문자 인식 , Optical Character Recognition) 인식시 판단에 실패한 단어를 reCAPTCHA 통해 제공한다는 것이다.
다시 말해, 구글이 현재 진행하고 있는 OCR 디지탈화의 과정에서 실패한 단어들을 일일이 사람이 수정하여 정확도를 높이는 것이 아니라 , reCAPTCHA API를 통해 매일 2억 건 이상씩 교정하면서 그 정확도를 높이고 있다는 것이다.
비단 OCR 뿐만 아니라 번역 , 검색 등 다양한 서비스의 품질 개선을 위해 이 데이타가 사용될 것이다. 빅데이타 아니 데이타는 결국 어떻게 사용할 것인가를 판단하는 사람의 능력에 따라 쓰레기가 될 수 도 있고 가치있는 자원이 되기도 한다.
'BigData & IoT > Service' 카테고리의 다른 글
가격 비교 쇼핑에서 빅데이타 기반 예측 쇼핑 서비스로!! (0) | 2013.05.04 |
---|