我们都遇到过验证码——花花绿绿的图片上写着乱七八糟的文字。多谢图灵测试,因为目前最高级的算法也无法像人类一样阅读排布混乱的内容。每天全世界会输入将近 2 亿个验证码,这相当于 150,000 小时的人力工作。Google reCAPTCHA 项目就机智地把这些数额巨大的人力工作集中起来,并将其应用在书籍数字化之中。 为了让信息更容易传播,已经有很多项目致力于实体书籍电子化,即扫描实体书籍的每一页,然后运用 OCR 技术将其转译为文本。转译过程极为重要,因为扫描其实是将书页转化为图片,而图片在小型设备上很难存储,下载需要巨大流量,此外更 bug 的是不支持搜索。但目前的最大问题在于,OCR 技术并不完美。 而 reCAPTCHA 项目极大提升了书籍数字化的效率。原理其实非常简单,即将电脑无法识别的单词分割开来,作为验证码放在网上,让用户帮助识别。换句话说,每个无法识别的单词都被放在图片背景上,作为验证码发送给用户。这一点并不难办,因为大多数 OCR 程序在遇到无法准确识别的单词时都会发送提醒,这也帮助确保发送的单词确实属于机器无法识别的范围。 但如果机器无法识别,那要如何辨别用户输入的验证码是否正确?Google 简直是太机智了:每个无法识别的单词都与另一个单词一起打包发送给用户,当然另一个单词的拼写是已知的。用户被要求同时辨认两个单词,如果已知单词的拼写正确,程序就假设另一个单词的拼写也是正确的。系统会将同一个单词发送给多名用户,提交结果中重复率最高的就是正确答案。 据传这一项目每天会帮助辨识近 1 亿个验证码,参与项目的网站包括 Facebook、TickerMaster、Twitter、4chan、CNN、Craigslist,还有 StumbleUpon。 注释:reCAPTCHA 项目最初是由 Luis von Ahn、Ben Maurer、Colin McMillen、David Abraham 和 Manuel Blum 几个人发起的,Google 在 2009 年 9 月 16 日以 2700 万美元的价格收购了这一项目。 |