远景论坛 - 前沿科技与智慧生态的极客社区 › 首页 ›新闻资讯› 互联网络 › 查看内容

探秘Google reCAPTCHA 项目

2014-7-17 17:47| 发布者: xchtl| 查看: 4805| 评论: 14|来自: tech2ipo

摘要: 我们都遇到过验证码——花花绿绿的图片上写着乱七八糟的文字。多谢图灵测试，因为目前最高级的算法也无法像人类一样阅读排布混乱的内容。每天全世界会输入将近 2 亿个验证码，这相当于 150,000 小时的人力工作。Google reCAPTCHA 项目就机智地把这些数额巨大的人力工作集中起来，并 ...

我们都遇到过验证码——花花绿绿的图片上写着乱七八糟的文字。多谢图灵测试，因为目前最高级的算法也无法像人类一样阅读排布混乱的内容。每天全世界会输入将近 2 亿个验证码，这相当于 150,000 小时的人力工作。Google reCAPTCHA 项目就机智地把这些数额巨大的人力工作集中起来，并将其应用在书籍数字化之中。

为了让信息更容易传播，已经有很多项目致力于实体书籍电子化，即扫描实体书籍的每一页，然后运用 OCR 技术将其转译为文本。转译过程极为重要，因为扫描其实是将书页转化为图片，而图片在小型设备上很难存储，下载需要巨大流量，此外更 bug 的是不支持搜索。但目前的最大问题在于，OCR 技术并不完美。

QQ20140717-5@2x.png

而 reCAPTCHA 项目极大提升了书籍数字化的效率。原理其实非常简单，即将电脑无法识别的单词分割开来，作为验证码放在网上，让用户帮助识别。换句话说，每个无法识别的单词都被放在图片背景上，作为验证码发送给用户。这一点并不难办，因为大多数 OCR 程序在遇到无法准确识别的单词时都会发送提醒，这也帮助确保发送的单词确实属于机器无法识别的范围。

但如果机器无法识别，那要如何辨别用户输入的验证码是否正确？Google 简直是太机智了：每个无法识别的单词都与另一个单词一起打包发送给用户，当然另一个单词的拼写是已知的。用户被要求同时辨认两个单词，如果已知单词的拼写正确，程序就假设另一个单词的拼写也是正确的。系统会将同一个单词发送给多名用户，提交结果中重复率最高的就是正确答案。

据传这一项目每天会帮助辨识近 1 亿个验证码，参与项目的网站包括 Facebook、TickerMaster、Twitter、4chan、CNN、Craigslist，还有 StumbleUpon。

注释：reCAPTCHA 项目最初是由 Luis von Ahn、Ben Maurer、Colin McMillen、David Abraham 和 Manuel Blum 几个人发起的，Google 在 2009 年 9 月 16 日以 2700 万美元的价格收购了这一项目。

路过

雷人

握手

鲜花

鸡蛋

刚表态过的朋友 (86 人)

收藏分享邀请

探秘Google reCAPTCHA 项目

刚表态过的朋友 (86 人)

相关阅读

相关分类