探秘Google reCAPTCHA 项目

2014-7-17 17:47| 发布者: xchtl| 查看: 4805| 评论: 14|来自: tech2ipo

摘要: 我们都遇到过验证码——花花绿绿的图片上写着乱七八糟的文字。多谢图灵测试,因为目前最高级的算法也无法像人类一样阅读排布混乱的内容。每天全世界会输入将近 2 亿个验证码,这相当于 150,000 小时的人力工作。Google reCAPTCHA 项目就机智地把这些数额巨大的人力工作集中起来,并 ...

我们都遇到过验证码——花花绿绿的图片上写着乱七八糟的文字。多谢图灵测试,因为目前最高级的算法也无法像人类一样阅读排布混乱的内容。每天全世界会输入将近 2 亿个验证码,这相当于 150,000 小时的人力工作。Google reCAPTCHA 项目就机智地把这些数额巨大的人力工作集中起来,并将其应用在书籍数字化之中。

为了让信息更容易传播,已经有很多项目致力于实体书籍电子化,即扫描实体书籍的每一页,然后运用 OCR 技术将其转译为文本。转译过程极为重要,因为扫描其实是将书页转化为图片,而图片在小型设备上很难存储,下载需要巨大流量,此外更 bug 的是不支持搜索。但目前的最大问题在于,OCR 技术并不完美。

而 reCAPTCHA 项目极大提升了书籍数字化的效率。原理其实非常简单,即将电脑无法识别的单词分割开来,作为验证码放在网上,让用户帮助识别。换句话说,每个无法识别的单词都被放在图片背景上,作为验证码发送给用户。这一点并不难办,因为大多数 OCR 程序在遇到无法准确识别的单词时都会发送提醒,这也帮助确保发送的单词确实属于机器无法识别的范围。

但如果机器无法识别,那要如何辨别用户输入的验证码是否正确?Google 简直是太机智了:每个无法识别的单词都与另一个单词一起打包发送给用户,当然另一个单词的拼写是已知的。用户被要求同时辨认两个单词,如果已知单词的拼写正确,程序就假设另一个单词的拼写也是正确的。系统会将同一个单词发送给多名用户,提交结果中重复率最高的就是正确答案。

据传这一项目每天会帮助辨识近 1 亿个验证码,参与项目的网站包括 Facebook、TickerMaster、Twitter、4chan、CNN、Craigslist,还有 StumbleUpon。

注释:reCAPTCHA 项目最初是由 Luis von Ahn、Ben Maurer、Colin McMillen、David Abraham 和 Manuel Blum 几个人发起的,Google 在 2009 年 9 月 16 日以 2700 万美元的价格收购了这一项目。

19

路过
2

雷人
3

握手
58

鲜花
4

鸡蛋

刚表态过的朋友 (86 人)

相关阅读

Empty Ads
今日最多关注
    今日最多评论

      小黑屋手机版联系我们

      Copyright © 2005-2025 PCBeta. All rights reserved.

      Powered by Discuz!  CDN加速及安全服务由「快御」提供

      请勿发布违反中华人民共和国法律法规的言论,会员观点不代表远景论坛官方立场。

      远景在线 ( 苏ICP备17027154号 )|远景论坛 |Win11论坛 |Win10论坛 |Win8论坛 |Win7论坛 |WP论坛 |Office论坛

      GMT+8, 2025-4-26 16:57

      返回顶部