AlphaZero完胜三大世界冠军棋类程序:5000个TPU、自学一天

2017-12-7 23:34| 发布者: cjy__05| 查看: 8209| 评论: 11|来自: 搜狐科技

摘要: 新一代AlphaZero在用了强劲的计算资源(5000个一代TPU和64个二代TPU)之后,用不到24小时的时间自我对弈(tabula rasa,也叫白板)强化学习,接连击败了三个世界冠军级的程序(国际象棋、将棋、围棋)。

昨天,DeepMind团队又在arXiv上扔了个重磅炸弹,新一代AlphaZero在用了强劲的计算资源(5000个一代TPU64个二代TPU)之后,用不到24小时的时间自我对弈(tabula rasa,也叫白板)强化学习,接连击败了三个世界冠军级的程序(国际象棋、将棋、围棋)

其中包括上一代冠军围棋程序AlphaGo Zero,这个程序发布还不到两个月,DeepMind就又把自己颠覆了(所以谷歌团队自我进化速度的时间单位都是按天计,可怕)。

AlphaZero的百局战绩:

对弈国际象棋程序Stockfish28胜,72平;

对弈将棋程序 Elmo90胜,2平,8负;

对弈围棋程序AlphaGo Zero60胜,40负。

AlphaZero自我对弈的训练时间:

训练次数 | 训练时间 | 对弈冠军棋类程序

30万,2小时,击败将棋Elmo

11万,4小时,击败国际象棋Stockfish

16.5万,8小时,击败围棋AlphaGo

Go去掉,意味着AlphaZero ,已经是比AlphaGo Zero更通用的程序。

一直以来,尽管众多顶尖的AI的程序都超过了人类世界冠军的水平,但它们都只能在单一的领域执行单一的任务,并不能把这种击败人类的超能力泛化到其他任务中。

DeepMind的野心可不仅仅是在棋类游戏上超越人类,这次他们研究出了这个更通用的程序AlphaZero,将会马上投入到蛋白折叠的应用上。

官方称,他们不久就会发表相关论文,通过检测出蛋白错误折叠来快速诊断神经退行性疾病,比如阿尔茨海默症,帕金森,囊状纤维化。

期待AlphaZero在医疗健康领域的表现。

21

路过
4

雷人
3

握手
44

鲜花
6

鸡蛋

刚表态过的朋友 (78 人)

Empty Ads
今日最多关注
    今日最多评论

      小黑屋手机版联系我们

      Copyright © 2005-2025 PCBeta. All rights reserved.

      Powered by Discuz!  CDN加速及安全服务由「快御」提供

      请勿发布违反中华人民共和国法律法规的言论,会员观点不代表远景论坛官方立场。

      远景在线 ( 苏ICP备17027154号 )|远景论坛 |Win11论坛 |Win10论坛 |Win8论坛 |Win7论坛 |WP论坛 |Office论坛

      GMT+8, 2025-4-30 10:40

      返回顶部