撰文 | 周熠
前言
AlphaGo Zero [1]提出了新的估算搜索评价函数的方法,即基于蒙特卡洛树搜索的强化学习;部分地解决了超大状态空间搜索的难点;成功地应用到围棋领域并完胜了人类;证明了强化学习的有效性,是人工智能史上一座里程碑。其学术贡献中上,学术意义上,社会影响上上。
AlphaGo Zero虽然不是开创性工作,但它所提出的方法很好地结合了已有的两种重要方法。对于类围棋智力游戏,AlphaGo Zero是一个重要的结论性工作。但故事并没有完全结束,因为围棋的必胜策略还没找到。对于能转化成搜索问题的人工智能领域和难点,AlphaGo Zero有很大的用武之地,但这需要研究者们的艰辛努力。而对于人工智能其他领域和难点,或许能触类旁通。但至少目前,AlphaGo Zero并不能提供直接帮助。