searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

无需搜索算法的国际象棋引擎

2024-06-24 09:35:36
9
0

在最近的几年里,机器学习取得了许多突破,特别是因为大规模训练和注意力机制的应用。这个技术让人工智能在各种领域都大有作为,但国际象棋一直是个例外,因为它通常需要复杂的算法和启发式方法,尤其是搜索算法。那么,如果我们只用监督学习,不用那些复杂的搜索算法,能不能也做出一个很强的国际象棋模型呢?

为了回答这个问题,谷歌DeepMind的研究团队做了一个有趣的尝试。他们训练了一个拥有2.7亿参数的transformer模型,用了1000万盘Lichess网站上的棋局数据进行训练。这些棋局是由各种水平的玩家对弈生成的,研究人员用强大的Stockfish 16引擎对每个棋盘进行标注,生成了大约153亿个数据点。

这个模型跟传统的国际象棋引擎很不一样。它不依赖复杂的启发式方法或者显式搜索算法,而是通过预测棋盘上的动作价值来决定下一步怎么走。实验结果非常令人惊讶:这个模型在Lichess网站上的快棋比赛中达到了2895的Elo评分,相当于特级大师的水平。而且,它还解决了许多高难度的国际象棋难题,表现非常出色。

更重要的是,这个模型在没有使用蒙特卡罗树搜索(MCTS)的情况下,表现优于AlphaZero的策略和价值网络以及GPT-3.5-turbo-instruct。这意味着,通过大规模的监督学习,可以训练出一个不需要复杂搜索的特级大师级别的国际象棋引擎。

这项研究的亮点有以下几点:

  1. 模型设计与训练:研究团队使用了一种标准的注意力机制架构,通过监督学习训练了一个能够预测棋盘动作价值的模型。大规模的数据集和强大的Stockfish 16引擎标注使得这个模型在棋盘状态和动作价值预测上表现非常优秀。

  2. 出色的棋局表现:这个模型在Lichess网站上的快棋比赛中达到了2895的Elo评分,展示了特级大师级别的棋艺。而且,它还能解决许多复杂的国际象棋难题,进一步证明了它的强大。

  3. 对比实验:大量的对比实验表明,这个模型在没有使用显式搜索算法的情况下,表现优于AlphaZero的策略和价值网络以及GPT-3.5-turbo-instruct。这一结果表明,大规模的监督学习在国际象棋领域同样可以大展身手。

  4. 规模研究:通过对模型和数据集规模的系统研究,研究团队发现,只有在规模足够大的情况下,模型才能展现出强大的棋局性能。这进一步验证了大规模训练的重要性。

总的来说,这项研究展示了通过大规模监督学习训练的变压器模型在国际象棋领域的巨大潜力。与传统依赖显式搜索的国际象棋引擎不同,这个模型不仅在棋局表现上达到了特级大师水平,还证明了在没有显式搜索的情况下,仍然能够实现强大的棋局性能。未来,随着机器学习技术的不断进步,我们有理由期待更多类似的突破性成果出现在国际象棋以及其他复杂的认知领域。

0条评论
作者已关闭评论
范****铭
2文章数
0粉丝数
范****铭
2 文章 | 0 粉丝
范****铭
2文章数
0粉丝数
范****铭
2 文章 | 0 粉丝
原创

无需搜索算法的国际象棋引擎

2024-06-24 09:35:36
9
0

在最近的几年里,机器学习取得了许多突破,特别是因为大规模训练和注意力机制的应用。这个技术让人工智能在各种领域都大有作为,但国际象棋一直是个例外,因为它通常需要复杂的算法和启发式方法,尤其是搜索算法。那么,如果我们只用监督学习,不用那些复杂的搜索算法,能不能也做出一个很强的国际象棋模型呢?

为了回答这个问题,谷歌DeepMind的研究团队做了一个有趣的尝试。他们训练了一个拥有2.7亿参数的transformer模型,用了1000万盘Lichess网站上的棋局数据进行训练。这些棋局是由各种水平的玩家对弈生成的,研究人员用强大的Stockfish 16引擎对每个棋盘进行标注,生成了大约153亿个数据点。

这个模型跟传统的国际象棋引擎很不一样。它不依赖复杂的启发式方法或者显式搜索算法,而是通过预测棋盘上的动作价值来决定下一步怎么走。实验结果非常令人惊讶:这个模型在Lichess网站上的快棋比赛中达到了2895的Elo评分,相当于特级大师的水平。而且,它还解决了许多高难度的国际象棋难题,表现非常出色。

更重要的是,这个模型在没有使用蒙特卡罗树搜索(MCTS)的情况下,表现优于AlphaZero的策略和价值网络以及GPT-3.5-turbo-instruct。这意味着,通过大规模的监督学习,可以训练出一个不需要复杂搜索的特级大师级别的国际象棋引擎。

这项研究的亮点有以下几点:

  1. 模型设计与训练:研究团队使用了一种标准的注意力机制架构,通过监督学习训练了一个能够预测棋盘动作价值的模型。大规模的数据集和强大的Stockfish 16引擎标注使得这个模型在棋盘状态和动作价值预测上表现非常优秀。

  2. 出色的棋局表现:这个模型在Lichess网站上的快棋比赛中达到了2895的Elo评分,展示了特级大师级别的棋艺。而且,它还能解决许多复杂的国际象棋难题,进一步证明了它的强大。

  3. 对比实验:大量的对比实验表明,这个模型在没有使用显式搜索算法的情况下,表现优于AlphaZero的策略和价值网络以及GPT-3.5-turbo-instruct。这一结果表明,大规模的监督学习在国际象棋领域同样可以大展身手。

  4. 规模研究:通过对模型和数据集规模的系统研究,研究团队发现,只有在规模足够大的情况下,模型才能展现出强大的棋局性能。这进一步验证了大规模训练的重要性。

总的来说,这项研究展示了通过大规模监督学习训练的变压器模型在国际象棋领域的巨大潜力。与传统依赖显式搜索的国际象棋引擎不同,这个模型不仅在棋局表现上达到了特级大师水平,还证明了在没有显式搜索的情况下,仍然能够实现强大的棋局性能。未来,随着机器学习技术的不断进步,我们有理由期待更多类似的突破性成果出现在国际象棋以及其他复杂的认知领域。

文章来自个人专栏
文章 | 订阅
0条评论
作者已关闭评论
作者已关闭评论
0
0