象棋吧 关注:282,399贴子:6,243,738
  • 2回复贴,共1

象棋引擎慢棋等级分测试报告

取消只看楼主收藏回复

先说一下为什么我要做这个测试。
现在网上比较容易看到的象棋引擎排名天梯,采用规则是非平衡开局(等于一方开局故意亏)+超快棋规则,与正常对局环境相差甚远。
而且采用的是ordo计分方式,与传统体育(如国际象棋、围棋、象棋)采用的公式是完全不同的。
所以网上有些人说人类等级分2700、2800,然后这个软件3600那个软件3700,其实是不对的。
所以我就好奇如果采用更接近人类实战的环境,各象棋引擎的真实表现如何,等级分是否仍然像网上那样?
测试软件采用鲨鱼象棋的象棋联赛功能,禁开局库,用时采用的是3分钟+5秒。
以下引擎除皮卡鱼外,其余均来自某象棋软件群。所有引擎分先对战25轮共50场。

经测试,名手326仅支持6线程,南澳仅支持2线程,其余引擎支持12线程,名手其实还好,但南澳在这方面确实吃亏,但这也是引擎优化的一部分。
还有就是网上常以名手326(2850分)为基准,但我感觉旋风6.2的棋力讨论更广泛,可能更适合作为基准引擎。
至于旋风6.2是否有2600,欢迎讨论。
本次测试结果与主流象棋引擎天梯图对比后,可以发现:
1、代际优势明显体现:
即使是最早期的皮卡鱼220713版本,也领先传统引擎400分以上
南澳引擎虽然仅支持2线程,但仍领先12线程的旋风6.2近200分。
2、象棋引擎发展接近极限:
在慢棋环境下,引擎进步空间已明显缩小。
本身我参考象棋引擎天梯图,特意选取了4个预估测试分差会接近的皮卡鱼版本,结果前三个版本确实保持约100分的差距,但到了皮卡鱼250110对221226已经无法保持100分的领先优势。
最新版皮卡鱼250110对221226仅取得1胜49平的成绩,但他们在虐菜上是有明显差别的,59分的分差主要依靠对其他软件的表现。
我对整体测试结果还是满意的,最大遗憾是没有一个顶级的传统引擎软件(20年的旋风或者小虫)可以进行测试。


IP属地:广东1楼2025-03-28 13:55回复

    至于基准如何确定。
    初期的时候,我首先查看了当年关于象棋引擎实力的讨论。
    当年关于旋风6.2和小虫610K棋力的讨论还是有一些的,但关于名手326的实力如何,应该是没有经过什么讨论的,所以我认为旋风6.2和小虫610K作为基准,比名手326更合适。
    后来,在测试过程中,我也做了验证。
    旋风象棋官网,声称旋风三代=2700分=人类冠军,旋风六代=2970分,同时旋风四代“精湛的棋艺令职业棋手望而生畏,这标志着人类和电脑的对抗中电脑已处于绝对优势”。
    平均来看旋风四代可能在2790分,考虑到误差,夸大宣传,人类比当年实力进步等各种可能的因素,现在旋风四代=2774分,那么旋风6.2=2600分的基准,我大致是可以接受的。
    另一个是象棋巫师,象棋巫师官网声称,他们最强的引擎,比免费的象眼引擎要高400分以上(也就是这里的2534分以上),在高性能4核电脑上有望达到2600分的水平。考虑到当年高性能4核在当今不值一提,象眼单线程非常依赖单核性能强的CPU,这个结果我大致也能接受。
    所以我认为旋风6.2=2600分,比326=2850分更能让我接受,可能会稍微低了一点但不会很多,而且要考虑人类棋手在这10多年进步的可能性。


    IP属地:广东6楼2025-04-26 08:58
    收起回复
      2026-04-25 02:02:28
      广告
      不感兴趣
      开通SVIP免广告

      除了增加了一些软件和以610K为2700为基准,主要有改动。
      1、剔除了500分以上软件相互间的对战成绩(因为500分以上软件对战,强方的理论胜率普遍低于实际胜率),所以我这里取了个平衡,何况人类棋手其实也几乎没试过相差超过500分对战的,强软特别是皮卡鱼他们的分数下降了不少。
      2、对2300分以下的软件,因为理论胜率和实际胜率的偏差还是相对比较显著,我尝试参考国际象棋对胜率的研究,调整了一下elo公式,大幅提升了最后三个软件的分数(ufx实力是稳居以前神1的),小幅提升了象眼等引擎的分数。
      象眼引擎有空再跟旧版天天精英验证一下就能更确认这个调整对不对了。


      IP属地:广东11楼2025-05-26 11:09
      收起回复