Jidi Olympics Running

及第平台奥林匹克跑步运动环境启发式算法.

环境介绍

简介

智能体参加奥林匹克运动会。在这个系列的竞赛中, 两个智能体参加跑步竞赛,目标是尽快到达终点。

规则

本游戏有两方,每个智能体模拟成一个有质量的弹性小球。引擎中引入碰撞,智能体可以互相碰撞,也可以碰撞墙壁。智能体有自身有能量,每步使用的能量与力量和位移成正比。如果能量衰减到零,智能体出现疲劳,导致不能加力。有一个智能体到达终点或环境达到最大步数500步环境结束。

  • 观测是一个字典,其中的键为"obs"和"controlled_player_index"。其中"obs"对应的值为一个25x25的二维矩阵。"controlled_player_index"对应的值为控制智能体的编号。
  • 动作空间为长度为n_action_dim的列表,其中n_action_dim=2,每个元素为Gym中的Box类(Box Link),[Box(-100.0, 200.0, (1,), float32), Box(-30.0, 30.0, (1,), float32)]。分别代表施加力量和转向角度。
  • 奖励:如果没到达终点,不得分;如果到达终点,获得100分。

评测说明

该环境在金榜的积分按照最新30局均分进行计算并排名。

平台验证和评测时,在单核CPU上运行用户代码(暂不支持GPU),限制用户每一步返回动作的时间不超过1s,内存不超过500M。

来源

Jidi开源

算法强度

RLChina 智能体挑战赛 - 辛丑年冬赛季第二名

及第平台奥林匹克跑步运动前二名 (截至2022年1月26日)

算法概览

TeamName(绿) vs Baseline(紫)

算法流程

Appendix

链接

Video:

Slides: olympics_running