OpenDILab幕后的「孤勇者」：AI研究员、电竞冠军和他们的开源梦

2024-04-29 09:47:24 栏目 : 科技资讯大全围观 : 0次

生物智能的出现被定义为“奇迹”和“神秘”。人类的进化，从宇宙尘埃开始，花了数十亿年的时间。很难相信你和我都是从地球上出现的单细胞生物中诞生的，直到今天，人类凭借自己的智慧创造了地球上最繁荣的文明。然而，这一演变还远远没有结束。然而，进化的方向已经悄然改变。下一代文明的方向将由人类创造的“代理人”来探索。那么，人类智能和人工智能的上限到底是什么呢？在过去的几十年里，研究人员已经投入了无数的人类智慧，不断地推动“人工智能”能力的极限。一个新生的智能身体，就像一个新生的婴儿来到这个世界，即使在无知的情况下，也有无限的潜力。人们普遍认为，经过不断的进化，智能体最终将超越人类。这一演变规律反映在OpenDILab平台开源的历史中。它源于算法研究人员的跨境想法，是对最复杂竞争游戏的挑战。在短短两年多的时间里，OpenDILab已经发展成为当今国内决策智能的开源平台，涵盖了学术界和行业规模的算法。这为整个决策智能领域开辟了一个全新的开源社区，该社区正以惊人的速度增长。2022年6月12日，前《星际争霸II》中国冠军IG团队的iA再次登陆Fightfish Live展台。很长一段时间，人们注意到IA开始谈论PPT。两年前，李某退休了。两年后，这位电子竞技男孩以人工智能研究员的身份回来，带来了目前最强大的开源项目《星际争霸II》AI-DI-star。

在一个多小时的现场直播中，iA展示了几款游戏。在所有的演示中，DI-star展示了人类最高大师的水平。令人惊讶的是，DI-star的决策能力非常灵活，能够在复杂的游戏中快速找到最佳策略。例如，在与前世界冠军斯佳丽的战斗中，DI-star使用了人类从未见过的战术--“女王压迫”--并取得了辉煌的胜利。

自DI-star及其背后的决策智能平台OpenDILab开源以来，已经过去了一年。2022年9月，OpenDILab正式升级到1.0版，将幕后团队两年多的努力汇聚在这里。所有的故事都将从2020年的第一个月开始。经过多年的面部识别数据海洋，一群中国算法研究人员和工程师决定走出舒适区，探索未来。例如，从零开始构建星际争霸AI。在当时的AI界眼中，决策AI与计算机视觉等感知AI不同，《星际争霸II》被视为测试AI决策能力的绝佳舞台，也是AI挑战的“珠穆朗玛峰”。《星际争霸》系列已经持续了20多年，这要归功于其丰富的多层次游戏机制。《星际争霸II》的空间复杂度为10的1685次方，远高于围棋的10的170次方。对于AI来说，这是一个非常接近现实世界的虚拟环境。开源社区是支持AI发展的关键因素之一，在项目的早期阶段，DI-star开发人员准备了足够的计算能力和资源，但星际争霸AI的开源生态基本上是空白的，你可以找到DeepMind发表的原创论文。这就像老师教你一个99乘法表，然后突然让你做一个微积分作业。DI-star的开发人员首先考察了现有的强化学习开源平台，但开源算法和工具等基本上都是围绕“小而复杂”的学术研究，并没有像星际争霸这样的大环境开源项目。如果没有轮子，你很快就会制造一个，那就是极客的精神!所以DI-star的开发人员希望利用他们在计算机视觉任务中积累的经验，并在一定程度上重用知识。但很快他们发现，这不仅仅是一个走出舒适区的问题，而是一个进入深海的问题，每天都有新的灵魂考验出现，张量图像变成了高度结构化和动态变化的游戏信息，原本简单而简单的砖神经网络设计，但是，复杂多样的“羊毛包网”已成为一场设计竞赛。易于扩展的分布式训练体系结构变成了一个混合硬件和计算模式的大杂烩系统。通过“一天加速法”不断掌握各种游戏AI设计和分布式系统设计的知识，团队终于创造出了第一个运行良好的分布式训练系统。这也是OpenDILab的第一个原型。但是，还有一件事让我很好奇。那么，人工智能是如何让人们学习玩明星的技能呢？这需要三种技术和力量：深度学习、强化学习和游戏AI。技术可以好好学习，游戏才能真的注定，于是他们找到了一个中国明星传奇：iA周航。因此，决策人工智能中的一些基本零基础人员构成了DI-star项目的第一个基础。“一开始，我们几乎无法训练出正常工作的人工智能。DI-STAR团队感到头痛。在头六个月里，你只能一点一点地解开bug，慢慢地教它们。一旦发现不合理的AI行为，就会从游戏视频开始分析，对特定的游戏操作做出反应，分析游戏引擎内存中的数据片段，一步一步地跟踪路径，最后分析神经网络中特定神经元的激活输出，并将其定位到代码实现和算法设计相关的问题上。只要你能看到它，这个程序就不会欺骗你。像上面这样的循环和循环需要高度集中的详细分析，几乎每天都在DI-star的早期阶段。最后，经过半年的努力，在2020年6月，DI-star终于击败了一台简单的电脑。2020年7月，该团队对DI-star进行了首次人机测试，AI击败了刚刚开始开发《星际争霸II》的研究人员。一旦你走上正轨，探索AI的极限。DI-star团队的目标是在整个系统的各个方面达到极致。我们不仅要重现最强的决策AI问题，还要尝试所有可能性。有些人从神经网络的角度设计了更稳定的大样本优化技术和动态决策空间网络层的高效处理。有些人从强化学习的优化方向出发，仔细控制探索和利用的多方面平衡。有的人从游戏AI领域，到百年集成实时战略游戏，将AI微操作优势培育到新领域，从系统效率上，进行各种资源、存储/网络/计算的权衡。以各种方式优化训练效率。在汇集了整个团队的技术积累后，经过了人类视频模仿学习和自我游戏强化学习两个阶段，共1亿场星际游戏，5周的最后训练时间，2021年6月，DI-star终于击败了DI-star的创造者之一周航本人。随后，周航还带来了来自专业电竞时代的老朋友，包括中国最强的zerg选手雷克斯，拥有6000分的MMR。好消息是，DI-star赢得了冠军，并经历了一年多的艰苦工作。从明星AI到开源平台之路，下一步是什么？极客们又回到了他们的探索中，但要想让技术产生长期的影响，恢复是必不可少的。在当时的马拉松比赛中，研发团队的共识是，他们需要积累足够坚实的技术工具链。DI-star的小规模农业很难复制和推广，因此需要基础设施来让人工智能决策技术真正发光。当然，做一个智能的开源平台和决策生态系统将是我们的新目标。具体来说，在算法方面，我们将研究适合早期探索智能体策略的多样性和可能性的技术，以及适合作为最终超大规模强化学习训练的核心模块的技术。在系统方面，哪些系统设计能提高采样效率，有助于大规模强化学习的优化效率，哪些系统设计能促进快速算法迭代和思想验证？所有这些积累起来的经验和知识都是宝贵的。让AI玩《星际争霸II》并不是我们的最终目标。探索人工智能决策能力的极限，并学会面对更复杂的现实世界，这在年轻时是值得为之奋斗的。基于这种想法，后来成立的OpenDILab团队开始以DI-star为起点，进一步探索开源的方式。当时，决策智能领域的开源生态学与CV和NLP等成熟的研究领域相比相形见绌。然而，在整个决策智能领域，开发人员需要的不仅仅是代码集和工具包。在这个领域，我们需要一个功能齐全、易于使用的开源平台。然而，我们应该认真考虑如何设计一个平台，以满足广泛的研究人员的需求。在这一点上，学术界和工业界的决策智能研究问题进入了团队成员的视野。与感知智能不同，决策问题通常涉及处理多种复杂模式的数据类型，如图像、语音和结构化数据。此外，单卡和多卡，甚至跨集群计算的决策AI计算逻辑也完全不同。最佳算法配置在不同任务之间也有很大差异。对于决策智能来说，这些问题很难标准化。另外，客观现象是，在决策智能相关问题的定义和研究视角上，学术界与产业界存在着巨大差距。许多最先进的理论算法在环境和计算管道上缺乏通用性，仅限于玩具模型级别的实验环境，无法转移到实际的工业场景中。因此，团队对开源平台的最终期望不仅是在学术算法层面实现最广泛的覆盖和统一性，还将这些算法实际应用到相应的现实场景中，解决其他领域的行业层面应用问题。当然，系统和平台的设计本身会做出权衡，开源社区是帮助平台成长和发展的重要力量。这是一个将技术的广度和深度推向极限的项目，汇集了数千名开发人员的智慧和努力，创造了长期价值，为每个行业创造无限的可能性。2021年7月，DI-star及其衍生产品OpenDILab在GitHub上正式开源。

OpenDILab提供了一个开源库，用于各种目的。DI-engine及其相关系统支持库致力于解决决策AI在环境、算法和计算规模三个方面的标准化问题，首先提供40多种不同类型决策环境的最佳实践。它可以作为不同领域研究人员应用强化学习技术的最佳模板，也有60多个决策智能算法在8个子方向研究，在深度强化学习、多主体游戏、离线强化学习和模仿学习等领域，这些环境和算法都可以使用。该系统在统一的系统执行设计下有效地实现，并可根据任务特点自适应调整最优资源利用方案。中级算法和模型抽象层DI-zoo集成了OpenDILab在决策AI算法各个领域的相关经验，使算法理论、代码实现和应用领域的知识一一对应，在AutoML工具的支持下，帮助开发人员构建统一的标准基准测试方案，大大降低了初学者的进入门槛。在应用生态层面，有大型强化学习培训项目，如DI-star，虚拟世界实时战略游戏，包括完整的培训、测试和详细的应用原型代码，朝着决策AI落地应用方向发展。我们开源了我们的自动驾驶平台DI-drive，其中包括整个感知决策过程。自开源以来，OpenDILab已经获得了超过4，500个GitHub明星。DI-star也被纳入Github趋势Python语言高级开源项目。“ImageNet”决策智能在多智能体决策智能领域的实现通常受到两个方面的挑战：训练平台和仿真环境。OpenDILab很方便，但目前它只解决了培训平台的一部分问题。如何解决模拟环境中的问题？为了让更多的人参与决策智能的探索，OpenDILab举办了一场Go-Bigger挑战赛。一般来说，这实际上是人工智能决策版的“大球吃小球”挑战。在Go-Bigger Challenge中，每场比赛持续10分钟，当一个大的球吃掉球时，它的重量和体积会增加，但你需要确保它不会被大的球吃掉。球的种类有分身球、孢子球、食物球和刺球，这四种球的测定路径各不相同。

每支球队都将与另一支球队比赛，总重量更大的球队将获胜。这种游戏环境看起来很简单，但实际上，多个智能体之间的协调和冲突都受到了极大的考验，比如同一个团队中个体行为与合作行为之间的权衡、不同团队之间的合作与竞争、环境信息与其他智能体的表示与交换，决策复杂度很高。有趣的是，Go Big Game设计的球是针对时间、成长加速、分裂、消失、死亡等约束而设计的，这种情况其实存在于现实世界中，如人类生命周期，我们都需要在人生的不同阶段，在不同的约束条件下进行合作、对抗、做出自己的决定。球和人之间有一种微妙的关系。在人工智能领域，许多研究问题实际上已经被定义和解决，并经历了从“球”到“现实世界”的模拟过程。一个例子是计算机视觉的经典ImageNet。上海人工智能研究院的年轻科学家、商汤科技公司高级研究总监、OpenDILab项目赞助商刘宇表示，在ImageNet竞赛之前，数据集非常小，学术界很难定义行业真正需要的算法问题。然而，ImageNet提出了一个全新的挑战。由大数据定义的研究问题，使我们更接近实际需要解决的问题，再加上计算能力的提高，实现了计算机视觉的快速发展。在今天的多智能体决策智能领域，学术界和工业界都在等待像ImageNet这样具有“经过验证的问题定义能力”的项目，OpenDILab希望Go-Bigger能够承担这一责任。现在我们已经开源了DI-star，有些人可能会想，为什么我们不直接举办星际争霸AI挑战赛呢？毕竟，星际争霸AI的训练需要大量的计算能力，这对普通参与者来说并不友好。Go-Bigger是一个中等规模的游戏AI竞争环境，任何人都可以参加。与学术界常用的Atari、MuJoCo和SMAC相比，Go-Bigger的环境要大得多，可以在较小的实验室中完成，并且可以在机器和GPU上进行训练。这使参与者能够专注于探索多智能体协作能力的算法。尽管如此，从头开始实施比赛所需的算法和训练过程仍然很复杂，但OpenDILab平台提供的决策AI框架DI-engine可以帮助开发人员简化这一过程。开发人员正在基于DI-engine设计实现Go-Bigger的基准测试算法，包括多智能体协调、稀疏奖励诱导、内存探索和计算效率的提高。进入工业应用的现实世界，OpenDILab在自动驾驶领域首次推出了DI-drive，这是一个支持多模拟器和多决策智能算法的开源研究平台。为什么选择自动驾驶领域作为开源，OpenDILab有自己的想法。经过第三次发展浪潮，人工智能技术已经进入了从感知智能向决策智能演进的关键节点，人工智能决策技术的突破已经达到了在现实场景中部署和应用的阶段。前沿的学术理论必须走到现实世界中，才能创造出更多的价值。可以说，人工智能决策技术的成功应用直接决定了行业对该技术的认知程度，应用领域的问题也可以引导人工智能决策理论的演进。另一方面，生态建设的成功反映了人工智能决策技术的应用门槛，其多功能性和泛化能力，以及适应不同任务的能力。应用生态也可以更广泛地扩展决策人工智能的应用领域，解决不同应用领域面临的问题和挑战。自动驾驶是当前人工智能研究的热点方向。决策、规划和控制是自动驾驶任务的大脑，被企业视为高度敏感的技术。如果你是一个普通的开发人员，很难深入了解它。为此，OpenDILab整合了大量自动驾驶决策AI方法，抽象出一系列流程，基本涵盖了现有自动驾驶方法，构建了自动驾驶领域首个开源的参与式研究平台“DI-drive”。目前，DI-drive在自动驾驶的端到端仿真任务上取得了多项算法突破。对于一系列核心技术突破，OpenDILab不保留，全部开源。InterFuser基于Transformer多传感器融合，使用可解释的功能来提高自动驾驶的安全性。在交通密集的场景中，每个人都知道，决策过程中会有大量的障碍物和动态对象。在这种情况下，一些已部署的自动驾驶系统可能会出现错误或意外的行为，从而导致灾难性事故。例如，行人突然从路边出现，或在通过十字路口时遇到交通事故（如闯红灯），需要更好地了解多模态多视图传感器输入下的场景。此外，如何验证决策过程，换句话说，识别系统的功能和故障情况以及故障原因，也是一个问题，这就要求决策系统具有可解释性。OpenDILab模拟了大多数场景，并使用基于自动驾驶研究的开源模拟器CARLA进行了评估，InterFuser显示出出色的问题处理能力。

等待红灯。

在最新的CARLA排行榜上，OpenDILab的自动驾驶战略InterFuser排名第一。

除了InterFuser在CARLA Leaderboard上的排名外，OpenDILab还开发了一个接近现实的自动驾驶场景Casezoo，该场景是根据真实车辆数据和道路测试用例进行转换的。在各种接近实际情况的驾驶环境中训练和测试决策模型，有效地推动了仿真研究在自动驾驶领域的推广和应用。

Casezoo为自动驾驶模拟提供了更接近真实驾驶场景的东西，而OpenDILab则在探索决策智能的新应用领域和方法，包括金融领域的反欺诈和交易，电网和港口等场景的资源调度和优化，以及生物学领域的合成搜索和预测。一些重大成就正在取得之中。OpenDILab不断发展的一年已经过去了。自开源测试版以来，OpenDILab团队根据开发者社区的反馈不断改进。经过多次改进，OpenDILab1.0版本在最近的WAIC2022会议上正式发布。

作为一个整体，OpenDILab1.0有三个主要的升级功能：1.易于使用、高效的大规模决策智能培训系统：具有插入式扩展和友好的分布式功能。该平台整合了所有RL 研究领域，一套框架提供了决策AI问题，最完整、最强大的算法集（1个架构、8个研究方向、40多个环境、60多个算法、70多项专利）3、开箱即用的工业应用生态：决策AI+X的最佳实践将帮助各行业实现关键技术和应用突破。“在计算机视觉领域，标准化做得很好。所有的数据模式都可以用非常复杂的Tensor来表示，所有的任务都可以用像PyTorch或TensorFlow这样的批维前向和反向传播神经网络来处理。在决策智能领域，数据模式是高度结构化的，训练过程是高度异步的，这也是我们想要做的事情。“刘说。除了硬核升级之外，OpenDILab还专注于易用性和便利性，并为社区中的开发人员提供更深入的实践教程。值得一提的是，OpenDILab将于今年10月推出“PPO x Famliy入门开放课堂”，从应用场景出发。课程内容主要来自PPO，主要根据算法原理、代码实现、三种一对一对应设计，解决绝大部分普通决策问题，无论您是想开始人工智能决策的初学者，还是想利用人工智能决策技术解决实际问题的非专业工程师，您在算法、系统、工程等方面的经验和工具支持都将为您提供..。它可以通过课程和OpenDILab平台获得。

我们还了解到，WAIC2022上发布的SenseMAP SenseTime多代理平台也是使用OpenDILab的大量开源技术构建的。在WAIC2022的企业论坛上，刘先生说：“我们使用OpenDILab作为我们的基础设施之一来构建SenseTime的多代理游戏AI平台Sense MAP，OpenDILab支持我们在游戏、电力调度、自动驾驶和货运等领域的业务应用。刘宇认为，只有一种技术会大大降低门槛，让更多的人有机会进入。纵观人类技术发展的历史，推动整个社会向前发展的真正机会并不总是出现在任何特定技术诞生的那一刻，而是出现在这种技术普及之后。这就是OpenDILab开源的目的。找回机器的头脑

展开剩余内容

分享到：

标签智能开源决策

上一篇：张璐创立的Soul是如何满足Z世代的社交需求的？下一篇：“绿色_成京东居家618热趋健康低醛地板产品预售订单额同比增长263%

OpenDILab幕后的「孤勇者」：AI研究员、电竞冠军和他们的开源梦

猜你喜欢

开源网站建设_开源网站建设方案

智能手机屏幕_智能手机屏幕触摸失灵怎么办

智能手机店_智能手机店图片

绿色智能家电推荐榜 _ 美的冰箱微晶X，让原鲜至味萦绕舌尖

推荐文章

网站分类

热门浏览

热门标签