李飞飞高徒新作！30万小时教会AI在《我的世界》里打败末影龙

编辑：中国配音网时间：2023-08-12

李飞飞高徒新作！30万小时教会AI在《我的世界》里打败末影龙,

叮当猫配音素材,瓞粤语配音素材,配音薛凯琪素材　　近日，李飞飞高徒和团队研究人员提出了基于《我的世界》游戏新框架MineDojo，可以让AI自由探索程序生成的3D世界。

　　在这之前，来自英伟达团队的研究人员还构建了一个游戏新框架MineDojo。

　　李飞飞在社交媒体上称赞了其得意门生，也是这篇论文的一作，Linxi Fan（范麟熙）的最新研究成果。

　　73万YouTube视频，带有标记2.2亿个单词的英文脚本，这些视频总时长大概有30万个小时；

　　不按特定任务与步骤进行的普通游戏录播视频，给AI智能体提供了内容更多元、素材更丰富的各种学习与训练信号。

　　由于不管是教程视频还是游戏录播视频，大多数视频库素材都是按时间轴配脚本的。如此就让AI智能体可以低障碍地将自然语言与像素级的图像数据对应，不用大量人工标注就能自行理解各种活动的自然语义对应物。

　　由于Reddit文本数据库中的内容结合了文字、图片、短视频片段，将精细调试的大语言模型在其中使用后，AI智能体就能获得大量特定的内化概念和复杂策略。

　　MineDojo现有基准任务库中包含3131个任务，其中有1572个可编程任务、1558个创造性任务、1个通关性任务。

　　4.基础战斗：AI玩家在游戏中打各种普通小怪，测试智能体反应灵活度和战斗技能

　　创造性任务就没有可编程任务的精细定义、自动完成的标准了，由AI智能体自由发挥。

　　通关任务的要求是让AI玩家「打败末影龙并获取龙蛋奖励」。这对人类新手玩家来说都是个游戏初期的里程碑成就。

　　对于AI智能体而言，这是个验收性任务，考验了AI智能体自行准备、探索、试错等等完成游戏的能力。

　　研究团队将所有任务都附带了自然语言叙述的提示，很多任务还有用GPT-3生成的逐步指南。

　　为了用强化学习训练AI智能体玩《我的世界》、完成必备的奖惩功能，研究团队自行开发了模型MineCLIP。

　　MineCLIP是在海量Youtube数据库上预训练的对比视频语言模型，利用大型预训练的视频语言模型作为学习奖励函数。

　　其奖励效果在可编程任务上与人工编写的逐条奖励程序不相上下，在创造性任务上胜过了OpenAI的预训练CLIP模型。

　　MineCLIP模型也是MineDojo中AI将图像对应自然语言的核心组件，包含了文本编码器和图像编码器，参数1.5亿。

　　研究团队在论文中称MineCLIP模型的神经架构很类似CLIP4Clip，但比其多了两层图-文适应处理层。

　　研究团队在视频数据库中抽取了64万16秒短视频片段抽样，来训练这两层来对应图像和文字，效果可与人工判定的真实值媲美。

　　OpenAI试图训练一个《我的世界》中的通才智能体，就像此前DeepMind训练星际争霸那样：

　　先通过模仿大量演示来学习，然后再通过精心化设计的奖励让智能体去进行强化学习。

　　问题是，智能体想要进行模仿学习得知道个所以然，然而很多视频并没有标记动作，根本不知道玩家执行了哪些动作来生成这些视频。

　　于是OpenAI提出了视频与训练模型（VPT）解决方案，在训练7万个小时后，模型就学会了怎么砍树、收集木头。

　　如果想要让其学习更复杂的动作，那就需要精心设计的奖励函数来引导智能体完成必要的步骤。

　　他们通过利用YouTube上的视频里的知识学习各种想得到的任务，包括GPT-3生成的任务。

　　为此，研究者并没有通过手动设计无数奖励，而是设计了一种算法MineCLIP，利用了大型与训练视频模型作为学习奖励函数。

　　他毕业于上海实验中学，本科就读于纽约哥伦比亚大学，目前在斯坦福大学攻读博士，主修计算机视觉、强化学习以及机器人技术。