波音又摊上事了!市值暴跌被自家股东告上法院

海外网4月10日电波音又摊上事了。路透社10日报道称,波音股东对公司提出集体起诉,他们认为,波音隐瞒了737 MAX机型的安全缺陷。

这里想给大家介绍的第一个工作来自于 Georgia Tech,他们提出了一个新的数据以及任务,叫做 novel object captioning。与传统的 image captioning 不同的是,他这里做了一个限制,就是限制在测试集当中出现的物体,在训练集当中从没有被描述过。这个概念其实类似于 zero-shot learning 的理念。在这个工作中,他们把数据分成了三个部分,分别是 in-domain,near-domain 和 out-of-domain,能够方便的对 image captioning 模型进行比较全面的测试。In domain 就是物体在训练集当中已经出现过,即经典的 image captioning 问题。Near-domain 是指图片中最显著的物体是 novel object,即没有在训练集中出现过,而其他物体则有可能在训练数据中被描述过。Out-of-domain 是最难的,图片中的所有物体都没有在训练集当中出现过。其实之前也有过类似的 setting,但是大部分都是从 coco image captioning 数据中分出不同的 split。而这个数据提供了新的标注,同时提供了不同的测试 domain,能够更全面的分析一个 image captioning 模型。

这个工作很有意思,它会给图片、给区域、给问题,模型必须在选择题中选出一项正确答案。但是在选择正确答案的同时,还需要选择出给出这个答案的原因。他们把这种能力称之为 Cognition,就是认知能力。比如这副图当中,问题是,为什么 person 4 指着 person 1。正确答案是,他正告诉 person 3 是 person 1 点了 pancake。而选择这个答案的原因是,Person 3 正在给这张桌子上餐,她可能不知道这个是谁点的。我们可以看到,回答这个问题不仅仅需要视觉的感知能力,还需要常识,以及推理等认知能力。是非常有挑战性的。这篇文章也提供一个简单的 baseline。整个模型分为三个步骤,(1)grounding,理解问题和答案的意思;(2)contextualizing,结合图像、问题、答案进行进一步理解,如弄清楚指代对象;(3)reasoning,推理视觉区域之间的内在联系。我们组其实一直都在关注如何将 common sense 引入到 vision-language 里面来,比如 17 年提出的 FVQA。这个工作很有前瞻性,但是我个人认为这个任务对于目前的 vision-language 还是太难了,因为我们目前并没有一个非常完整的 common sense 的知识库,而这个数据的规模也不足以让我们学习到所需的 common sense,即使学习到,也是一种 overfitting。我认为目前的推理,应该是最好抛开 common sense 甚至是 domain knowledge,只在 visual 上去做,类似于CLEVR和GQA。

越来越多的人问熊大,做游戏赚钱吗?

门派的拜访开始了真正的玩法,每一个人物都有好感度,每天可以进行一次拜访和一次送礼,拜访只会增加1点好感度,但是送礼会根据礼物来增加好感度。

之前的奖励都是任务和击杀的人物掉落合并在一起了,未来更新中的人物掉落和任务奖励都是分开展示的,能让大家一目了然自己的收获。

首先我们介绍一下 embodied VQA。 这个任务是融合多模态信息,通过向放置在一个虚拟环境中的 agent 提出基于文本的问题,需要其在虚拟的空间环境中进行路径规划(Navigation)和探索,以到达目标位置并回答问题。比如这里的一个问题是,汽车是什么颜色的?但是这个 agent 在当前位置并看不到汽车,他就要先进行路径规划,到达汽车所在的位置,从而进一步的给出答案。这就需要 agent 能够理解他们所处的环境,具有一定的路径规划和探索能力,同时又能够回答问题。然后在 CVPR19 的一篇文章,是 Licheng Yu 他们提出的,是基于 Embodied VQA,把问题又提高了一个难度,叫做 MT-EQA。 在这个任务当中,问题不是关于单一的物体,而是涉及到不同房间的不同物体,比如这里这个问题是卧室里的梳妆台和卫生间的盥洗台是一个颜色么?

很多时候就在于玩家闲着没事干,吃完饭无聊就坐着玩、游戏躺着玩游戏、趴着玩游戏,一段时间之后岂有不长肉的道理?人活着就应该站起来走出去,《行走江湖》虽然设定的是每天可玩时间(此处所说的是战斗PK,不包括视频课程锻炼)控制在5分钟左右,其实当你装上《行走江湖》就无时无刻的都在练功了,玩游戏未必一定要让玩家停留在游戏画面中,潜移默化的玩不影响玩家时间的玩法才值得探索。

运动不是机械化的,所以就拿《降龙十八掌》来说,每一天你所要完成的课程也会不同,不会是千篇一律每天都做同样的动作,这也是避免肌肉产生记忆,同时保持对运动质量的提高和兴趣的刺激。

但愿我不会把《金蛇剑法》丢到某个公共厕所,到时候可能路人还不知道怎么回事,怎么会有这么多人围着这个公共厕所,太神秘的画面不敢继续想了。

也许你曾经在很多游戏中冲动一时花费成千上万,也许当时你功成名就很了不起,可当你有一天厌倦了那个游戏,删掉的时候回想起自己花了这么多钱心里是作何感受?

走路是《行走江湖》的基础,在基础之上是需要对身体的强化和运动,所以我把运动类的项目放在了筋脉上,打通筋脉循序渐进,现在的粉丝中有许多是KEEP的用户,之前的留言中就有很多小伙伴希望我能直接获取他们KEEP运动的数据,这点我会慎重考虑的。

针对这个任务,也有一些新的方法被提出,其中,neural baby talk 就是比较好的一个工作。这个工作同样来自于 Georgia Tech,是由 Jiasen Lu 提出的,是 CVPR 2018 年的一篇 paper。在这个工作当中,受到之前 Babytalk 当中模板+填空的 captioning 生成方式的启发,他们把 novel-object image captioning 分成了两个步骤:第一个步骤是模板生成。但是与早期 Babytalk 中使用提前定义好的模板不同,这里的模板是根据图像自动生成的。就是在每生成一个词的时候,他做了一个判断,判断这个词应该是来自于文本还是来自于图像。来自于文本的词就组成了模板,比如下面这张图中,生成模板就是 A is sitting at a with a . 这里的 region-17 其实就是图像里面的一个 region proposal。

之前的版本任务部分只是暂代,其实真正要想实现的是所有门派都有很多的公共任务不受门派限制,每次每个人所刷新的公共任务是不同的,而自己的门派是会有某些触发条件后才能刷新出门派任务,会获得专属的物品。

据介绍,自成立以来,大连自贸区加快推进“放管服”改革,先后出台了225项支持自贸试验区发展的政策措施,总结梳理出237项制度创新事项。两年来,大连自贸区的营商环境不断改善,市场活力不断增强,共完成《中国(辽宁)自由贸易试验区总体方案》确定的改革任务108项;复制推广前两批自贸试验区的改革创新经验共计204项。

介绍完关于 novel object captioning 的工作,我们这里再介绍几个与 visual reasoning 相关的工作。说到 visual reasoning,就不得不提到 17 年的 CLEVR (Compositional Language and Elementary Visual Reasoning),这是第一个专门针对视觉推理任务建立的数据集。这个数据中的图片主要由是一些不同大小、颜色、形状、材质的几何体组成,虽然图像成分简单,但是问题本身却比较复杂,需要做比较复杂的推理。比如这里图中的第一个问题就是 ‘大物体和金属球的数量是一样的吗?’,为了能回答这个问题,我们首先需要找出大的物体还有金属球(通过视觉),然后要分别计算各自的数量,最后判断两者的数量是不是相等,也就是为了回答这么一个问题,我们需要三步的推理。

此时此刻我正在脑补玩家如何去劫镖,你们一定希望这个镖车不要跑得太快了,否则真是很难追得上,话说回来,劫镖不是什么光明正大的事情,所以之后的押镖和劫镖成为了正邪的分界点。

这项诉讼的主要原告理查德·塞克斯表示,在造成189人罹难的狮航空难后,埃航事故又夺去了157人的生命,从这时开始,波音公司的声誉开始受到损害。

功能菜单中会增加一个关于“日常”的功能,其中是记录你今天都做了什么,比如有没有比武,有没有运动,有没有修炼武功,当达到一定的进度百分比就能获得一定的奖励。

某个门派处于世界BOSS的战斗时,是不能进行门派操作的,例如学习武功等,因为你的门派正在遭受攻击。

从 17 年开始,我们就陆续看到一些新的 vision-language 的任务被提了出来,比如被研究比较多的 referring expression comprehension,也叫做 visual grounding,虽然 14 年就有类似的概念被提出,但基本上从 17 年开始相关的方法才多了起来。在这个任务当中,给出一副图像以及一段 expression,也就是自然语言的描述,我们期望得到一个区域,这个区域能够准确地对应到这个描述。

CLEVR 数据除了提供图片-问题-答案这样的标注之外,也提过了逻辑推理过程(叫做 function)的标注,比如上面这个问题需要三步的推理过程,就会有一个标注是将三个 function 连接成一个推理链。也就是提供了推理的 ground-truth,我们不仅能够检验模型是否回答对问题,还能够真正的评价一个模型是否具有足够强的推理能力。这篇文章也发现在传统 VQA 数据上表现很好的模型(比如 MCB)在 CLEVR 上表现并不好,说明传统的 VQA 结构并没有办法通过 End-to-End 的训练来具备推理能力,需要有新的模型能够完成相应的推理。

在上一篇《万字漫谈vision-language-action》里我们就提到过,将 vision-language 和 action 结合起来是一个非常热门并且 promising 的方向,包括我们组在内,很多大组都在这个方向上有所动作。

当初心心念念的是想如何让游戏更好玩,玩家的体验感和获得感加强,让游戏更有可玩性,在剧情和战斗上玩法更多,更有意思,而如今是慢慢的走向让玩家可以内购的产品可能性更大,充VIP,VIP还分级,绞尽脑汁就再想让玩家冲动购买内购和花钱。

未来每一个门派的特点会更加的清晰,有得必有失,选着一个自己最喜欢的门派进行修炼会更加的有趣,能提高自己的持久力。

这是另一种对武侠游戏的寄托,也许你曾经是一个懒惰的人,也许你很难找到运动的借口,也许你很想保持每天运动,但是失败了很多次,而当你不再是为了运动而运动,是内心中充满了对某一种武林神功感到兴趣的时候,才能成为你的持久东西。

对应的人物好感度越高,就能触发隐藏的任务和奇遇,但是也别以为一门心思的讨好掌门就万事大吉,我有很多的小诡计,不少不起眼的小人物却手握武林秘籍的线索。

然后他的第二步叫做 Filling in the slots,也就是填空。他用一个外部训练的分类器去对上面的那些区域进行分类识别,然后将识别的结果填到上一步生成的 template 里面。所以这个时候,caption 的生成其实是不依赖于目标物体是否被描述过,而是依赖于一个外部训练的分类器,也就是只要这个分类器见过足够多的物体就可以,不需要有对应的 caption 数据。比如上面这个 region-17 识别的结果是 puppy,最后生成的 caption 就是 A puppy is sitting at a table with a cake。

在角色装备的界面中新增加了自己门派的图标和名字的显示,玩家可以在非“世界boss”的时间点击瞬间回到门派,现在使用是不受限制的,未来会调整为所装备的轻功达到5级以上才能使用。

《每日邮报》称,诉讼内容指出,波音将“盈利”置于“安全”之上,为了与空客竞争,将737 MAX机型迅速推向市场。与此同时,省去了“额外”或“可选”的功能,这些功能恰恰能防止埃航和狮航空难的发生。

本文系版权作品,未经授权严禁转载。海外视野,中国立场,登陆人民日报海外版官网——海外网www.haiwainet.cn或“海客”客户端,领先一步获取权威资讯。

接下来我们就从这三个方面对一些去年的具有代表性的工作进行介绍,来看看这些任务和方法与过去有什么不同。

我认为好的游戏不是去想方设法的去霸占玩家的时间,更有甚者直接影响了玩家的生活和工作以及休息,这大可不必,我不认为我能做出好游戏,但是我有信心能通过游戏引起新的玩法和思路,有信心能通过游戏带动玩家的运动神经,逐渐培养大家的运动细胞,2019年希望大家都能和我一样动起来!

在埃塞俄比亚航空737 MAX客机坠毁后的两周内,波音的市值下跌了340亿美元。目前,这项来自投资者的集体诉讼在芝加哥联邦法院受理,股东们正寻求波音公司对涉嫌欺诈行为所带来的损失,予以赔偿。

物品的部分除了有界面和数据展示上的调整以外,还修复了一个BUG,有的物品是一次性的买完就没有了,而有的物品可以无限的进行购买,但是每次购买后会增加一定的上浮价格。

中国(辽宁)自由贸易试验区大连片区位于国家级新区——大连金普新区范围内,占地59.96平方公里,大连片区是辽宁自由贸易试验区的主体区域,是引领东北全面振兴的重要增长极。

打通筋脉并非是一劳永逸的事情,如果长达一个月没有进行过任何的筋脉修养,就会掉级,同时也会减掉你所增加的属性点,也就意味着你和对手PK的时候失去了优势。

MAC 提供了一种全可微的模块式的推理结构。一个 MAC 网络主要分成了三个部分,输入部分主要负责把图像和问题进行编码。MAC recurrent unit 部分主要是通过对 MAC 基本单元的堆叠以及排列进行多次的推理。最后的输出部分是结合推理后的特征得出答案。这里的关键部分就是一个所谓的 MAC 神经元。MAC 神经元又由三个运算元串联运行组成:控制单元更新控制状态,以便在每次迭代中参与待解答问题的一些部分; 读取单元在控制状态和记忆状态的引导下,提取信息;  写入单元将这些检索得到的信息整合进记忆状态,迭代计算答案。这个模型的好处是整个‘推理’过程利用了 soft attention 机制对图像信息进行多轮的提取,整个过程全可微,坏处就是整个过程还是‘黑箱’,无法提供 explicit reasoning 的过程。

世界boss每个人都可以参加一次,伤害高低会有玩家的排行榜,会影响最后的击杀奖励和掉落物品,如果BOSS被击杀后会额外掉落boss身上的物品其中就包括神兵利器和秘籍了,但是如果没有能击杀boss也没有关系,战斗之后会根据自己战斗的贡献获得大量秘籍的奖励。

这里举一个栗子而不是花生,当自己走到了可以伐木的附近就可以进行伐木了,记住!是左右甩动手机,做出伐木的姿态,当达到对应的次数的时候,这棵树就被你砍倒了,在砍树的时候每一次甩动中都配上大斧头的音效,真是美极了!

伴随而来的是低迷的经营效益。本周二(9日),波音表示,2019年第一季度的订单从一年前的180降至95,因空难遭到“全球抵制”以来,再也没有737 MAX的订单。5日,波音还曾透露,计划削减737机型的月度生产数量,并展开对737 MAX的软件更新,防止再有悲剧发生。(海外网/李萌)

进入到每一个筋脉的打通环节中是分成多段的训练课程,每完成一个动作都能有小小的奖励作为对你的鼓励,可以全屏展开运动课程进行学习。

武林纷争,每周的周末6、日还会开放世界boss的击杀,当然如果之后玩家非常多,也可以每天晚上再大家都不忙的时候有一次,这个游戏的宗旨就是不要占用用户重要的时间。

逐渐做游戏的心就不是在玩法上下功夫了,而是如何刺激用户花钱,刚开始让玩家玩得热血沸腾,到了中间设计很多不充钱过不去的砍,到了高级推波助澜,让玩家之间互相砸钱比拼,自己坐收渔人之利,一个失去了玩法和趣味的游戏,走掉的人越来越多,可用资金越来越少,就越想着赚钱,投入到游戏研发上的精力就更少得可怜,最后这样的游戏就走向衰亡,越是要衰亡越是变本加厉的吸金,真是可怕的恶性循环。

战斗一段时间后,生命有所消耗,内力也有所不足,《行走江湖》提供3种恢复的模式,一种是挂机,需要的等待时间很长,玩家可以离线点击打坐即可,另外一种是吃恢复药,但是每天使用道具的次数是有限制的,最后一种是在线打坐,恢复速度很快,对应的是一套轻松的瑜伽、冥想或是深呼吸的课程,对不起,连休息的机会我都没有放过你。

另外一个思路是由 ANU 的 Peter Anderson 提出的,叫做 constrained beam search。在 image captioning 里面常用的一个 trick 就是 beam search。就是说我们在选择下一个生成词的时候,不是只选择概率最大的那一个,而是选择概率最大的 b 个作为候选,b 就是 beam 的大小,然后再沿着这 b 个 candidate,继续寻找接下来的 b 个最佳的候选词。这里这个工作提出了一个 constrained beam search,就是在做 beam search 之前,他会先从图像当中提取一些 tag 出来。这个 tag 当然是可以外部训练的,可以是一些在 image captioning 训练集当中没有出现过的 tag。然后他利用这些标签建立了一个有限状态机(Finite-state machine),然后按照有限状态机的路线进行 beam search,使得生成的 caption,既能符合合适的语法结构,又能够包含所需的 tag。

所以未来我希望运动这个部分是既可以在《行走江湖》中也可以在KEEP中完成,只是展示的风格不同。

波音公司发言人查尔斯·比克斯暂未予以回应。

所以,当你喊出”我要行走江湖了”,此时你便进入到了真实地图的场景中,这是第一个有关语音的互动,这也是一套基于LBS的数据化游戏玩法,未来还会结合AR进行地图寻宝等,地图中有不同级别的矿、树木,需要达到相对于的等级才能砍伐和开采,也会有一些小物品例如草药、秘籍、武林绝学、遗失的包裹、宝藏箱等。

首先先做一些背景介绍,什么是 vision-and-language?我们知道 Computer Vision(计算机视觉)和 Natural Language Processing (自然语言处理)一直是两个独立的研究方向。计算机视觉是一门研究如何使机器 “看”的科学,而自然语言处理是人工智能和语言学领域的分支学科,主要探索的是如何使机器”读”和“写”的科学。他们相通的地方是,都需要用到很多机器学习,模式识别等技术,同时,他们也都受益于近几年的深度神经网络的进步,可以说这两个领域目前的 state-of-art,都是基于神经网络的,而且很多任务,比如 CV 里的物体识别检测,NLP 里的机器翻译,都已经达到了可以实用的程度。于是从 2015 年开始,有一个趋势就是将视觉与语言进行一定程度的结合,从而产生出一些新的应用与挑战。比如 image captioning,visual question answering 等比较经典的 vision-and-language 任务。

说回到打通筋脉这个环节,是一个循序渐进的过程,这一点很像是一个健身课程,不会一开始就让你做高难度的,而是由简入繁,每一次开始都是由热身运动引入,而每做完一组就会增加相应的四维属性,这也表明,未来我会强化对四维属性的作用,因为要获得非常困难。

波音最近负面缠身。报道称,围绕空难展开的还有许多起诉案件,其中不乏有许多诉讼来自遇难者家属。

赛克斯在今年3月购买了300股波音股票,并在过去两周内亏本卖出。他说,此次诉讼要求波音对1月8日至3月21日期间的投资者进行赔偿。

之前我就有透露过,高深的武功秘籍可以通过呐喊来提高威力,比如你正在施展降龙十八掌,此事会有一个语音显示图标,你就可以大声高喊“降龙十八掌”声音越大威力加成越多,前提是不要吓到旁边的人,呐喊和深呼吸一样可以作为人体的一种调节,我也视作为运动的一种。

最后总结一下,首先我们看到在经典的 vision-language 任务上,比如 image captioning 和 VQA,能够增长的空间已经很小,已经过了暴力的通过数据去学习的阶段。真正的挑战其实是一些细分的领域,比如多样性、可控性、推理以及如何将 vision-language 应用在真实的场景当中。18 年我们提出了很多有趣的、有挑战性的新的任务,相信接下来几年会有很多新的方法被提出,来解决这些新的挑战。也欢迎大家能够关注我们的 embodied visual-navigation + referring expression 任务,在这些新数据和任务上提出并研究新的算法。

那么挖矿就很容易理解了,上下甩动手机不就是挖矿的动作了吗?当你在大街上完成这些动作的时候,内心的小激动,身体肌肉的爆发,怎么样都好,就是别伤着路过的人。

在最近的 CVPR19 上,Chris Manning 组又提出了一个新的数据叫做 GQA,可以看作是 CLEVR 的一个真实图像的版本。因为 CLEVR 当中的物体都是一些简单的几何体,形式比较单一。GQA 使用了真实的常见图像作为输入,问题的类型和 CLEVR 很类似,都需要很强的视觉推理能力才能够完成。比如这里这个问题是:‘拿汉堡的那个小女孩儿的左边的红色物体上的食物是什么颜色的,黄色还是棕色?’。 回答这个问题,需要很强的空间以及逻辑推理能力。同样的,类似于 CLEVR,这个数据也提供了所需逻辑推理链的标注。

《行走江湖》中的绝世武功并不难让你获得,但是修炼却非常的难,比如《降龙十八掌》,你以为你获得了这本秘籍就万事大吉了?错!错!错!《降龙十八掌》是一套关于哑铃臂力、腹肌运动的课程,若只是学会招式,威力无足轻重,而要想增加威力,就需要坚持每天完成《降龙十八掌》的课程,才能提高伤害,如果你偷懒了,伤害也会随之下降。

店铺中的物品每次更新后价格都会有波动,也是为今后基于LBS的押镖做铺垫,试想一下,你从公司的地点买了很多铁剑、钢刀到你回家的地点点开店铺进行贩卖,这样的押镖够贴近真实了吧,押镖的距离会影响价格的波动。

来了!来了!来了!真正的《行走江湖》精彩的部分来了,初始界面我会明确标注并放大这个行走的玩家角色,点击人物上半身还是和以前一样进入到装备界面,而点击下半身或脚,就会弹出一个需要语音才能开启的世界。

此外,诉讼书还指出,波音公司有关增长前景和737 MAX的声明,受到利益冲突的影响,因为它保留了联邦监管机构评估飞机安全性能的官方权力。

不仅仅只是KEEP,之后会出iWatch版的《行走江湖》,以及各类别的手环数据的同步对接,运动设备,跑步机,体重秤等,只要是可以蓝牙或WIFI对接数据的,都是我考虑的重点对象。

“这两年自贸区试点任务全面推进,自贸区不断释放改革创新红利,取得了初步的成果。”赵英虎说,据统计,两年来,大连片区新增固定资产投资434.3亿元;实现进出口总额3064.53亿元;实际利用外资36.48亿美元,新增注册企业14858家,占辽宁三个片区总数的39%。(完)

所有的人物都可以点击查看属性和身上携带的物品,并且明确标注了各物品的掉落几率,让各位在选择任务的时候能清晰自己的对手状况。

波音首席执行官丹尼斯·米伦伯格和首席财务官格雷戈里·史密斯均出现在被告名单之中。

第三个方向我把它总结为 ‘embodied‘,也就是将 vision-language 具体化到一些场景当中,不再是基于静态的图片或者无法交互的视频,而是一些可以交互的真实或者虚拟的场景。比如,在 18 年提出的 embodied QA 和 interactive QA,就是把 VQA 的问题放在了某一个场景下,回答问题需要 agent 在场景中移动甚至是交互。同时,我们组在 18 年提出了一个基于视觉-语言的导航任务 (Vision-and-Language Navigation),以及最近刚刚提出的一个 Remote Embodied Referring Expression 的任务,都是将 vision-language 放在了一个具体的场景当中去。

地图中会刷新一些人物,有的人只会和善良的人交谈,有的则喜欢大恶人,在真实地图中完成的互动获得的奖励会更高,获得高深的武功秘籍也会几率更大。

不过在这一个月不到的时间里,已经有很多小伙伴加入到了内部测试中,希望这些小伙伴们能提出更多的改进建议和玩法意见,也可以在文章后留言告诉我,话说回来吐槽一下你们这些小伙伴取的名字,所以未来我会限制取名字的规范,至少字符图形是拒绝的,这是一个武侠游戏!武侠游戏!

雷锋网原创文章,。详情见转载须知。

另外一个方向是 reasoning,也就是视觉推理。我们知道在 VQA 里面,最常见的做法还是通过 feature embedding(比如cnn-rnn),end-to-end 的方式训练一个神经网络,这就导致中间的过程是一个黑箱,我们并不知道具体的推理过程是什么。即使我们有了 attention (注意力机制),也只是使得部分过程有了一定程度的可解释性,比如 attention 可以反映出模型在回答问题时聚焦在图像中哪些物体上。但是对于 VQA 这样的应用,推理的过程是至关重要的。所以针对这个方向,近期就有了一些新的数据和任务,比如 CLEVR 数据集,Visual Commonsense Reasoning 数据,以及最近 Chris Manning 提出的一个新的 GQA 的数据集。

我们知道人工智能的一个长期目标就是建立一个能够观察理解周围环境,并且与人类交流,执行相关命令的智能机器人。Computer vision 主要是教会机器人去感知,去看周围的环境,而 NLP 赋予了机器人理解以及产生语言的能力。Referring expression 可以当作是一种最简单的 vision-language-action 模式,vision 是静态的图片,language 就是输入的 query,action 就是一个简单的 pointing 或者 detecting 的操作。而 vision-language navigation 会稍微复杂一些,视觉的输入变成了动态的环境,language 变成了一个很长的导航指令,动作也变成了一系列的前后左右移动的动作。但是这个任务其实仔细想的话并不是特别符合实际,就是我们为什么要给机器人一个这么复杂的指令帮助他去规划路径呢。而 referring expression 也并不是很切合实际,就是为什么我们明明可以看到图片中的这个物体,还需要机器人帮我们指出来呢?在现实当中,我们其实想要的是一个简单的带有目的性的指令,比如让机器人去某个目的地去找某个他现在还观察不到的物体,也就是 remote objects。比如,Bring me a cushion from the living room 就非常能够切入到实际场景当中去。

首先你得想清楚你是想赚钱,还是想做游戏,想赚钱,方法和套路有很多,这里不再赘述,但是想做游戏就不要想着靠做游戏来养家糊口,想想一些好玩的游戏是怎么走下坡路的,刚开始的热血激情,一门心思的放到了剧情和玩法上,让这个游戏非常受欢迎,迎来了大量的用户,用户的量大了之后心里的小鬼就跳出来了,怎么能在现在的大池子里赚他一笔?

另外一个非常值得关注的方向就是我们在 18 年 CVPR 上提出的 Vision-and-Language Navigation (https://bringmeaspoon.org/)。在这个任务当中,我们提供一个基于真实拍摄室内场景的虚拟环境,这些环境里面包含不同的房间(比如厨房,卧室,客厅)和物品。将一个 agent 放置在这个环境当中后,我们会给出一段基于自然语言的详细的导航指令,比如离开某个房间,去到某个房间,遇到什么物体向哪个方向拐,停在哪里等等。然后我们需要这个 agent 能够跟随这个指令,按照指令所描述的路径,到达对应的目的地。这就需要模型对语言和图像同时进行理解,把语言当中描述的位置以及关键点,定位到真实场景图像当中,然后执行相对应的动作。这个数据在发布之后也受到很大的关注,我们也举办了相应的 challenge。

奇遇任务就厉害了,也是不限制门派能看到的,需要达到某些隐藏条件或剧情才会刷新出来,这种任务难度非常高,能完成这样的任务必然是有不一样的奖励。

回到起点,《行走江湖》不希望是一个坐着玩的游戏,不希望是一个内购拼钱的游戏,这几年中国的肥胖人数在不断的增加,互联网时代坐着就能做的事情越来越多,我希望能通过一个游戏,让人能有动力的运动,费体力的事情都是枯燥的,所以《行走江湖》的目的就是让枯燥变得有趣。

但是从 18 年开始,vision-language 领域出现一些不一样的任务,使我们在方法上能有进一步的突破。我把这些新的任务称为 vision-and-language 2.0。这些新的任务大致可以分成三个方面。第一个任务主要是围绕 image captioning 方面展开的。过去的 image captioning 基本是直来直去的,给一副图像,生成一个 caption,至于生成的这个 caption 是关注图像当中哪个物体,是什么风格的 caption,是由训练数据的样式来决定的,无法自由的控制。现在我们希望能够生成 diverse 甚至是 controllable 的 caption。所谓 diverse,就是我们希望生成不受训练数据约束的 caption,比如最近受关注的 novel object captioning,就是被描述的物体在训练集当中从未出现过的情况。而所谓 controllable,就是我们希望我们能够控制生成的 caption,比如 style (幽默/正式/口语等等)以及被描述的重点物体与区域,比如我们可以决定生成的 caption 是描述图像背景还是描述前景中某个物体的,也可以决定其描述的详细程度。