这六大方法如何让Transformer轻松应对高难度长文本序列

众所周知,多头注意力机制 (Multi-Head Self-Attention) 的计算开销很大。在处理长度为 n 的序列时,其 O(n²) 的时间复杂度会使得原始的 Transformer  模型难以处理长文本序列。在过去的两年里,已经出现了多种有效的方法来应对多头注意力机制的复杂度问题,本文将重点讨论在模型规模方面很有发展前景的方法。

一、密集型多头注意力的时空复杂度

多年来,新航道以“我坚持,我成功”为精神内涵,恪守“奋斗成就梦想”的核心价值观,坚守“高能高分”的教育理念,提出并坚持“学术、励志、激情”的教育理念,致力于培养具有全球胜任力的中国青少年。2005年9月5日,胡敏校长作为全国民办教育培训机构的唯一个人代表荣获了教育部、中国成人教育协会和陈香梅教科文奖办公室联合颁发的“中国民办教育创新与发展论坛暨陈香梅教科文奖”特殊贡献奖,在人民大会堂接受颁奖,并受到著名华裔政治活动家、美国国际合作局主席陈香梅女士的亲切接见。

新航道天津直营学校集合个性化、封闭学院、雅思、托福、SAT、GRE、考研英语、锦秋A-level等多个培训项目作为津城落点。在天津市和平区贵州路君悦大厦和天津市和平区营口道两个校区重磅开业。校区环境、课程、服务重磅升级,将更专业,更贴心,更高效的课程体系回馈津城学子。

目前,依图科技的下游覆盖城市管理场景和智能医疗健康服务对应的公共服务领域,通用园区、安全生产、网点全解析、智能出行、内容审核对应的智能商业领域,基本是To B或To G的领域,这是公司目前应收账款和营销费用双高原因之一,但并非最重要原因,更加激进的销售策略才是主因。

遵循着 Transformer-XL 的设定,序列可以注意到一组存储下来的之前段的激活值。 另外,在相同的多头注意里操作中,当前段中的词例可以注意到存储在「压缩内存」中的第二组状态。

使用相对位置嵌入时,公式被改写为:

然而,这种方法存在一个限制:前面段落的信息不能流向当前的词例。这种段与段之间的独立性在某种程度上有益于高效地对段落进行批处理,但从长距离一致性的角度出发,这又变成了一个主要限制因素。

在表格的注3中显示,公司B实际控制人为公司离职员工陈峰。而在注8中又提到,公司离职员工陈峰现任北京思图场景数据科技服务有限公司(下称思图场景)董事。

在典型的自注意力机制中,其输入序列中的每一项都要计算与输入序列中的其它项之间形成的注意力,从而得到如下所示的注意力模式:

于是,依图科技“剑走偏锋”,决定由算法切入芯片行业。这一年公司战略投资了初创AI芯片公司上海熠知电子科技有限公司(下称熠知电子)。

除了信息披露方面的问题,依图科技最不能让人放心的还是高额应收账款和销售费用。报告期内,公司应收账款不断攀升,2017年底为2568.66万元,到2020年6月30日则高达6.87亿元。同期,公司应收账款周转率不断下降,从2017年的2.68下降到2019年的1.69。这也说明公司在销售时采用了更加激进的回款政策。

这一切都要从2017年说起。在依图科技创始人朱珑看来,算法性能高速发展和机器算力提升缓慢的矛盾正越来越明显,产业应该以AI为中心来思考计算机体系结构,懂算法的AI公司做出的AI芯片,能将算力更高效地转化为智能。

可以想象的到,稀疏 transformer 之所以起作用,部分原因是它学到的的注意力模式与实际学习的密集注意力模式并没有什么不同。在 Kevin Clark 等人发表的文章”What Does BERT Look At? An Analysis of BERT’s Attention”(论文地址:https://arxiv.org/abs/1906.04341)中,作者探索了密集注意力学习到的模式,想要找到注意力在transformer 中起什么作用。他们发现关注紧密相连的前面的词例(类似于稀疏注意力机制中的局部注意力模式)以及关注特定聚合词例(如 [SEP] 和句号)的注意力头有重要作用。因此,可能编码在稀疏  transformer 注意模式中的归纳偏置是有积极作用的。

在每一个时间步上,最早的一个压缩内存会被丢弃,压缩内存的索引会回退一位。接着,常规的内存段中最早的 n 个状态会被压缩,并且被转移到压缩内存中新开的槽中。       

为了避免存储先前所有段的激活值,作者阻止了梯度流向前面的段。

图 5:注意力跨度随层数变化的示意图

那么,北京丰盈是不是前文提到的公司B呢?

图 8:在前面 640 个词例上的平均注意力,其中每行对应于一个注意力头,每列对应于一个相对位置。图中共有 160 个注意力头,每十个注意力头同属于同一层。颜色越深代表注意力值越大。

并购来的核心技术能不能打?

另外,Transformer-XL 的原始论文测量了有效上下文长度对困惑度(perplexity,交叉熵的指数形式)的影响。作者发现,增加上下文长度(上下文长度高达九百个词例)会得到更好的困惑度分数(预测样本更准确),这进一步证明了循环机制不仅理论上可行,而且实际上也十分有效。

唐珂表示,从后期走势看,北美大豆陆续丰产上市,随着中美第一阶段经贸协议落实,自美国进口大豆有望继续增加,预计下半年我国大豆进口量增价稳,下游豆粕、豆油供应是有保障的。国储拍卖大豆陆续供应市场,再加上新豆即将上市,市场供应持续增加,预计国内大豆价格将高位回落。

由于通过利用更长的序列所获得的收益往往是符合长尾分布的,他们专门关注了由词频刻画的离散特征的困惑度,并指出最稀有的词例带来的收益是最显著的:

界面新闻查询发现,北京丰盈经营范围涵盖技术咨询、技术开发、技术服务、技术转让、计算机系统服务、基础软件服务、数据处理等。值得注意的是,这家公司参保人数为0人。

值得注意的是,分解后的注意力结构似乎不会对语言建模的性能产生负面影响,反而惊人地令每个字符需要的比特数比密集的注意力机制(原始 Transformer)在 Enwiki8 语料环境下要少一些,并且可以在包含多达 12,228 个词例的上下文中得到高效的注意力。

招股书中没有明确思图场景董事陈峰和公司B实际控制人陈峰是否为同一人。界面新闻查看了思图场景高管名单,根据天眼查App显示,陈峰确实曾担任思图场景董事,同时,其名下还持股北京丰盈众润信息技术咨询有限公司(下称北京丰盈)90%的股份,这也是他唯一作为实控人持有的公司。此前,陈峰曾在广州依图网络科技有限公司和深圳依图网络科技有限公司任职,这两家公司目前都已经注销。

但是,依图科技的体量相比中国AI头部企业仍有很大差距。商汤科技传闻营收已超百亿元,旷视科技2018年收入接近同期依图科技的五倍。

3、对注意力的思考和实验结果

另一件糟糕的事是:点积自注意力运算的空间复杂度也与序列长度的平方成正比。计算注意力矩阵的空间复杂度为              ,其中 hdn 是存储键和查询所需的内存的阶,而              是指存储每个注意力头产生的标量注意力值所需内存的阶。

成立之初,依图科技就切入了安防行业,在相关产品提高了公安破案率后声名鹊起,吸引了红杉资本、高瓴资本、云锋基金等知名VC的投资。

为了进行梯度运算,必须在训练过程中缓存激活值,除非使用诸如梯度检查点之类的重计算策略,因此对于每个示例来说,存储所有 12 层 BERT base 的注意力矩阵就需要大概 150MB 的内存。当序列长度为 1024 时,内存需求则变为约 600MB,而序列长度为 2048 时,对于每个示例的注意矩阵而言,内存需求就已达到约 2.4GB。这意味着在训练时可以使用的批处理规模较小,并行性较差,并会进一步阻碍我们训练该模型处理长上下文的能力。 

对于包含在查询的位置中的项(c 和 d),我们使用两个新的可学习参数 u 和 v 替代了               矩阵。这些向量可以被理解为两个偏置,它们并不依赖于查询的特征。c 促使模型对某些项的注意力程度比对其它项更高,而 d 促使模型对某些相对位置的注意力程度比对其它位置更高。这种替代的方式受到了下面这一事实的启发:查询相对于自己的相对位置始终保持不变。

2019年,公司B是依图科技第三大客户,销售金额为8477.85万元,占比为11.83%。2020年上半年,公司B位列第五大客户,销售金额为1720.09万元,占比为4.52%。

接下来,我们继续关注由 Nikita Kitaev 等人完成的工作「Reformer:The Efficient Transformer」(论文地址:https://arxiv.org/abs/2001.04451)。Reformer 对于长度增长的序列采用了另一种策略,他们选择通过局部敏感哈希技术将每个词例的注意力范围变窄,而不是引入循环机制或压缩内存。

作为托福考试官方ETS的重要合作伙伴,新航道托福培训业务自成立以来也取得了强劲的发展,新航道托福多次获得ETS官方的认可,是中国托福官方联盟三星成员!由海归名师团队组成的新航道“北美考试导师团”为帮助广大学员获得留学申请的语言核心实力。

图  9:压缩 Transformer 保留了过去的激活值的细粒度内存,它们随后被压缩到粒度较粗的压缩内存中。上图中的模型有一个三层的结构:(1)一个长度为 3 的序列(2)一个长度为 6 的内存(3)长度为 6 的压缩内存。高亮显示的内存在每层中被一种压缩函数 f_c 压缩到单个压缩内存中,而不是直接被接下来的序列忽略。在本例中,压缩比为 c=3。

依图科技销售费用率也远高于同行,2018年最高曾达到92.81%,2020年上半年销售费用率也高达41.66%。根据此前旷视科技披露的招股书,旷视科技销售费用率在2018年后已经降至20%以下。

为了使 Transformer-XL 模型能够使用长距离的上下文,每层中至少有一个注意力头必须利用其注意力跨度内的全部上下文。平均注意权重图显示,每一层都有一些注意力头,注意到先前许多的位置。

Transformer XL 通过强制地使段落被串行处理来解决这一限制。处理完成第一个段之后,先前段的激活值将作为上下文传递给后续段的注意力,因此始终有 512 个紧邻的字符的上下文被记录。这意味着跨度为 N 个上下文大小 * L 层的信息可以传播到给定的词例。假设上下文大小为 640,并且模型有 16 层,那么 Transformer XL 理论上至多可以考虑 10,240 个字符的信号。

多头自注意力机制扩展到长文本序列的能力很差,原因有二:

作为对比,寒武纪研发三款芯片的总投资额也仅为19亿元。

新航道多年蝉联“雅思官方英国文化教育协会白金级合作伙伴”,3年蝉联雅思官方合作伙伴“集团贡献奖”,2019年1月22日,在“雅思合作伙伴颁奖典礼暨雅思30周年启动庆典”上,新航道国际教育集团董事长兼CEO胡敏教授作为特邀嘉宾发表主题致辞,并作为雅思考试30周年见证代表与雅思官方东亚及中国区负责人一起共同开启30周年庆典仪式!

c)根据键的内容的查询位置偏置

值得注意的是,尽管密集注意力机制让每个注意力头可以关注整个上下文,但很多注意力头只考虑局部上下文,而其它注意力头则考虑了整个可用序列。他们建议通过使用一种自注意力的变体来利用这种观察结果,这种变体允许模型选择它的上下文大小。

在公开招聘中拒绝非全日制学历学生报考的情况不是孤例。此前,内蒙古鄂尔多斯市委办公室、鄂尔多斯市人力资源和社会保障局就杭锦旗和准格尔旗的教师招聘拒绝非全日制学历一事致歉,称确实存在有关考试组织人员由于不了解教育部等五部门今年新出台的《关于进一步做好非全日制研究生就业工作的通知》,在资格审核时对非全日制学历未予通过。但因为考试报名工作已结束,即将开考。鉴于考试工作组织程序的严密性,已不能够重新组织报名,对给网友带来的不便表示歉意。

募资方面,依图科技五个募投项目加补充流动资金合计募资75亿元,仅新一代人工智能IP及高性能SoC芯片项目的募集资金投入金额就达到23.18亿元。

图 2:稀疏 Transformer 的固定注意力变体。最深的蓝色方块代表「查询」向量,较浅的蓝色方块代表被奇数层注意的「键」向量索引,最浅的蓝色方块代表被偶数层注意的「键」向量索引。

b)基于键位置的查询内容位置偏置

新航道锦秋A-level课程在经过多年的沉淀打磨后,凝结新航道优质的师资团队,通过科学合理的课程设置,以精品教学,精致服务,高奖学金激励了更多学子更早,更好地走上剑桥,英国G5等全球名校!新航道锦秋A-level多校区成为Edexcel考试局授权的A_level考点!与此同时,2020 年,新航道国际教育集团全面进入考研培训领域,正式推出高端考研品牌“好轻松考研”。新航道“考研英语梦之队”是由长期从事英语教学与工作的资深老师组成,他们当中的大部分老师均有大学从教经历,他们中既有当过硕士生导师的教授、副教授,又有长期从事考研英语教学的教学培训专家。

除了采用巧妙的缓存策略,这种对长距离上下文的惩罚项使得跨度自适应 Transformer 可以使用使用高达 8k 个字符的注意力跨度,同时仍然保持模型的总体计算开销较低。此外,模型在基准对比测试中的性能仍然很高,在 Enwiki8 数据集上达到每字符占用 0.98 比特,在 text8 数据集上则达到每字符 1.07 比特。

图 11:通过词频刻画的离散特征桶(bucket)的困惑度

另外值得注意的是,依图科技不仅是家AI视觉公司,还发展了AI语音和AI语义两个方向,募投项目5就为新一代语音语义能力平台项目。

d)根据键的位置的查询位置偏置

第一,计算注意力矩阵所要求的每秒浮点运算数(FLOPs)与序列长度的平方成正比,导致单个序列上的自注意力运算的计算复杂度为              ,其中 h 是注意力头的数量,d 是键向量和查询向量的维数,n 是序列的长度。

唐珂回应称,我国进口大豆主要是用于榨油,满足国内食用植物油和豆粕饲料需求。主要的进口国是巴西、美国、阿根廷。今年以来,新冠肺炎疫情全球扩散客观上抑制了大豆需求,加上油价低迷打压了生物质燃料的需求,所以全球大豆的供需是宽松的,国际上大豆市场价格总体稳定,客观上有利于我国大豆进口。

相比寒武纪这类纯AI芯片公司,依图科技在下游应用方面更具经验,但在研发AI芯片能力方面,和寒武纪可能还存在一定差距,并且还牵涉到并购整合问题,存在一定不确定性。

依图科技成立于2013年,和商汤科技、旷视科技、云从科技一样,均以AI视觉算法起家,被业内称之为“AI四小龙”。

依图科技在AI产业链垂直(芯片、服务器、应用)和横向(视觉、语音、语义)两个维度都布局甚广,似乎已经有了AI行业巨兽的骨架。

Adaptive Span Transformer 通过实现这一点的方式是:通过对序列进行掩模运算,使得学习到的每个注意力头的上下文之外的词例的贡献迅速降为零。mask(M)与 softmax 操作的分对数相乘,从而将某些词例对当前隐藏状态 x 的贡献归零,超参数 R 控制最小跨度的大小。

然而,可变跨度大小的注意力在并行性方面并不理想,因为我们通常希望使用密集、大小一致的矩阵,从而获得最佳性能。虽然这种方法可以显著减少在预测时计算前向传播所需的每秒浮点运算次数,但作者只给出了模糊的性能估计,声明自适应跨度的实现使我们可以以与 2,048 个上下文词例的上下文大小固定的模型相近的速率处理长达 8,192 个词例的上下文。

唐珂指出,从数据看,今年以来,我国大豆进口数量增加,当前价格小幅上涨。据海关统计,1-7月累计,我国进口大豆5514万吨,同比增加了17.6%,其中7月份进口大豆1009万吨,同比增加了16.8%。7月份,山东地区进口大豆到岸税后价每斤1.62元,环比涨1.6%,同比涨2.5%。从国产大豆看,今年受食用需求旺盛拉动,国产大豆价格持续向好。据监测,7月份黑龙江国产食用大豆平均收购价每斤2.75元,环比涨8.2%,同比涨51.2%。

澎湃新闻注意到,在内蒙古自治区党委组织部发布今年选调生招录公告前的4月22日,内蒙古自治区教育厅等五部门还转发了教育部的上述文件。五部门在转发教育部通知时提醒各盟市委组织部,各盟市教育局、人力资源和社会保障局、公安局、国资委,自治区各部门,各自治区直属企业、事业单位,各高等学校要充分认识国家发展非全日制研究生教育的重要意义,以及不同教育形式的研究生学历学位证书同等法律地位和相同效力,强化就业权益保护,在招录、招聘和落户等方面对不同教育形式的研究生提供平等机会,共同做好非全日制研究生就业工作。

传统自我注意力机制的一大好处是,高度的连通性使词例 (token) 之间的信息容易流通,仅需一层即可聚合来自任何两个词例的信息。但是,如果放宽此约束,并确保任意两个词例之间的信息只能在经过两层之后才可以流通,则可以极大地降低长序列带来的复杂性。稀疏 Transformer 通过编写利用固定注意力模式的自定义核来实现此目标。

销售策略为何如此激进?

原标题:非全学历无法报考选调生,内蒙古教育厅:招考可按需设条件

依图科技另一个让人费解的点就是历年前五大客户并不稳定,且存在较多隐去公司真实名称情况。其中,公司B存在较大疑问。

对此,内蒙古自治区教育厅机关党委工作人员回应澎湃新闻,原则上各部门应当按照教育部的通知精神来组织招聘,但具体的招考计划制定是由招考部门自己决定的,招考部门可以根据自己的需要来设定招聘条件。

募资75亿元是狮子大开口吗?

图 3:BERT 学到的注意力模式示意图,线的深度表明了注意力权重的强度(其中有一些注意力权重太小,以至于线变成了透明的)

要在自己的项目中使用固定注意力kernel,请查看OpenAI的blocksparse库和作者作为开源发布的附带示例。

二者募资金额差异背后,其实还是对于资金焦虑程度不同。寒武纪申请上市时并不缺钱,上市前一期财报的货币资金加理财超过40亿元,2019年经营性现金流流出2亿元,后续如果保持这一烧钱速度,还可以支撑很久。而依图科技目前账面仅有货币资金15.58亿元,2019年经营性现金流流出11.2亿元,后续如果按照这一烧钱速度,仅够支撑一年。

DeepMind 的研究团队尝试使用了各种各样的压缩操作(包括平均池化、最大池化、学习到的卷积操作等对比基线),但是他们最终决定训练一个辅助网络,该网络被用于重建基于内容的被压缩的内存的注意力矩阵。换而言之,他们学习了一种函数              ,该函数通过最小化压缩内存上的注意力              与被压缩的常规内存中状态的注意力之间的差异,将最早的 n 个内存状态压缩到了单个压缩后的内存状态中:

2020年,依图科技再进一步全面收购了熠知电子,构成非同一控制下企业合并,公司账面形成商誉14.96亿元。

依图科技在规模不大的情况下,战线拉得可能过长了,后续公司对融资的渴求可能还是个无底洞。

一半的注意力头只关注较短的局部上下文中的项,而剩余的一半注意力头关注的是预先指定好的在整个序列中均匀分布的索引。通过根据这些聚合索引确定信息流动路径,网络仍然能够使得相距较远的词例间传递信息,并使用长距离上下文,同时将时间和内存复杂性降低到              。重要的是,它只需要两层就可以让任意词例考虑来自任何其它词例的信息。

事实上,就在今年2月14日,教育部下发《关于进一步做好非全日制研究生就业工作的通知》,明确用人单位招用人员应当向劳动者提供平等就业机会。各级公务员招录、事业单位及国有企业公开招聘要根据岗位需求合理制定招聘条件,对不同教育形式的研究生提供平等就业机会,不得设置与职位要求无关的报考资格条件。各地要合理制定人才落户条件,精简落户凭证,简化办理手续,为不同教育形式的研究生提供平等落户机会。

在上面的公式中,              表示基于内容的注意力在位置 i 处的词例的嵌入 ,              是词例 j 的位置编码嵌入。其中,每一项的含义如下:

天眼查App还显示,北京丰盈地址为北京市海淀区海淀大街8号A座10层D1区。与此同时,思图场景为依图科技间接持有14.26%股权的参股公司,属于关联方,且为依图科技2017年的第三大客户。思图场景官网显示,公司办公地址位于北京市海淀区海淀大街8号中钢集团大厦A座10层,和北京丰盈办公地址相同。

求索芯片的算力为15TOPS@INT8,相比两款竞品略逊一筹,求索芯片最大功耗为15W,和竞品差距还较大。

2019年5月,依图科技发布求索芯片,报告期内,公司尚未对求索芯片进行单独销售,而是基于求索芯片研发智能服务器及智能边缘计算设备并对外销售。

2、对注意力的思考和实验结果

显然,北京丰盈的独立性是存在疑问的。而对于公司B的真实背景,依图科技可能需要做出更多解释。

他们应用了一个学习到的z值的               惩罚项,以鼓励模型仅在有益的情况下使用额外的上下文。

图7:Transformer-XL 中的词例注意力模式,其中端的长度为 4

Transformer-XL 还引入了一种新的位置编码方案,即“相对位置编码”。这种方案不再简单地将内容和绝对位置嵌入的总和作为网络输入,而是对每层的注意力操进行分解,其中一部分基于内容执行注意力,另一部分基于相对位置执行注意力。因此,块中的第 512 个词例会注意到第 511 个词例,在这里会采用 相对位置 -1 相应的嵌入。

优秀的师资队伍、强劲的教学与学术研发实力和优质的服务,新航道学校奔跑在民办教育之路上。不论是教学、研发还是服务,让学员在心中实实在在地感受得到,切切实实帮助学员提升英语成绩、达到学习效果是新航道努力追求的方向,相信在未来的发展道路上,新航道天津学校必将秉承新航道“用心用情用力做教育”这一经营理念,秉承“英语高能高分”的教育理念,为更多津城学子贡献一份力量,圆更多家庭留学梦!

图 1:以一种自回归的形式组织的传统自注意力机制的连接模式。深蓝色方块代表「查询」向量,而浅蓝色方块代表「键」向量。

为了使相对位置编码易于处理,他们将生成注意力权重的操作和键和生成查询向量、键向量的操作分离。对于典型的密集注意力机制,进行 softmax 计算之前的注意力可以被分解如下:

由于让状态容易被压缩与减小语言模型的损失是相矛盾的,他们选择在一个独立的优化循环中更新压缩网络,而不是同时训练这种压缩操作和主要的语言模型。

由于这些限制,大多数注意力头只关注少于100 字符的上下文,而只有少数(主要是在网络的后几层)选择添加一个              惩罚项,从而学习大于 1000 个字符的上下文。

我们用 BERT-Base 中的一些具体数字来解释一下复杂度到底有多高。BERT-Base 序列输入的最大长度为 512,768 个的隐藏维度和 12 个注意力头,这意味着每个注意力头有 64 维(768/12)。在这种设定下,需要 393,216 个浮点数(约为 1.5MB)(12 个注意力头* 64 注意力头的维度* 512 序列长度)来存储键和值,而存储所有注意力头得到的标量注意力值所需的内存将达到 3,145,728 个浮点数(12 * 512 * 512)或约 12MB 的设备内存,这里所需的内存几乎是将键存储在长度为 512 个词的上下文时的 10 倍。

鄂尔多斯方面还表示,已责令相关旗区和部门在今后的招聘考试中,严格贯彻落实好国家和自治区关于非全日制研究生就业有关政策,根据岗位需求合理制定招聘条件,对相关人才提供平等就业机会。

财务数据显示,依图科技2017年、2018年、2019年和2020年上半年收入分别为6871.89万元、3.04亿元、7.17亿以及和3.8亿元,同期亏损分别为11.68亿元、11.68亿元、36.47亿元和13.03亿元。

之所以选择了参股而不是直接设立,可能的原因是依图科技两位创始人朱珑、林晨曦均精通算法,却缺少芯片背景,不得不从外部寻找团队,以至于需要稀释较大的股份。

在实验中,他们设置压缩内存的大小为 512,正规内存的大小为 512,滑动窗口大小为  512,压缩率为 2(这意味着最早的 2 个内存状态会在压缩步骤中被压缩到单个状态中)。在这样的实验环境下,他们取得了目前最好的实验结果——在 WikiText-103 数据集上取得了 17.1 的困惑度。

但是细看招股书,却可以发现依图科技的商业模式和其他AI企业不尽相同。从公司的营收结构中,可以清晰看到公司业务重心,经历着“从软到硬”的变化。

a)基于键内容的查询内容“寻址”

营收构成方面,2017年软件收入为3841.3万元,占比55.9%,这一比例逐年降低,到2020上半年已经下降到14.82%,与此同时,软硬件组合收入比例在上升,从2017年的10.32%上升至2020年上半年的60.78%。

标准 transformer 的上下文大小是固定的,要想处理长的输入需要将输入分成块(段落),并分别处理每个块(段落)。

图 10:将过去存储的内存逐渐压缩到压缩内存中。