如何将Pegasus这种大型文本摘要模型 上线服务

Published on Aug. 22, 2023, 12:11 p.m.

2022-07-02 05:38:47 星期六

最近又尝试了下谷歌的这个模型,在文本摘要和标题生成任务上的表现着实很惊艳。另外我还在尝试给文本内容生成评价回复,效果也是很好的,而且收敛速度也是极快的。tks kaggle


大模型虽然好,但是上线这钱没几个能烧的起。这时候蒸馏就是一个 不错的选择

一旦我们训练了高质量的模型,我们的挑战就转向了在生产中为模型服务。虽然编码器-解码器架构的 Transformer 版本是为序列到序列任务(如抽象摘要)训练模型的主要方法,但在实际应用中服务可能效率低下且不切实际。主要的低效率来自 Transformer 解码器,我们通过自回归解码逐个令牌生成输出摘要令牌。当摘要变得更长时,解码过程变得明显变慢,因为解码器在每一步都处理所有先前生成的令牌。RNN 是一种更有效的解码架构,因为没有像 Transformer 模型中的先前标记的自我注意。

我们使用知识蒸馏(将知识从大型模型转移到更小更高效模型的过程)将 Pegasus 模型提炼为 Transformer 编码器和 RNN 解码器的混合架构。为了提高效率,我们还减少了 RNN 解码器层的数量。生成的模型在延迟和内存占用方面有显着改善,而质量仍与原始模型相当。为了进一步改善延迟和用户体验,我们使用TPU提供摘要模型,这提供了显着的加速并允许单台机器处理更多请求。

仍在继续应对挑战:

文档覆盖率:由于文档之间存在巨大差异,因此很难为微调阶段开发一组文档,在推理时也存在同样的挑战。我们的用户创建的一些文档(例如,会议记录、食谱、课程计划和简历)不适合总结或难以总结。目前,我们的模型仅建议对最有信心的文档进行摘要,但我们希望随着模型的改进继续扩大这一集合。
评估:抽象摘要需要捕捉文档的本质,同时流利且语法正确。一个特定的文档可能有许多可以被认为是正确的摘要,并且不同的读者可能喜欢不同的摘要。这使得仅使用自动指标评估摘要变得困难,用户反馈和使用统计数据对于我们理解和不断提高质量至关重要。
长文档:长文档是模型最难总结的一些文档,因为它更难捕获所有点并将它们抽象在一个摘要中,而且它还可以显着增加训练和服务期间的内存使用量。然而,长文档可能对模型自动总结最有用,因为它可以帮助文档编写者在这项繁琐的任务中抢占先机。我们希望我们可以应用最新的 ML 进步来更好地应对这一挑战。

http://ai.googleblog.com/2022/03/auto-generated-summaries-in-google-docs.html