在蒙特利尔的NeurIPS 2018会议上接受的一篇论文( 内容保留文本生成与属性控制 )中,来自密歇根大学和谷歌大脑的数据科学家描述了一种机器学习架构,它不仅能够生成给定样本的句子,但是在保留其原意的同时改变原始文本的情绪,复杂性,紧张甚至声音。

这可能有一天会用于复述,团队假设,机器翻译和会话系统。它可以补充11月微软研究所展示的系统,它利用复杂的自然语言处理技术推理弱结构化文本中的关系。

在这项工作中,我们解决了修改句子文本属性的问题, 研究人员写道。 据我们所知,我们演示了第一个学习如何在没有并行数据的情况下修改给定句子的多个文本属性的实例。

该团队首先解决了情绪控制问题。他们采购了餐馆评论数据集 - Yelp评论数据集的过滤版本 - 以及大量的IMDB电影评论,分别为447,000和300,000个句子,用于训练系统。

在培训之后,研究人员使用128,000次餐厅评论和36,000次电影评论的测试数据集,尝试从具有负面情绪的句子中生成具有正面情绪的文本片段,反之亦然。

评估BLEU-- 双语评估替代 的缩写,是评估机器翻译文本的标准指标 - AI系统能够胜过两种领先的文本生成方法。此外,它始终生成与输入句子相关的语法正确句子 - 在某种程度上,亚马逊机械土耳其人的研究参与者认为其输出比以前的方法更加真实。

生成的句子令人惊讶地连贯。在一个例子中 柜台后面的人不友好 变成 柜台上的人非常友好和乐于助人。 在另一个例子中,模特翻转了 这是关于电影的另一个有趣的方面 , 没有赎回的品质 关于这部电影。

更令人印象深刻的是,另一项测试中的研究人员使用该系统同时控制句子的多种属性 - 包括情绪,时态,声音和情绪。在对来自多伦多BookCorpus数据集的200万个文本片段的数据集进行培训之后,该模型能够将未来时态中的指示性情绪( John将无法在阵营中生存 )中的句子翻译为条件时态中的虚拟语气( 约翰不能住在营地 )。

我们证明我们的模型通过各种实验和指标有效地反映了条件信息, 研究人员写道。 虽然以前的工作主要围绕控制单个属性并在两种样式之间进行转换,但建议的模型很容易扩展到多属性场景。在此框架中考虑具有连续值的属性以及更大的语义和句法属性集将是有趣的未来工作。

点赞(0) 打赏

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部