脸书刷赞网站--facebook刷播放量网站

首页 Facebook 作者：coolfensi 2023年02月19日热度：59 评论：0

时间：2023-2-19 2:05 热度：59°

作者：Kyle Wiggers – VentureBeat，April 29，2020

编译：Florence Wong – AICUG

Facebook的开源聊天机器人Blender，人们说感觉更人性化

今天，Facebook的AI和机器学习部门Facebook AI Research（FAIR），详细介绍了他们在综合AI聊天机器人（成为Blender）框架中的工作。 FAIR声称Blender已在GitHub开源，且是最大的开放域聊天机器人，其性能优于现有的生成对话的方法，同时可以使人类感到更人性化（根据人类评估者的判断）。

FAIR说Blender是将同情心，知识和个性结合的一个系统，是多年研究的高峰。该基础模型，受益于改进的解码和技能融合技术，且包含多达94亿个参数（定义给定问题的技能的配置变量），比以前的系统多3.6倍。

Blender承诺，在企业，工业或面向消费者的环境中，与对话式AI系统（如Alexa，Siri和Cortana）的交互将比以往更加自然。那是因为，他们能够提出并回答各种各样的问题；显示有关特定主题的知识；并根据情况表达同情，认真或好玩的情绪。

融合技能和生成策略

为了达到Blender的最新性能，FAIR的研究人员专注于两个工程步骤：混合技巧和生成策略。

混合技能是指选择任务，这些任务优于缺少调适功能的那些较大模型。正如FAIR研究人员在论文中指出的那样，可以通过对数据模型进行微调适来增强聊天机器人的功能，这些模型强调所需的会话技巧。事实证明，这些调适，还可以最大程度地减少，从大数据集中所学到的那些不良特征，例如毒性。

关于生成策略，对解码算法的选择（一种用于从语言模型生成文本的算法）会对聊天机器人的反应产生巨大影响。由于机器人的回复时间长短往往与人类对质量的判断相对应，因此希望通过解码器能够取得适当的平衡。回复时间过短通常会被认为是呆板或缺乏兴趣，而回复时间过长则表示感到胡扯或分散注意力。

上图：与Blender聊天机器人的对话。 Blender的回复为蓝色。

在这些工程步骤的过程中，研究人员测试了三种类型的模型体系结构，所有这些模型体系结构均以Transformers为基础。Transformers-Google的一项创新-包含神经元（数学功能），这些神经元以层状排列，可以传输来自输入数据的信号，并调整每个连接的强度（权重），这点和所有深度神经网络如出一辙。这就是Transformers如何提取特征并学会做出预测的，但是Transformers也有注意力。这意味着，每个输出元素都连接到每个输入元素，并且他们之间的权重是动态计算的。

第一个模型是一个检索器模型，该模型以对话历史（或上下文）为输入，然后通过对大量候选回复进行评分，并输出评分最高的一个回复，从而来选择下一个对话回复。 FAIR研究人员采用了一种多编码器体系结构，该体系使用每个候选回复所伴随的表示来对上下文的特征进行编码，他们说，与其他体系结构（如交叉编码器）相比，它在提高性能的同时保持了易处理的计算能力。

第二个模型是生成器，它生成回复而不是从固定集中检索回复。这三个模型可从参数使用量来理解，范围从9000万个参数到27亿个参数到94亿个参数。

第三个模型试图解决生成器的问题，即生成器会有合成重复回复和产生幻觉的倾向。采取了检索和精炼（RetNRef）方法，其中上述的检索模型，在提供对话历史记录时，产生一个回复，然后将回复附加到生成器的输入序列中。通过这种方式，生成器学习了何时从检索器复制回复元素，以及何时不去复制，因此它可以输出更有趣，更引人入胜且充满活力的回复。（检索器模型会产生由人工编写的回复，与标准的生成模型相比，该回复往往包含更生动的语言。）

FAIR团队将向导生成模型与另一个检索器配对后，共同确定了何时将知识纳入聊天机器人的回复中。这两个模型产生一组初始知识候选者，然后对这些候选者进行排名，然后选择一个句子并将其用于条件回复的生成。分类器根据每个对话，选择是否执行检索，从而避免在不需要的时候去提供知识。

解码

对于生成模型，FAIR研究人员使用波束搜索解码器方法，从而来生成面向给定对话上下文的回复。波束搜索，维护了一组被称为假设的部分解码序列，这些序列被附加以形成序列，然后被进行评分，从而使最佳序列冒泡到顶部。

为了控制聊天机器人的回复时间，FAIR团队考虑了两种方法：对最少回复生成的硬约束，以及一个分类器-可预测回复时间长度并将约束设置为其相应的预测。后者更为复杂，但使对问题的回答长度可变，从而确保聊天机器人在看起来合适时，可以提供较长的回答。

训练模型

接下来，FAIR团队使用另一个Facebook开发的套件ParlAI对模型进行了微调，该套件旨在训练和测试对话模型。ConvAI2是被选择的一个训练语料库，其中包含14万会话，涉及每个对话中成对的志愿者，在对话中，他们通过发问和回答友好的问题而相互认识。另一个是善解人意的对话（Empathetic Dialogues），其中包含50,000种基于情感情况的众包的话语。另一个数据集-维基百科向导-由1,250个主题的194,000个对话组成，其中每个对话都从随机选择的主题开始，目标是展示专业知识。

第四个微调数据集-Blender技能对话-旨在融合前三个集合（ConvAI2，Empathetic Dialogues和维基百科向导），从而在对话期间结合集合各自的技能。在这里，有76,000条对话是由有指导和无指导的人类说话者收集的，在这种情况下，有指导者可以选择经机器人建议的对话，这些机器人根据三个独立的数据集进行训练。

评估

对话的主题从烹饪，音乐，电影和宠物到瑜伽，素食主义者，乐器和购物中心不等-Blender模型在被询问介绍并命名相关的商店，乐队，电影，演员，宠物种类和宠物名称时，经常会给予细节。在一个示例中，Blender提供了一个关于巴赫与贾斯汀·贝伯相比的问题的细微差别的答案，同时Blender被要求写一首歌，Blender确实产生了歌词-尽管没有什么特别诗意。

当演示与Meena的聊天和与Blender的聊天时，67％的评估者说，性能最好的Blender支持的聊天机器人（该生成模型包含在混合技能对话（Blended Skill Talk）语料库中预先训练的94亿个参数）听起来更像人类。大约75％的人表示，他们希望与那个有27亿参数的微调模型的机器人进行长时间的交谈，而不是与Meena进行长时间的交谈。并且，在人与人之间，以及人与Blender对话之间的A / B比较中，志愿者表达了，49％的时间中，他们偏爱在Blended Skill Talk进行过微调的模型，而对于那些仅在公共领域对话中进行过训练的模型，仅仅36％的时间是喜欢的。

问题在于，进一步的实验表明，Blender有时会从训练语料库（主要是Reddit评论）中以冒犯性样本的方式做出回复。 FAIR研究人员表示，微调Blended Skill Talk数据集可以在一定程度上缓解这种情况，但是要全面解决该问题，则需要使用不安全的单词过滤器。和一种安全分类器。

上图：这里，Blender不断重复和自相矛盾，忘记并幻化了知识。

当然，FAIR研究人员并没有声称他们已经解决了开放域对话的问题。实际上，它们概述了Blender的几个主要限制：