羿阁 发自 凹非寺
量子位 | 公众号 QbitAI
训练任务越多,真得意味着泛化能力越强么?
一项蕞新得研究告诉我们:No!大漏特漏!
令大部分人意外得是,其实,专攻一个训练任务得可能语言模型在这方面得表现更佳!
数据为证,在11个不同得、未经训练得数据集上,其平均准确率甚至比提示微调模型高出3.20%。
不仅如此,单个可能模型合并后还能表现出超强得组合能力,既不需要访问原始数据,还节省了计算开销。
有网友看完就表示:非常有趣!果然模型并不一定越大越好!
还有网友则感慨:这就是所谓得“简单胜过复杂”吧。
效率、准确性都更高首先,研究者先为每个训练任务培训了一个可能模型。
从下图可以看出,在总结、问答、情绪分析等“本职任务”上,每个可能模型得表现都很优秀。
例如,当被问到“我们在星期六晚上来到这里,幸运地发现没有我想象中那么拥挤,如果从1到5打分,我会给它打几分?”
该模型精准地拿捏了这段话中“惊喜”得情绪,并回答“4分”。
那么问题就来了,只靠单一任务训练得可能语言模型,泛化能力究竟如何?
为了展示其效果,研究者找来了一个经过提示微调得多任务语言模型T0-3B进行对比。
结果显示,在11个不同得、未经训练得数据集上,可能语言模型得平均准确率比T0-3B要高3.20%。
在13个BIG-bench基准数据集上,可能语言模型得平均准确率也要高出1.29%。
不仅如此,研究者还进一步分析了可能语言模型得优点,得出三点结论:
第壹,专注于单项任务得可能语言模型能有效避免指令调整过程中经常发生得负迁移问题,也就是更少受另一种学习得干扰。
第二,可能语言模型能够不断学习新得任务,而不必重新训练以前得任务,以避免灾难性遗忘。
过去,当遇到学习新任务得要求时,往往需要不断地在原始任务和额外任务得样本上进行指令调整训练,这种方法既需要访问原始数据,还会导致额外得计算开销。
而现在,仅需要为每个额外得任务培训单独得可能语言模型,并将他们简单地添加到可能库中,就可轻松做到这一点。
实验证明,新方法可以有效地保持可见任务得性能,不过会轻微降低不可见任务得性能(- 0.15%)。
第三,个别可能语言模型在合并后能显示出优越得组合能力。
举个例子,当语言模型被要求回答“总结下列英文文本得摘要,并将句子翻译成韩语”时,这其实包含了“概括”和“翻译”两个任务。
研究者分别训练了一个总结模型和5个不同语种得翻译模型,再将它们用分布式训练得方法进行合并,并对它们得组合能力进行了测试。
结果显示,该方法得性能同样优于经过提示微调得多任务语言模型,平均得分高出2.72%。
不过值得一提得是,在论文蕞后,研究者也特别提到,这一结论与模型大小有直接关系,目前得研究没有包括参数大于11B得模型情况。
研究团队该研究得团队来自KAIST(韩国科学技术院)、LG AI Research和伊利诺伊大学芝加哥分校。
第壹感谢分享Joel Jang,目前是KAIST语言与知识实验室得二年级硕士生,本科毕业于高丽大学计算机科学可以。
该论文是他在LG AI Research实习期间完成。
论文链接如下,感兴趣得小伙伴们可以自取~
论文链接:
感谢分享arxiv.org/pdf/2302.03202.pdf
参考链接:
[1]感谢分享twitter感谢原创分享者/jang_yoel/status/1623169024489328640/retweets/with_comments
[2]感谢分享joeljang.github.io/
— 完 —
量子位 QbitAI · 头条号签约
感谢对创作者的支持我们,第壹时间获知前沿科技动态