悟道·天鹰 Aquila + 天秤 FlagEval,打造大模型能力与评测标准双标杆
导读:
[悟道·天鹰 Aquila + 天秤 FlagEval,打造大模型能力与评测标准双标杆
为推动大模型在产业落地和技术创新,智源研究院发布“开源商用许可语言大模型系列+开放评测平台” 2 大重磅成果,打造“大模型进化流水线”,持续迭代、持续开源开放。
悟道·天鹰(Aquila)开源商用许可语言大模型系列
悟道·天鹰(Aquila) 语言大模型是首个具备中英双语知识、支持商用许可协议、国内数据合规需求的开源语言大模型。
悟道·天鹰(Aquila)语言大模型在中英文高质量语料基础上从 0 开始训练,通过数据质量的控制、多种训练的优化方法,实现在更小的数据集、更短的训练时间,获得比其它开源模型更优的性能。系列模型包括 Aquila基础模型(7B、33B),AquilaChat对话模型(7B、33B)以及 AquilaCode-7B “文本-代码”生成模型,后续将持续更新迭代并开源更新版本。
Aquila基础模型(7B、33B)在技术上继承了 GPT-3、LLaMA 等的架构设计优点,替换了一批更高效的底层算子实现、重新设计实现了中英双语的 tokenizer,升级了 BMTrain 并行训练方法,实现了比 Magtron+DeepSpeed ZeRO-2 将近8倍的训练效率。
AquilaChat 对话模型(7B、33B)支持流畅的文本对话及多种语言类生成任务,通过定义可扩展的特殊指令规范,实现 AquilaChat对其它模型和工具的调用,且易于扩展。例如,调用智源开源的 AltDiffusion 多语言文图生成模型,实现了流畅的文图生成能力。配合智源 InstructFace 多步可控文生图模型,轻松实现对人脸图像的多步可控编辑。
AquilaChat 训练过程中,实现了模型能力与指令微调数据的循环迭代,包括数据集的高效筛选与优化,充分挖掘基础模型的潜力。
图注:多轮对话
图注:高考作文生成
AquilaChat 支持可扩展的特殊指令规范,令用户可在AquilaChat中轻松实现多任务、工具的嵌入,如文图生成,下图示例为在对话中调用智源开源的多语言文图生成模型 AltDiffusion。
图注:文图生成
AquilaChat 具备强大的指令分解能力,配合智源InstructFace多步可控文生图模型,轻松实现对图片的多步可控编辑。
图注:多步可控人脸编辑
AquilaCode-7B “文本-代码”生成模型,基于 Aquila-7B 强大的基础模型能力,以小数据集、小参数量,实现高性能,是目前支持中英双语的、性能最好的开源代码模型,经过了高质量过滤、使用有合规开源许可的训练代码数据进行训练。
此外,AquilaCode-7B 分别在英伟达和国产芯片上完成了代码模型的训练,并通过对多种架构的代码+模型开源,推动芯片创新和百花齐放。
图注:文本-代码生成
天秤(FlagEval)大模型评测体系及开放平台
天秤(FlagEval)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。目前已推出语言大模型评测、多国语言文图大模型评测及文图生成评测等工具,并对各种语言基础模型、跨模态基础模型实现评测。后续将全面覆盖基础模型、预训练算法、微调算法等三大评测对象,包括自然语言处理(NLP)、计算机视觉(CV)、语音(Audio)及多模态(Multimodal)等四大评测场景和丰富的下游任务。
首期推出的 FlagEval 大语言模型评测体系,创新构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果,总计 600+ 评测维度,任务维度包括 22 个主观&客观评测数据集。除了知名的公开数据集 HellaSwag、MMLU、C-Eval等,FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大学与闽江学院共建的语义关系判断、多义词理解、修辞手法判断评测数据集。更多维度的评测数据集也在陆续集成中。
FlagEval 评测榜单目前涵盖了前面谈到的22 个主观和客观评测集,84433 道题目,细粒度刻画大模型的认知能力。基于“悟道 · 天鹰”Aquila 基础模型(7B)打造的 AquilaChat 对话模型,在 FlagEval 大语言模型评测榜单上,目前暂时在“主观+客观”的评测上领先其他同参数量级别的开源对话模型。
在我们当前的最新评测结果中,AquilaChat 以大约相当于其他模型 50% 的训练数据量(SFT 数据+预训练数据分别统计)达到了最优性能。但由于当前的英文数据仅训练了相当于Alpaca的40%,所以在英文的客观评测上还暂时落后于基于 LLaMA 进行指令微调的Alpaca。随着后续训练的进行,我们相信很快可以超越。
悟道·天鹰(Aquila)模型还在迭代进步的过程中,天秤(FlagEval)评测能力也在不断的扩充中, 因而此评测结果只是暂时的,新的评测结果还会不断更新。此外,FlagEval的评测体系方法及相关研究还需要继续深入,当前对模型能力的覆盖程度仍有很大的进步空间,智源也期待与多方合作,共同打造全面、科学的评测方法体系。
天秤(FlagEval)开放评测平台现已开放申请(flageval.baai.ac.cn),打造自动化评测与自适应评测机制,可辅助模型研发团队利用评测结果指导模型训练,同时支持英伟达、昇腾(鹏城云脑)、寒武纪、昆仑芯等多种芯片架构及 PyTorch、MindSpore 等多种深度学习框架。
本文链接:http://www.soxunwang.com/kjrd/2023/0706/107967.html
声明:
1、此文内容为本网站刊发或转载企业宣传资讯,仅代表作者个人观点,供读者参考。
2、搜讯网所转载的稿件都会明确标注作者和来源,如您不希望被转载请及时与我们联系删除。
3、搜讯网的原创文章,请转载时务必注明文章作者和"来源:搜讯网",不尊重原创的行为搜讯网或将追究责任。
4、本站提供的图文仅供参考,不能作为任何咨询依据,专业问题请咨询专业人士,谨防受骗。

2023 WAIC|坚持跨界融合 脑机接口将发布阶段性成

颜值更诱人长安欧尚Z6新能源,令人心动难耐想要入

助推RASP2.0 领航ADR新赛道 边界无限打造应用安全

法律科技新突破:法狗狗LegalChat发布会见证法律

《赛博朋克2077》推出资料片 华硕吹雪主板带你了

赛力斯周林:以用户需求为中心,持续进行技术创新

再次突破!联想绿色智城解决方案名列《2022-2023

构建本地存储产业链,江波龙拟购买力成苏州70%股

2023DTM德国房车大赛赞德沃特站圆满落幕,见证速

京东企业业务“创新服务行动”于联合国中小微企业

聆听猫王Hi-End小障板音箱,了解“猫王音响”创始

青团社获人社部官方推荐!数字技术保障零工就业发

关注搜讯网微信号
扫描加关注!

搜讯网福利发放
-
助推RASP2.0 领航ADR新赛道 边界无限打造应
助推RASP2.0 领航ADR新赛道 边界无限打造应用安全防护新范式
-
《赛博朋克2077》推出资料片 华硕吹雪主板
《赛博朋克2077》推出资料片 华硕吹雪主板带你了解
-
悟道·天鹰 Aquila + 天秤 FlagEval,打造
悟道·天鹰 Aquila + 天秤 FlagEval,打造大模型能力与评测标准双标杆
-
开箱即用,青云QKE容器引擎为企业云原生转
开箱即用,青云QKE容器引擎为企业云原生转型省时、省力、省钱