度小满开源国内首个千亿参数金融大模型“轩辕”

来源：雷锋网 2023-05-26 19:38:28

(资料图)

近日，度小满正式开源国内首个千亿级中文金融大模型—— " 轩辕 "。轩辕大模型是在 1760 亿参数的 Bloom 大模型基础上训练而来，在金融名词理解、金融市场评论、金融数据分析和金融新闻理解等任务上，效果相较于通用大模型大幅提升，表现出明显的金融领域优势。

在金融场景中的任务评测中，轩辕全面超越了市场上的主流开源大模型，赢得了 150 次回答中 63.33% 的胜率，充分凸显了其在金融领域的显著优势。在通用能力评测中，轩辕有 10.2% 的任务表现超越 ChatGPT 3.5，61.22% 的任务表现与之持平，涉及数学计算、场景写作、逻辑推理、文本摘要等 13 个主要维度。

为了提升轩辕大模型对金融领域问题的理解能力，度小满将自身业务中积累的金融领域的千亿 tokens 的中文预训练数据集用来训练模型。该数据集涵盖了金融研报、股票、基金、银行、保险等各个方向的专业知识。度小满表示，经过清洗和标注的高质量数据集，不仅在通用性方面与 ChatGPT 达到持平成为可能，且显著提升了模型在金融垂直领域的性能。

BLOOM （Big Science Language Open-science Open-access Multilingual）是 2021 年由 1000 多名志愿研究人员在一个名为 " 大科学 BigScience" 的项目中创建，2022 年 7 月 12 日正式发布。BLOOM 拥有 1760 亿个参数（决定输入数据如何转换为输出内容的变量），稍多于拥有 1750 亿个参数的 GPT-3。BLOOM 拥有 1.61TB 文本，包含 46 种自然语言和 13 种编程语言。相比 Meta 发布的 130 亿参数的 LLaMA（Large Language Model Meta AI）模型，Bloom 参数量更占优势。

目前，千亿级的轩辕模型已可以在 Huggingface 中申请下载，面向所有金融机构开放。下载地址：https://github.com/Duxiaoman-DI/XuanYuan

度小满 CTO 许冬亮表示，轩辕大模型是经度小满业务场景中积累的金融数据训练而来的，对金融相关问题的理解比通用大模型更有优势。我们把大模型能力开放给金融机构，有利于推动大模型在金融行业的应用，降低大模型的应用门槛，提升金融行业智能化水平。

作为 AI 新基建，大模型在金融及各个行业有着广泛的应用场景。轩辕大模型开源后，对金融机构有何意义？

许冬亮认为，生成式大模型在内容生成与创作、信息摘要与总结、知识理解与问答、自然交互与对话等方面具备非常出色的能力，在金融场景中会有广泛的应用。在前台，生成式大模型将大幅提升客户经理的专业水平和服务能力，大幅降低客户经理的运营成本，让每个人都拥有 24 小时在线的专业客户经理成为可能。出色的内容生成能力也将引发营销内容生产能力的大幅提升。在中台，生成式大模型有机会改变企业内知识获取、内容创作、会议与沟通、代码开发与测试的方式，进而大幅提升企业内部办公效率，甚至引发研发测试模式变革，全方位的提升金融企业内部运营效率。在后台，大模型将成为智能科技底座的标配，大幅降低智能技术应用的门槛，只需少量标注数据甚至无需调整就可以让智能技术覆盖广泛的场景。

度小满依托于百度人工智能技术，已经开展了一系列基于大模型的应用。以风险管理为例，度小满已经将大型语言模型 LLM 应用在互联网文本数据、征信报告的解读上，通过用文本数据构造的预训练模型以及 AI 算法，能够将征信报告解读出 40 万维的风险变量，更好的识别小微企业主的信贷风险。今年 5 月份，这一工程荣获了 " 吴文俊人工智能科学技术奖 "。今年 2 月份，百度基于文心大模型技术推出的生成式对话产品 " 文心一言 "（英文名：ERNIE Bot）开放生态合作，度小满成为首家接入的金融科技公司。

雷峰网

标签：

度小满开源国内首个千亿参数金融大模型“轩辕”

推荐阅读

上海奉贤等区开展常态化防疫压力测试 有序开放公交、公园、公共服务场所、公共街区商区<

“抗疫 宅家云课堂”，吸引沪上老同志观看50万人次<

“代跑腿”买药、开通绿色通道 丰台为管控区居民提供便捷医疗服务<

上海嘉定：儿童计划免疫接种全部恢复，实行预约制<

乡村振兴看新疆 | 种下红樱桃 结出“致富果”<

最近更新

度小满开源国内首个千亿参数金融大模型“轩辕”

三峡（关于三峡的基本详情介绍）

万豪行政公寓落子杭州，酒店为什么扎堆做公寓？

威海环翠北海省级旅游度假区管委会主任，威海市环翠区发展和改革局党组书记、局长刘昌军接受纪律审查和监察调查 天天讯息

天天快消息！60岁医师吸烟被惩处

全球热点评！价格持续飙升 意大利陷入“意面危机”

信用卡上月逾期会累积到下月吗-信用卡上月逾期会累积到下月吗怎么办

环球热消息：石钟山记原文及翻译-石钟山记 翻译

全球动态:市场延续调整态势，投资者该如何应对？丨就市论市

新消息丨前海人寿荣华世家(长青版)终身寿险守护成功人生

焦点讯息：并购重组“后遗症”拖累公司业绩 年报问询全方位检视背后风险

和平精英空白代码复制（和平精英空白代码） 每日快报

全球热推荐：浙江宁波一医院门诊楼发生火灾 无人员伤亡

【全球报资讯】吉林：抢抓施工“黄金期”，积蓄发展新动能

美股缘何大涨？高盛：共同基金开始追涨大型科技股

弘讯科技：5月25日融资买入269.85万元，融资融券余额4639.48万元 环球观速讯

发动机噪音变大的原因_发动机噪音大解决办法|世界观天下

丹青指的是啥_丹青是什么意思 详细介绍 世界新消息

大雾天在高速公路遇事故不能继续行驶时应怎样处理_大雾天在高速公路遇事故不能继续行驶

天合光能：发布新一代N型i-TOPCon先进技术-世界快播

光伏概念走势活跃！帝科股份、钧达股份等涨停 全球今日报

全球快资讯丨长沙景点门票攻略大全（价格+购票方式+时间）

这张“微地图”，让社区生活更有温度|环球新消息

登康口腔拟每10股派现6元 占当期净利润逾七成|全球快讯

美媒：得不到正确诊断和适当治疗……种族主义令美国黑人群体更易患阿尔茨海默病-天天百事通

360 与云知声达成战略合作 共同迎接通用人工智能拐点

焦点播报:鸡蛋白一天最多吃几个?_鸡蛋白一天最多吃几个

黄峥VS许仰天，谁是欧美下沉市场之王？

短讯！群星民族精神和个体思潮有什么特点

海特生物：西威埃公司是公司的参股公司，其在研的创新药项目目前还未进入三期临床|天天热讯

热点

公共

28位院士共论“弘扬袁隆平科技创新精神”

逾百只国家二级保护动物红脚隼过境湖南泸溪

滇藏新通道上“Y”字路口的守护

甘肃高校志愿者探游客体验新模式 为“世遗”减负

（上海战疫录）连续68天奋战 “95后”“靠谱小伙”“疫”线写青春

滚动

上海奉贤等区开展常态化防疫压力测试有序开放公交、公园、公共服务场所、公共街区商区<

“抗疫宅家云课堂”，吸引沪上老同志观看50万人次<

“代跑腿”买药、开通绿色通道丰台为管控区居民提供便捷医疗服务<

乡村振兴看新疆 | 种下红樱桃结出“致富果”<

威海环翠北海省级旅游度假区管委会主任，威海市环翠区发展和改革局党组书记、局长刘昌军接受纪律审查和监察调查天天讯息

全球热点评！价格持续飙升意大利陷入“意面危机”

环球热消息：石钟山记原文及翻译-石钟山记翻译

焦点讯息：并购重组“后遗症”拖累公司业绩年报问询全方位检视背后风险

和平精英空白代码复制（和平精英空白代码）每日快报

全球热推荐：浙江宁波一医院门诊楼发生火灾无人员伤亡

弘讯科技：5月25日融资买入269.85万元，融资融券余额4639.48万元环球观速讯

丹青指的是啥_丹青是什么意思详细介绍世界新消息

光伏概念走势活跃！帝科股份、钧达股份等涨停全球今日报

登康口腔拟每10股派现6元占当期净利润逾七成|全球快讯

360 与云知声达成战略合作共同迎接通用人工智能拐点

甘肃高校志愿者探游客体验新模式为“世遗”减负