关于架构:让预训练语言模型读懂数字超对称技术发布-10-亿参数-BigBang-Transformer-乾元金融大规模预训练语言模型

导读： 超对称技术公司公布 10 亿参数金融预训练语言模型 BigBang Transformer[乾元]。BBT 大模型基于时序 - 文本跨模态架构，交融训练文本和时序两种模态数据，上游工作准确率较 T5 同级别模型晋升近 10%，并大幅提高时序预测的 R2 score。跨模态架构能让语言模型辨认时序数据的变动并通过人类语言来剖析和论述其发现。BBT 模型可用于金融量化投资的因子开掘，撑持多因子策略，以及宽泛的数据可视化和物联网的时序数据分析等。BBT 模型的指标是实现具备人类级别剖析能力的预训练大模型，构建可在行业落地的通用人工智能架构。

OpenAI 的 GPT-3, Google 的 LaMDA, PaLM 等千亿以上参数的语言模型和多模态大模型在写作、文字生成图片、对话等工作能靠近乃至超过人类的智力程度。 然而以上大模型有一些独特的缺点：

① 大模型以通用的语料和数据进行预训练，在通用场景上体现良好，然而在业余畛域有显著缺点。所以 GPT-3, 悟道，盘古等模型多用续写小说，写作诗歌，或者人机对话来展现大模型的能力。波及到庄重的工作场景，则是只见打雷不见下雨。至今未见基于大模型在行业上的曾经规模化利用的产品，背地的起因尚需进一步开掘。仅用通用语料，未用行业数据进行预训练的大模型，其能力边界在哪里？如果超对称团队证实用行业数据训练的模型准确度更好，是否阐明现有大模型的总体设计须要从新调整，能力取得大模型在不同行业的通用性？

② Dalle 2 等预训练多模态模型在文字生成图像的利用获得惊人的成果，然而多模态模型在时序数据，表格文档数据等更实用更简单的模态上停顿不大，而这些模态占据了理论工作的大量场景。除了能够解决语言、语音、图像这三种常见模态，能读懂和剖析数据也是人类智能的一种突出能力，而且人类可能并行处理语言，数据来取得论断。大模型是否也能实现人类智能对数据的剖析能力，从而无效实现在工业场景的广泛应用。

超对称技术公司专一于开发算法和数据产品为金融、媒体、生产制作等行业提供服务。超对称公司针对金融投资畛域的利用设计和训练了一个大规模参数预训练语言模型 Big Bang Transformer 乾元 (BBT)，目前公布了 Base 版本 2.2 亿参数和 Large 版本 10 亿参数。同超对称团队还针对金融行业的预训练模型公布了一套评测数据集 BBT-FinCUGE，开源于 Github。BBT 模型参考 T5 的 Encoder+Decoder 构造，以交融解决 NLU 和 NLG 的上游工作。超对称团队整顿了一套金融行业的数据集，建设了一个跨模态联结训练文本和时序数据的基于 Transformer 的架构。

大模型是通往 Artificial General Intelligence (AGI) 的一条路线。超对称公司认为具备数据分析能力是实现 AGI 的根底之一。超对称技术公司联结复旦大学计算机学院肖仰华常识工场实验室，浙江大学徐仁军实验室，南开大学和北师大人工智能学院的老师，在基础理论、架构、算法实现三方面推动 AGI 底层算法的研发，构建 AGI 在产业利用的底座。该项钻研取得甘肃高台“东数西算”我的项目在算力基础设施上的反对。

以 Google 的 T5 框架为参考基准，BBT 模型的试验验证了以下几个论断：

基于畛域业余数据集预训练的大模型，比 T5 同级别参数模型均匀上游工作准确率能够进步靠近 10%。
不同上游工作的语料数据集比例对上游工作的准确度有影响。
基于上游工作类别提供 Source Prompt 的提醒学习能大幅提高上游工作的准确度。
BBT 的时序模型进行多元时序预测，比一般的 Transformer 取得 R2 score 的大幅晋升。
联结文本和时序数据数据进行训练，模型能读懂数字变动所对应的真实世界。

传统的时序模型往往仅依赖时序自身的信息实现各种工作，而疏忽了时序数据对外部信息的依赖。例如某一时刻股价、经济指标等数据的稳定并不齐全由这一时刻前的数据决定。语言模型具备弱小的表征文本信息的能力，将语言模型与时序模型联合，既能够使得世界信息可能以文本的模式撑持时序工作的实现，又能够通过时序数据中蕴含的信息强化语言模型对信息的理解能力。

为此超对称团队设计了基 Transformer 的时序 - 文本跨模态预训练模型，这是业内最早的专一于联结训练时序 - 文本二模态的预训练算法架构之一。 预训练形式为通过 T 时刻前的文本信息和时序信息对 T 时刻的时序数据进行预测。时序数据和文本图像数据同时作为 Embedding 层输出 Encoder 一个双向的 Transformer，输入向量进入的 Decoder 有 NLU,NLG,Time Series 三类。

BBT 模型设计了一个通用的将工夫向量化输出 Embedding 层的模块。 多元工夫序列受到空间维度与工夫维度两方面信号脉冲的影响，其被激活的工夫、空间范畴是一个间断的频谱，可大抵分为低频部分脉冲、低频全局脉冲、高频部分脉冲和高频全局脉冲四方面剖析这种影响。其中，“低频”/“高频”是指从工夫视图形容了影响的激活范畴，而“全局”/“部分”从空间视图形容了激活范畴。

“低频”即脉冲变动安稳，偏向于在较长时间内保持稳定；
“高频”即脉冲变动激烈；
“全局”是指这种脉冲对所有工夫序列产生相似的影响；
“部分”是指脉冲只影响单个的工夫序列，或对不同的工夫序列施加不同的影响。

基于此，超对称提出一种通用的、模型无关的、可学习的向量工夫示意组件 DWT-ST2Vec，可实用于多种模型构造与上游工作。 该组件可从时空两个维度对序列的高频、低频重量进行合成，从而更加充沛学习序列信息。

语料库的品质、数量和多样性间接影响语言模型预训练的成果，现有的中文金融预训练语言模型，例如 FinBERT 与英伟达公布的 FinMegatron，其预训练语料在数量和多样性上非常无限。

为了更好地推动中文金融自然语言解决（NLP）的倒退，超对称收集和爬取了简直所有公开的和其余伎俩能够取得的中文金融语料数据，包含过来 20 年所有支流媒体平台公布的财经政治经济新闻，所有上市公司公告和财报，上千万份研究院和咨询机构历史上公布的所有钻研报告，百万本金融经济政治等社会科学类书籍，40 多个政府部位网站和中央政府网站的布告和文档，社交媒体平台用户发帖，从中荡涤和整顿了大规模中文金融语料库 BBTCorpus，涵盖五大类别共 300 多 GB，800 亿 Token 的高质量多样化语料数据，是目前市面上笼罩最残缺，规模最大的金融投资类数据集，具体的规模散布如表 1 所示。

表 1：BBTCorpus 语料大小散布，其中上市公司公告与钻研报告的原始文件为 PDF 格局。

为了验证畛域语料预训练的有效性，超对称团队应用在通用语料库 CLUECorpus-samll 上进行预训练的模型 t5-v1_1-base-chinese-cluecorpussmall 与超对称团队的模型进行比照，试验后果如表 2 所示。

超对称团队针对具体问题对 T5 的预训练形式做出了创新性的改良。

首先是针对预训练语料采样问题提出的语料起源类似度加权采样算法。因为超对称团队的语料库非常宏大，以至于在模型预训练的全过程中也只能采样约百分之十的文本进行训练，因而模型势必要对不同起源的语料进行随机采样。如果对所有语料进行简略随机采样，则事实上是对不同起源的语料按大小规模进行混合，即在模型进行预训练的语料子集中，布告：研报：新闻：股吧：雪球的比例约为 105：11：30：74：44。超对称团队提出，绝对于单纯的简略随机采样，依照评测基准中的文本与不同起源的语料的类似度进行加权采样是更加正当的抉择。通过加权均匀采样的语料库子集训练出的模型在评测基准上均匀能获得 0.7% 的晋升，试验后果如表 2 所示。

这一翻新点不仅实用于金融畛域语言模型的预训练工作，它的思维同样能够推广到其余具备多种异质语料起源的畛域，例如生物医药、法律等畛域。之后，在此基础上，超对称团队进一步把模型规模裁减到十亿参数的 Large 级别，试验后果如表 2 所示。

表 2：问题为模型在评测基准上的均匀问题。T5-base 代表 t5-v1_1-base-chinese-cluecorpussmall。ss 代表超对称团队的首个翻新点语料起源类似度加权采样算法（Similarity weighted Sampling of corpus source）。base 模型的参数量均为 2.2 亿，large 模型的参数量为 10 亿。

超对称团队又针对异质语料混合的问题开创性的提出了起源提醒办法（Source Prompt, SP），即在预训练时，语料前搁置一个代表其起源的提醒。

对于语料：“据国家统计局音讯，2022 年 5 月份，全国居民消费价格同比上涨 2.1%。”预训练时在其前部搁置起源提醒：【新闻】变为：“【新闻】据国家统计局音讯，2022 年 5 月份，全国居民消费价格同比上涨 2.1%。”, 之后失常进行 MLM 预训练。Source Prompt 在 Base 模型中在 Similarity Sampling 模型的根底上进步 3.21%。

表 3：T5-base 和 BBT 不同模型在 8 个上游工作的体现。

BBT 模型对时序数据进行解决的根本能力包含：

提供了一种通用的、与模型无关的、可学习的向量工夫示意组件 DWT-ST2Vec，可能将工夫作为 Embedding 输出 Encoder，与文本联结学习。
能够实现准确度更高的多元工夫序列预测。
可将时序数据依照“全局 - 部分”、“周期 - 趋势”“低频 - 高频”进行合成。
通过与文本的交融学习，大模型能够针对时序数据变动生成文字。

随机选取 40 家国内上市公司，以收盘股价的工夫序列为次要评测对象，以股票收盘以来长度为 4000 的序列数据为训练集，以 4000-4200 的序列数据为测试集进行训练，以测试集的 MSE, RMSE, MAE, MAPE 指标加总为评测指标。以 Transformer 为基线，训练出的模型在评测基准上，在 MSE, RMSE, MAE, MAPE 上有均匀 0.5%-2% 的晋升。

BBT 的时序 - 文本的跨模态架构可能通过辨识股价变动，触发 NLU 的能力，生成相似分析师和散户投资者的评论。

输出股价：

模型能基于所学习的海量新闻，写出相似业余新闻记者一样的评论，如：

也能像散户投资者一样议论市场趋势：

BBT 时序 - 文本跨模态架构，能实现让模型来浏览公司的财报和新闻来写出一篇公司发展趋势剖析报告，也能让模型学习品牌在电商平台的多年销售数据和产品个性，来预测产品将来销售量进而写出针对性市场营销报告，或者让模型学习制造业生产机器的监控数据，写出非专业人员也能懂的运维故障报告。

超对称团队构建了中国 20 万一级市场公司和 4500 家 A 股上市公司的常识图谱，用于常识加强的语言模型学习。BBT-KG 与市面上的金融常识图谱不同在于，超对称团队通过语言模型的能力，构建了动静的新闻事件和企业之间的关联关系和事件之间的因果关系，从而让模型具备能力判断新产生的事件对公司和市场的影响，并对市场稳定追因溯源。

超对称团队利用 BBT 模型计算个股的情绪指数，再监测相邻时段的情绪变动，选取突出变动作为多空因子构建量化因子策略，最终收益远超市场。超对称团队回溯情绪指数卓越的选股能力，发现模型能无效地学习金融财经类文本，并量化地反馈市场的信息，创造性地提供另类因子。除了计算市场情绪，BBT 模型领有的多维度能力也同样能够使用在财经金融畛域。

例如利用 BBT 的事件抽取能力，能够抽取出同类事件或新闻与量价数据做对照，以钻研不同事件传导到市场速度的快慢；BBT 还能够通过超对称团队独有的金融常识图谱学习供应链中经济个体间的互相关系，以机器学习的办法来打消因子间的共线性，为传统线性回归多因子模型为传统线性回归多因子模型带来颠覆性翻新。

除此之外，BBT 的负面音讯辨认能力还能够为信用风险评估体系减少实时舆情监控，新闻分类能力更是能帮忙财务分析师和金融分析师疾速解决大量信息，以取得更全面主观的论断。

评测基准对自然语言解决（NLP）的倒退起着重要的指导作用，而在中文金融 NLP 的钻研与利用蓬勃发展的同时，业界短少一个权威的评测基准。为了解决这个问题，超对称团队提出了 BBT-FinCUGE，开源地址：

GitHub.com/ssymmetry/BBT-FinCUGE-Application

这是一个中文金融自然语言了解和生成评测基准，具备以下特点：

① 专业性： 所有数据集的筛选和标记工作都有金融专家的参加。
② 实用性： 所有工作均由金融专家进行实用性评分，作为工作抉择和最终评分的根据。评测基准共蕴含以下八个数据集：

论坛情绪剖析 FinFE

在股吧和雪球等股民论坛中，股民们每天会产出海量的评论文本，其中蕴含有理性的情感输入和感性的涨跌预测等内容。针对这些文本，该数据集要求模型学习并预测文本的情绪指数（0、1、2，别离代表消极、中性和踊跃）。

事件抽取 FinQA

事件抽取是指主动从文本中辨认事件的产生，抽取事件参数并整顿成结构化数据的算法，包含企业投融资、上市、收买等事件的检测和参数抽取。（为了更好的横向比照不同的模型，超对称团队将该数据集整顿为浏览了解问答 QA 的模式）。

因果事件抽取 FinCQA

与惯例事件抽取不同，因果事件抽取专一于在文本中辨认出具备因果关系的两个事件及其事件参数，并将其整顿为机构化数据。超对称团队的因果事件数据集蕴含对大宗商品畛域的因果事件辨认，辨认的事件类型包含台风 / 地震，供应减少 / 缩小，需要减少 / 缩小，价格回升 / 降落等可能为起因和后果事件及其对应关系和对应的产品、地区等参数（为了更好地横向比照不同的模型，超对称团队将该数据集整顿为浏览了解问答 QA 的模式）。

新闻文本摘要 FinNA

中文金融新闻摘要生成工作。该数据集取自于新浪财经的大规模中文短新闻，蕴含了 20000 条实在的中文短文本数据和对应的摘要。

关系抽取 FinRE

一个人工精标注的财经金融畛域的数据集。给定句子和其中的头尾实体，要求模型预测头尾实体之间的关系。该数据集由新浪财经新闻语料标注失去，其中命名实体为商业公司，在关系上设计了 44 个金融畛域的关系类别（双向），蕴含领有、持股、竞争、收买、交易、单干、减持等财经金融畛域的特有关系类别。

负面音讯辨认及主体断定 FinNSP

本数据集蕴含两个工作：

负面信息断定： 断定该文本是否蕴含金融实体的负面信息。如果该文本不蕴含负面信息，或者蕴含负面信息但负面信息未波及到金融实体，则负面信息断定后果为 0。

负面主体断定： 如果工作 1 中蕴含金融实体的负面信息，持续判断负面信息的主体对象是实体列表中的哪些实体。

新闻分类 FinNL

把金融新闻分类为一个或多个与其形容内容相干的类别。新闻采样于新浪财经，目前共有公司（个股）、行业（板块）、大盘、中国、国内、经济、政策、期货、债券、房地产、外汇、虚构货币、新冠、能源等 14 个类别。

事件主体抽取

本评测工作的次要指标是从实在的新闻语料中，抽取特定事件类型的主体。即给定一段文本 T，和文本所属的事件类型 S，从文本 T 中抽取指定事件类型 S 的事件主体。即输出：一段文本，事件类型 S；输入：事件主体。

超对称团队面向金融和非金融行业的开发者凋谢 11 项 API 能力，建设 BBT 大模型开发者生态。第一批凋谢的 API 能力包含：常识图谱、文章摘要、社交媒体情绪辨认、新闻情绪辨认、新闻分类标签、命名实体辨认、关系抽取、事件抽取、事件因果抽取、布告抽取、负面音讯和主体辨认。

API 文档：

https://www.ssymmetry.com/new…

BBT 1.0 版本模型的指标是为金融投资建设对立的人工智能算法框架，基于 transformer 构建能交融训练金融投资波及的不同模态数据的架构。在对立架构的根底上训练大规模参数预训练模型，随着模型参数和训练数据集持续增大，超对称团队有心愿开发出在金融畛域靠近人类智能程度的模型。

作为金融畛域的基石模型，BBT 模型为所有金融投资、经济剖析、商业征询等场景的深度学习上游工作提供微调服务。金融投资畛域有大量从业机构和人员，大厂有财力雇佣算法工程师，小团队却用不起根本的文本抽取算法。BBT 模型作为金融畛域的算法基础设施，让所有从业者装备同级别的武器，让全行业站在同一起跑线去竞争更优的投资策略，从而推动金融和经济市场更高效的信息和因素流动。

让模型读懂数字，是 BBT 模型专一开发的一种时序 - 文本跨模态架构的能力，这是人类谋求的通用人工智能的最外围能力之一。模型能在海量时序数据中辨认出变动的模式和法则，并通过预训练语言大模型将其与事实世界精确对应，从而在数据世界和人类语言世界建设起桥梁，将会给更宽泛的数字化技术带来反动，包含商业数据分析、数据可视化、数据库技术等。BBT 模型不仅能够利用于金融，在时序数据处理需要为主的生产制作、物联网、智慧城市、互联网大数据分析都有利用的后劲。

明天的分享就到这里，谢谢大家。

关于架构:让预训练语言模型读懂数字超对称技术发布-10-亿参数-BigBang-Transformer-乾元金融大规模预训练语言模型

通用大模型的缺点

专一于交融训练时序 - 文本跨模态的预训练模型算法架构

学术和工业界笼罩最残缺、规模最大的金融投资类数据集

翻新的预训练方法可大幅提高语言模型准确度：Similarity Sampling 和 Source Prompt

通用的工夫向量示意组件 DWT-ST2Vec 能够连贯不同模型

BBT-KG：动静追因的事理图谱

利用 BBT 大模型构建量化投资新因子 BBT 模型助力多因子策略开发

Benchmark 评测数据集：首个中文金融 NLP 评测数据集

开发者服务：向金融和非金融行业开发者凋谢 API 构建 BBT 大模型开发者生态

金融和经济畛域的基石模型

Just My Socks（注册教程内含优惠码）

关于架构:让预训练语言模型读懂数字超对称技术发布-10-亿参数-BigBang-Transformer-乾元金融大规模预训练语言模型

通用大模型的缺点

专一于交融训练时序 - 文本跨模态的预训练模型算法架构

学术和工业界笼罩最残缺、规模最大的金融投资类数据集

翻新的预训练方法可大幅提高语言模型准确度：Similarity Sampling 和 Source Prompt

通用的工夫向量示意组件 DWT-ST2Vec 能够连贯不同模型

BBT-KG：动静追因的事理图谱

利用 BBT 大模型构建量化投资新因子 BBT 模型助力多因子策略开发

Benchmark 评测数据集：首个中文金融 NLP 评测数据集

开发者服务：向金融和非金融行业开发者凋谢 API 构建 BBT 大模型开发者生态

金融和经济畛域的基石模型

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）