关于机器学习:达观数据研发曹植大语言模型致力于国产GPT模型

42次阅读

共计 1097 个字符，预计需要花费 3 分钟才能阅读完成。

在通用畛域，以 ChatGPT 为代表的生成式大规模语言模型展现出卓越的常识学习和文字创作能力，受到国内外的宽泛关注。垂直畛域的 GPT 大模型同样领有广大的利用前景。达观基于多年文本智能技术积攒和垂直畛域场景业务教训，正在积极探索大语言模型 LLM 的实际，研发国产版 GPT“曹植”零碎，作为垂直、专用、自主可控的国产版 ChatGPT 模型，不仅能实现业余畛域的 AIGC 智能化利用，且可内置在客户各类业务零碎中提供专用服务。

达观自主研发的“曹植”垂直畛域大语言模型将进一步夯实达观产业利用智能化基座，全面加强 AI 全产品矩阵能力。这也是国内大规模语言模型中首批可落地的产业利用级模型，目前已在金融畛域 AIGC 多场景投入利用。将来可继续赋能金融、政务、制作等多个垂直畛域和通用场景人工智能的落地和倒退。

在产品利用层面，以“曹植”大模型作为撑持，为达观全栈 AIGC 智能产品带来革命性成果晋升。例如，达观企业申报材料主动生成，基于达观 AIGC 智能写作能力，可适配各类资料申报业务场景，基于已有各结构化类数据，疾速撰写各类制式和非制式文档，利用于公文、招投标、投行申报文档、法律文书等业余写作场景。达观金融报告 AIGC 智能写作，立足财经、金融市场钻研写作场景，联合多项 AIGC 能力，可高效地实现钻研类报告撰写，保障业余报告写作的高质量和时效性。

达观数据深耕深度学习语义智能畛域十余年，多年来与北京大学、复旦大学等多个高校算法实验室和科研团队建设了深度交换单干机制。在算法方面，达观一直摸索 GPT3 模型的原理验证和垂直行业常识的强化训练，一直进步模型的准确性和实用性。目前“曹植”大模型目前已取得重要技术冲破，以大量通用数据和畛域数据自监督训练的 LLM 为基座模型，通过大量通用工作数据和畛域工作数据进行 Prompt Learning 微调，在垂直畛域内的了解和生成的工作上都达到了很好的成果。

将来达观将建设多个垂直畛域的专用语言大模型，为各行业的智能化需要提供更加业余和高效的解决方案。

3 月 11 日，由中国人工智能学会主办，国内 AI 领军企业达观数据携手中国人工智能学会自然语言了解专委会、真格基金独特承办，中国信通院云计算与大数据研究所反对的 ChatGPT 及大模型专题研讨会在北京圆满闭幕。大会围绕 ChatGPT 和大规模语言模型的倒退利用，汇集泛滥人工智能产研大咖，独特探讨前沿技术及产业将来，出现了一场精彩的思维交换盛宴。

会上达观数据董事长兼 CEO、复旦大学计算机博士陈运文以摸索大语言模型的垂直化训练技术和利用为题，向听众开展介绍达观数据“曹植”垂直畛域大语言模型的研发停顿和工程化摸索，这也是“曹植”首度面向公众亮相。

正文完