关于chatgpt:漫谈-ChatGPT-与问答式-BI

8次阅读

共计 4651 个字符,预计需要花费 12 分钟才能阅读完成。

近日,观远数据 G -park「Let’s Date!BI!」系列直播第二期「2023,金融业如何应答“漂泊数据”」顺利闭幕。观远数据联结创始人兼首席数据科学家字节带来了《漫谈 ChatGPT 与问答式 BI》的摸索思考

字节一方面介绍了 一系列 ChatGPT 等基于大语言模型的工具 ,如何晋升日常工作、生存效率;另一方面, 在 BI 和数据分析畛域,对话式或者问答式的 BI 将给将来带来的无穷想象力

漫谈 ChatGPT

在工作、生存角度带来的晋升,这里别离以浏览、写代码、各种创作等角度开展。

搜寻

ChatGPT 刚入世时,很多人说要颠覆 Google。因为原来要找一个常识,须要在 Google 或者百度进行关键词搜寻。但搜寻完之后,后果将是上万张网页,须要咱们一页一页点击链接,查看信息。这其中,10 条链接或者只有 1 条和问题相干。当咱们没找到相干信息时,还须要从新输出关键词再搜寻。

而在 ChatGPT 中,对于发问能够间接解答。不过 ChatGPT 有两个缺点,一是信息只到 2021 年,二是没有联网不足及时性的新信息。

New Bing 集成了 ChatGPT 的模型。当咱们输出问题后,不仅会触发搜寻,还会主动浏览网页文档,并总结相干信息,以后果间接反馈。以代码问题为例,失常搜寻跳到 CSDN 等相干类型的开发网站,而 New Bing 将间接列出可运行的代码。这是十分不便且提效的。

延长到企业外部的搜寻,也是同理。企业外部信息管理系统,大部分搜寻与 Google 相似,输出关键词,弹出文档链接,外面有题目和注释内容的匹配。这也须要一篇一篇自行寻找。此时通过 GPT 能力的论断间接反馈,将节俭大量工夫。

除了 New Bing,还有两个我的项目 perplexity.ai 和 you.com 能够间接拜访,也提供了相似 ChatGPT 模式的问答。搜一个问题,会间接把答案回复进去,而且把相干援用链接都放在外面。这是很好的提效产品。

浏览

浏览方面介绍两个优良产品 Bearly.ai 和 TLDR this。Bearly.ai 是一个浏览器的插件。当用户关上一篇长文章后,它会主动总结文章内容,提炼出要害构造,无效晋升浏览效率。此外,该插件还有一个重要性能,能够在亚马逊等购物网站上,遍历商品的用户评论,并进行好评、差评的总结。

企业外部也常有相似需要,包含邮件、微信的沟通,甚至内部评论,通过收集信息并基于 GPT 模型的能力,进而疾速通晓产品服务的好坏点。

搜寻 + 浏览

除了搜寻之外,Google 有 Talk to Books 的产品。当提出问题之后,将从历史上已出版的书籍中摘录问题相干的原文,并展现起源书籍。

这些是问答式的搜寻,并不是严格的关键词匹配。如果仅是关键词匹配,效率是不高的。以搜素“不良率”关键词为例,咱们会失去很多不相干的信息,因为它不晓得咱们想要“什么样的不良率”。但如果通过自然语言,具体地提出问题,那模型能够主动了解语义,并找到相干文档进行全面展现。这是很大的根底提高,晋升产品体验。

写代码

代码方面目前也有很多成熟利用,通过正文主动生成代码,或者选中代码对齐进行语义正文,甚至测试、查看性能等等。这外面有赫赫有名的 ChatGPT、Copilot,相似的还有 Tabnine,CodeGeeX 等,也有一些专门畛域的生成工具,例如 Warp 中自带的 AI 能力能够生成终端命令,PingCAP 之前做的 Chat2Query,能够帮忙主动生成 SQL,以及像 Seek.ai,Manson 等更面向业务用户的数据分析工具。

除了代码生成外,还有专门面向自动化测试生成的 Codium,主动文档生成的 Mintlify,以及各种性能都集成到一起了的 Bito。

创作

创作畛域,以“写一份软件品质晋升打算”为例。咱们通过 notion.ai 生成 10-20 个不错的打算倡议,还能进一步通过交互式的指令,开展二级列表,并进行排期执行。

在工作中须要做各种各样的打算时,这些工具能够把常识性的打算列举进去。咱们只需在此基础上,联合公司的理论状况,进行个性化批改即可。

prompt engineering

自 ChatGPT 推出以来,很多人的工作是在 ChatGPT 里实现的。这里呈现了一个问题,咱们该怎么样更好地去向 ChatGPT 提问题。因为 ChatGPT 的答复能力很强,但这须要咱们把问题形容地足够分明,它才可能给到高质量的答复。

这里分享一系列的工具,提醒咱们有一个场景问题时,该怎么发问。这些工具网站提供了提醒词模板,帮忙咱们更好的发问。此外,还有其余用户反馈的优质发问教训的分享。

  • https://github.com/f/awesome-chatgpt-prompts
  • https://sharegpt.com/explore
  • https://untools.co/thinking-tools-guide
  • https://prompthero.com/

常见问题

ChatGPT 产品自身有一些常见问题:

  •  ChatGPT 答复可能会胡编乱造;
  • 只晓得 21 年前公开网络的信息;
  • 数据隐衷平安问题。

针对胡编乱造的景象,目前有一些形式能够优化。例如发问“某公司的业绩体现如何”,该公司基本没有对外披露过该数据,那它可能会给到假数据,这实际上是谬误的。

此时,咱们须要一些提醒词,并构建答复的语境,这很大水平上能防止胡编乱造的状况。此外,针对信息时效性的问题,能够应用 New Bing。New Bing 联合了 ChatGPT 的总结能力,并且基于它自身的搜寻能力,能够获取最新讯息,更大程度上升高了胡编乱造的概率。

针对公开信息的局限性。在企业外部,能够进行信息输出,进一步训练,晋升模型的信息广度。例如,2021 年之前的内部信息,没有“观远数据的吉祥物是观小猿”这一信息。当信息提交模型后,它能够进一步加以训练。

这里发散开来,将有很多的理论利用。很多公司都有帮忙文档,以观远数据 BI 产品帮忙文档为例。尽管所有人都能够看到帮忙文档,但 ChatGPT 很大概率没有将其纳入训练过程。那么利用信息再输出的形式,能够把这些观远数据公开的 BI 产品信息提交给模型,再向其发问。如此一来,它就成为了企业定制化的智能问答机器人。

针对数据安全问题。以业务问题为例,例如想获取上季度的营业额,咱们通过给 ChatGPT 提交 schema 信息,而不是残缺的数据表信息,让 ChatGPT 返回 SQL。咱们再在外部通过这条 SQL 搜寻获取数据,就能无效防止数据泄露。另外,如果是十分敏感的数据,置信将来能够进行私有化的部署,齐全不对公网,数据安全也能够失去肯定的保障。

AI Thinking

谈了这么多 AI 产品的应用,能够发现在 AI 时代,过来很多要花大量工夫做的重复劳动、甚至脑力劳动、常识劳动,当初都能够用 ChatGPT 来代替。那么咱们人类在新时代中要施展什么样的价值?要去做什么样的事件?

首先要理解 AI 根底的运作模式,大抵明确它的工作原理;其次是 AI 和人类智能的区别,AI 善于做哪些事件,不善于做哪些事件;最初怎么样把日常工作中的事件能够交给 AI 来做,哪些事件咱们本人做。

如果能够利用好 AI,置信咱们的工作效率能失去数倍的晋升。这里着重分享下人和 AI 区别的集体了解。

  • 首先是批判性的思维和创造力。这是 AI 十分匮乏的,因为 AI 只有收到咱们的指令后,它能力做事。
  • 其次是同理心,AI 很难了解用户所在处境,但人和人之间比拟好了解。
  • 最初,在有了同理心后,人类能够进行产品构思、具体原型打造,以及后续产品公布的测试与迭代。这些事件都是模型不太善于的。

但在上述过程中,chatGPT 能够起到很好的辅助作用。例如在产品构思时,能够帮忙咱们进行头脑风暴并列出要害意见。

问答式 BI 的思考

在 BI 数据分析的“问题定义—数据接入—数据处理—可视化展现—交互剖析—决策口头”全链路 上,ChatGPT 都有联合的机会。

  • 问题定义:对于局部场景问题,基于 ChatGPT 能够失去初步的数据分析与决策打算,人工再进行校对与批改;
  • 数据接入:原先非结构化数据通常须要荡涤,而当初局部数据或者不再须要荡涤,间接进行端到端的剖析;
  • 数据处理:辅助数据工程师做 ETL 开发。 在 ETL 开发过程中,通过自然语言的发问,ChatGPT 生成 SQL 提供用户应用,并且能够进行多轮交互式的构建。即使第一步呈现偏差,也能够在第二步从新修改;
  • 可视化展示:答复业务问题,疾速取得数据后果与论断。 提交问题后,主动生成 SQL,再提交于 ChatGPT 生成文字论断以及后续的口头倡议,实现问答式的 BI。
  • 交互剖析:深度剖析报告的自动化生成。 基于 BI 零碎能力,对接企业外部各类数据源,基于牢靠的数据指标起源提供可信的业务剖析报告。自动识别异样起因有业务含意,并以自然语言的形式展现,防止了数据分析办法差别带来的认知偏差。
  • 决策口头:提供辅助性的预测,基于历史口头做将来的举荐倡议。

以下着重分享 “数据处理”、“可视化展示”、“交互剖析” 中,观远数据进行的一些尝试和摸索。

Chat2SQL

Chat2SQL 是咱们制作的一款浏览器插件,来帮助进行数据处理。当须要写 SQL 时,能够一键唤起插件。通过自然语言的交互,插件能够主动生成 SQL。

交互式的发问,能够带来很多益处。首先,它能够一直修改谬误,一开始或者有偏差,但随着交互的深刻,能够给到正确的后果;其次,应答非常复杂的 SQL 时,交互式形式能够层层生成 SQL,一步步构建出最终成绩,准确性也十分高。这将是一个新的构建范式。

Chat2Viz

在可视化展示上,也就是发问后间接展现可视化内容,原先咱们做 BI Dashboard 的交互剖析其实有些许麻烦,但如果像 Google 一样,通过搜寻把后果展示进去,这将是一个很大的提高。

以国外的 ThoughtSpot 产品为例,其搜寻栏通过转化率、渠道、上个月等关键词展现可视化内容,它并不是一句自然语言。真正的自然语言应该是:上个月的每天转化率是多少?

咱们制作了一个产品原型 Chat2Viz。首先在输出栏进行自然语言的查问,产品将主动生成查问 SQL,并提交于  ChatGPT 生成文字论断、可视化内容、其余卡片的举荐以及后续的口头倡议。这对于业务应用是十分不便的。

Chat2DataStory

Chat2Viz 倒退到后续,是否造成“DataStory”?DataStory 有个必要的前提条件,它须要一个最佳实际。

因为如果 DataStory 只给数据,但没有业务的剖析链路逻辑,对业务自身是没有太大帮忙的。举个例子,一家电商客户通过数据发现天猫渠道的业务影响是最大的,但这是一个不言而喻的事实,这对于业务没有任何帮忙。因而 DataStory 要提供真正对业务有帮忙的信息。

对此,观远数据打造了“主动数据洞察”。其中的外围是积淀了各行各业剖析场景的简单剖析“决策树”。咱们能够定期进行决策树链路的剖析,可能是每天、每周。

基于决策树的剖析链路,用户每天主动看到决策树的剖析报告。如果没问题,那侧面明天的数据是失常的,如果出现异常状况,将提醒醒目的标记,并通知用户哪里出问题了,问题外围在哪。这是 DataStory 的一个雏形。并且后续用户在周会、月会上,一直收集大家的追加问题,甚至对于异样问题的诘问,都进一步积淀进决策树,最初就能成为真正的 DataStory。

将来,DataStory 能够反对多轮的交互,包含将来每天向其发问,出现一份数据报告。须要开会讨论时,也能够应用该报告。以及将来,在该报告的根底上,进行诘问,开展更深度的剖析,这些都是十分吸引人、也很激动人心的倒退方向。

正文完
 0