关于chatgpt:漫谈-ChatGPT-与问答式-BI

近日，观远数据 G -park「Let’s Date！BI！」系列直播第二期「2023，金融业如何应答“漂泊数据”」顺利闭幕。观远数据联结创始人兼首席数据科学家字节带来了《漫谈 ChatGPT 与问答式 BI》的摸索思考。

字节一方面介绍了 一系列 ChatGPT 等基于大语言模型的工具 ，如何晋升日常工作、生存效率；另一方面， 在 BI 和数据分析畛域，对话式或者问答式的 BI 将给将来带来的无穷想象力。

在工作、生存角度带来的晋升，这里别离以浏览、写代码、各种创作等角度开展。

ChatGPT 刚入世时，很多人说要颠覆 Google。因为原来要找一个常识，须要在 Google 或者百度进行关键词搜寻。但搜寻完之后，后果将是上万张网页，须要咱们一页一页点击链接，查看信息。这其中，10 条链接或者只有 1 条和问题相干。当咱们没找到相干信息时，还须要从新输出关键词再搜寻。

而在 ChatGPT 中，对于发问能够间接解答。不过 ChatGPT 有两个缺点，一是信息只到 2021 年，二是没有联网不足及时性的新信息。

New Bing 集成了 ChatGPT 的模型。当咱们输出问题后，不仅会触发搜寻，还会主动浏览网页文档，并总结相干信息，以后果间接反馈。以代码问题为例，失常搜寻跳到 CSDN 等相干类型的开发网站，而 New Bing 将间接列出可运行的代码。这是十分不便且提效的。

延长到企业外部的搜寻，也是同理。企业外部信息管理系统，大部分搜寻与 Google 相似，输出关键词，弹出文档链接，外面有题目和注释内容的匹配。这也须要一篇一篇自行寻找。此时通过 GPT 能力的论断间接反馈，将节俭大量工夫。

除了 New Bing，还有两个我的项目 perplexity.ai 和 you.com 能够间接拜访，也提供了相似 ChatGPT 模式的问答。搜一个问题，会间接把答案回复进去，而且把相干援用链接都放在外面。这是很好的提效产品。

浏览方面介绍两个优良产品 Bearly.ai 和 TLDR this。Bearly.ai 是一个浏览器的插件。当用户关上一篇长文章后，它会主动总结文章内容，提炼出要害构造，无效晋升浏览效率。此外，该插件还有一个重要性能，能够在亚马逊等购物网站上，遍历商品的用户评论，并进行好评、差评的总结。

企业外部也常有相似需要，包含邮件、微信的沟通，甚至内部评论，通过收集信息并基于 GPT 模型的能力，进而疾速通晓产品服务的好坏点。

除了搜寻之外，Google 有 Talk to Books 的产品。当提出问题之后，将从历史上已出版的书籍中摘录问题相干的原文，并展现起源书籍。

这些是问答式的搜寻，并不是严格的关键词匹配。如果仅是关键词匹配，效率是不高的。以搜素“不良率”关键词为例，咱们会失去很多不相干的信息，因为它不晓得咱们想要“什么样的不良率”。但如果通过自然语言，具体地提出问题，那模型能够主动了解语义，并找到相干文档进行全面展现。这是很大的根底提高，晋升产品体验。

代码方面目前也有很多成熟利用，通过正文主动生成代码，或者选中代码对齐进行语义正文，甚至测试、查看性能等等。这外面有赫赫有名的 ChatGPT、Copilot，相似的还有 Tabnine，CodeGeeX 等，也有一些专门畛域的生成工具，例如 Warp 中自带的 AI 能力能够生成终端命令，PingCAP 之前做的 Chat2Query，能够帮忙主动生成 SQL，以及像 Seek.ai，Manson 等更面向业务用户的数据分析工具。

除了代码生成外，还有专门面向自动化测试生成的 Codium，主动文档生成的 Mintlify，以及各种性能都集成到一起了的 Bito。

创作畛域，以“写一份软件品质晋升打算”为例。咱们通过 notion.ai 生成 10-20 个不错的打算倡议，还能进一步通过交互式的指令，开展二级列表，并进行排期执行。

在工作中须要做各种各样的打算时，这些工具能够把常识性的打算列举进去。咱们只需在此基础上，联合公司的理论状况，进行个性化批改即可。

自 ChatGPT 推出以来，很多人的工作是在 ChatGPT 里实现的。这里呈现了一个问题，咱们该怎么样更好地去向 ChatGPT 提问题。因为 ChatGPT 的答复能力很强，但这须要咱们把问题形容地足够分明，它才可能给到高质量的答复。

这里分享一系列的工具，提醒咱们有一个场景问题时，该怎么发问。这些工具网站提供了提醒词模板，帮忙咱们更好的发问。此外，还有其余用户反馈的优质发问教训的分享。

https://github.com/f/awesome-chatgpt-prompts
https://sharegpt.com/explore
https://untools.co/thinking-tools-guide
https://prompthero.com/

ChatGPT 产品自身有一些常见问题：

ChatGPT 答复可能会胡编乱造；
只晓得 21 年前公开网络的信息；
数据隐衷平安问题。

针对胡编乱造的景象，目前有一些形式能够优化。例如发问“某公司的业绩体现如何”，该公司基本没有对外披露过该数据，那它可能会给到假数据，这实际上是谬误的。

此时，咱们须要一些提醒词，并构建答复的语境，这很大水平上能防止胡编乱造的状况。此外，针对信息时效性的问题，能够应用 New Bing。New Bing 联合了 ChatGPT 的总结能力，并且基于它自身的搜寻能力，能够获取最新讯息，更大程度上升高了胡编乱造的概率。

针对公开信息的局限性。在企业外部，能够进行信息输出，进一步训练，晋升模型的信息广度。例如，2021 年之前的内部信息，没有“观远数据的吉祥物是观小猿”这一信息。当信息提交模型后，它能够进一步加以训练。

这里发散开来，将有很多的理论利用。很多公司都有帮忙文档，以观远数据 BI 产品帮忙文档为例。尽管所有人都能够看到帮忙文档，但 ChatGPT 很大概率没有将其纳入训练过程。那么利用信息再输出的形式，能够把这些观远数据公开的 BI 产品信息提交给模型，再向其发问。如此一来，它就成为了企业定制化的智能问答机器人。

针对数据安全问题。以业务问题为例，例如想获取上季度的营业额，咱们通过给 ChatGPT 提交 schema 信息，而不是残缺的数据表信息，让 ChatGPT 返回 SQL。咱们再在外部通过这条 SQL 搜寻获取数据，就能无效防止数据泄露。另外，如果是十分敏感的数据，置信将来能够进行私有化的部署，齐全不对公网，数据安全也能够失去肯定的保障。

谈了这么多 AI 产品的应用，能够发现在 AI 时代，过来很多要花大量工夫做的重复劳动、甚至脑力劳动、常识劳动，当初都能够用 ChatGPT 来代替。那么咱们人类在新时代中要施展什么样的价值？要去做什么样的事件？

首先要理解 AI 根底的运作模式，大抵明确它的工作原理；其次是 AI 和人类智能的区别，AI 善于做哪些事件，不善于做哪些事件；最初怎么样把日常工作中的事件能够交给 AI 来做，哪些事件咱们本人做。

如果能够利用好 AI，置信咱们的工作效率能失去数倍的晋升。这里着重分享下人和 AI 区别的集体了解。

首先是批判性的思维和创造力。这是 AI 十分匮乏的，因为 AI 只有收到咱们的指令后，它能力做事。
其次是同理心，AI 很难了解用户所在处境，但人和人之间比拟好了解。
最初，在有了同理心后，人类能够进行产品构思、具体原型打造，以及后续产品公布的测试与迭代。这些事件都是模型不太善于的。

但在上述过程中，chatGPT 能够起到很好的辅助作用。例如在产品构思时，能够帮忙咱们进行头脑风暴并列出要害意见。

在 BI 数据分析的“问题定义—数据接入—数据处理—可视化展现—交互剖析—决策口头”全链路 上，ChatGPT 都有联合的机会。

问题定义：对于局部场景问题，基于 ChatGPT 能够失去初步的数据分析与决策打算，人工再进行校对与批改；
数据接入：原先非结构化数据通常须要荡涤，而当初局部数据或者不再须要荡涤，间接进行端到端的剖析；
数据处理：辅助数据工程师做 ETL 开发。 在 ETL 开发过程中，通过自然语言的发问，ChatGPT 生成 SQL 提供用户应用，并且能够进行多轮交互式的构建。即使第一步呈现偏差，也能够在第二步从新修改；
可视化展示：答复业务问题，疾速取得数据后果与论断。 提交问题后，主动生成 SQL，再提交于 ChatGPT 生成文字论断以及后续的口头倡议，实现问答式的 BI。
交互剖析：深度剖析报告的自动化生成。 基于 BI 零碎能力，对接企业外部各类数据源，基于牢靠的数据指标起源提供可信的业务剖析报告。自动识别异样起因有业务含意，并以自然语言的形式展现，防止了数据分析办法差别带来的认知偏差。
决策口头：提供辅助性的预测，基于历史口头做将来的举荐倡议。

以下着重分享 “数据处理”、“可视化展示”、“交互剖析” 中，观远数据进行的一些尝试和摸索。

Chat2SQL 是咱们制作的一款浏览器插件，来帮助进行数据处理。当须要写 SQL 时，能够一键唤起插件。通过自然语言的交互，插件能够主动生成 SQL。

交互式的发问，能够带来很多益处。首先，它能够一直修改谬误，一开始或者有偏差，但随着交互的深刻，能够给到正确的后果；其次，应答非常复杂的 SQL 时，交互式形式能够层层生成 SQL，一步步构建出最终成绩，准确性也十分高。这将是一个新的构建范式。

在可视化展示上，也就是发问后间接展现可视化内容，原先咱们做 BI Dashboard 的交互剖析其实有些许麻烦，但如果像 Google 一样，通过搜寻把后果展示进去，这将是一个很大的提高。

以国外的 ThoughtSpot 产品为例，其搜寻栏通过转化率、渠道、上个月等关键词展现可视化内容，它并不是一句自然语言。真正的自然语言应该是：上个月的每天转化率是多少？

咱们制作了一个产品原型 Chat2Viz。首先在输出栏进行自然语言的查问，产品将主动生成查问 SQL，并提交于 ChatGPT 生成文字论断、可视化内容、其余卡片的举荐以及后续的口头倡议。这对于业务应用是十分不便的。

Chat2Viz 倒退到后续，是否造成“DataStory”？DataStory 有个必要的前提条件，它须要一个最佳实际。

因为如果 DataStory 只给数据，但没有业务的剖析链路逻辑，对业务自身是没有太大帮忙的。举个例子，一家电商客户通过数据发现天猫渠道的业务影响是最大的，但这是一个不言而喻的事实，这对于业务没有任何帮忙。因而 DataStory 要提供真正对业务有帮忙的信息。

对此，观远数据打造了“主动数据洞察”。其中的外围是积淀了各行各业剖析场景的简单剖析“决策树”。咱们能够定期进行决策树链路的剖析，可能是每天、每周。

基于决策树的剖析链路，用户每天主动看到决策树的剖析报告。如果没问题，那侧面明天的数据是失常的，如果出现异常状况，将提醒醒目的标记，并通知用户哪里出问题了，问题外围在哪。这是 DataStory 的一个雏形。并且后续用户在周会、月会上，一直收集大家的追加问题，甚至对于异样问题的诘问，都进一步积淀进决策树，最初就能成为真正的 DataStory。

将来，DataStory 能够反对多轮的交互，包含将来每天向其发问，出现一份数据报告。须要开会讨论时，也能够应用该报告。以及将来，在该报告的根底上，进行诘问，开展更深度的剖析，这些都是十分吸引人、也很激动人心的倒退方向。

关于chatgpt:漫谈-ChatGPT-与问答式-BI

漫谈 ChatGPT

搜寻

浏览

搜寻 + 浏览

写代码

创作

prompt engineering

常见问题

AI Thinking

问答式 BI 的思考

Chat2SQL

Chat2Viz

Chat2DataStory

Just My Socks（注册教程内含优惠码）

关于chatgpt:漫谈-ChatGPT-与问答式-BI

漫谈 ChatGPT

搜寻

浏览

搜寻 + 浏览

写代码

创作

prompt engineering

常见问题

AI Thinking

问答式 BI 的思考

Chat2SQL

Chat2Viz

Chat2DataStory

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）