漫谈 ChatGPT 与问答式 BI

2023-11-11

近日,观远数据G-park「Let's Date!BI!」系列直播第二期「2023,金融业如何应对“流浪数据”」顺利落幕。观远数据联合创始人兼首席数据科学家字节带来了《漫谈 ChatGPT 与问答式 BI》的探索思考

字节一方面介绍了一系列 ChatGPT 等基于大语言模型的工具,如何提升日常工作、生活效率;另一方面,在 BI 和数据分析领域,对话式或者问答式的BI将给未来带来的无穷想象力

漫谈 ChatGPT

在工作、生活角度带来的提升,这里分别以阅读、写代码、各种创作等角度展开。 

搜索

ChatGPT 刚出世时,很多人说要颠覆 Google。因为原来要找一个知识,需要在 Google 或者百度进行关键词搜索。但搜索完之后,结果将是上万张网页,需要我们一页一页点击链接,查看信息。这其中,10 条链接或许只有 1 条和问题相关。当我们没找到相关信息时,还需要重新输入关键词再搜索。

而在 ChatGPT 中,对于提问可以直接解答。不过 ChatGPT 有两个缺陷,一是信息只到 2021 年,二是没有联网缺乏及时性的新信息。

New Bing 集成了 ChatGPT 的模型。当我们输入问题后,不仅会触发搜索,还会自动浏览网页文档,并总结相关信息,以结果直接反馈。以代码问题为例,正常搜索跳到 CSDN 等相关类型的开发网站,而 New Bing 将直接列出可运行的代码。这是非常方便且提效的。

延伸到企业内部的搜索,也是同理。企业内部信息管理系统,大部分搜索与 Google 类似,输入关键词,弹出文档链接,里面有标题和正文内容的匹配。这也需要一篇一篇自行寻找。此时通过 GPT 能力的结论直接反馈,将节省大量时间。

除了 New Bing,还有两个项目 perplexity.ai 和 you.com 可以直接访问,也提供了类似ChatGPT形式的问答。搜一个问题,会直接把答案回复出来,而且把相关引用链接都放在里面。这是很好的提效产品。

阅读

阅读方面介绍两个优秀产品 Bearly.ai 和 TLDR this。Bearly.ai 是一个浏览器的插件。当用户打开一篇长文章后,它会自动总结文章内容,提炼出关键结构,有效提升阅读效率。此外,该插件还有一个重要功能,可以在亚马逊等购物网站上,遍历商品的用户评论,并进行好评、差评的总结。

企业内部也常有类似需求,包括邮件、微信的沟通,甚至外部评论,通过收集信息并基于GPT模型的能力,进而快速知晓产品服务的好坏点。

搜索+阅读

除了搜索之外,Google 有 Talk to Books 的产品。当提出问题之后,将从历史上已出版的书籍中摘录问题相关的原文,并展示来源书籍。

这些是问答式的搜索,并不是严格的关键词匹配。如果仅是关键词匹配,效率是不高的。以搜素“不良率”关键词为例,我们会得到很多不相关的信息,因为它不知道我们想要“什么样的不良率”。但如果通过自然语言,详细地提出问题,那模型可以自动理解语义,并找到相关文档进行全面展示。这是很大的基础进步,提升产品体验。

写代码

代码方面目前也有很多成熟应用,通过注释自动生成代码,或者选中代码对齐进行语义注释,甚至测试、检查性能等等。这里面有大名鼎鼎的 ChatGPT、Copilot ,类似的还有 TabnineCodeGeeX 等,也有一些专门领域的生成工具,例如 Warp 中自带的 AI 能力可以生成终端命令,PingCAP 之前做的 Chat2Query,可以帮助自动生成 SQL,以及像 Seek.ai,Manson 等更面向业务用户的数据分析工具。

除了代码生成外,还有专门面向自动化测试生成的 Codium,自动文档生成的 Mintlify,以及各种功能都集成到一起了的 Bito

创作

创作领域,以“写一份软件质量提升计划”为例。我们通过 notion.ai 生成 10-20 个不错的计划建议,还能进一步通过交互式的指令,展开二级列表,并进行排期执行。

在工作中需要做各种各样的计划时,这些工具可以把常识性的计划罗列出来。我们只需在此基础上,结合公司的实际情况,进行个性化修改即可。

prompt engineering

自 ChatGPT 推出以来,很多人的工作是在 ChatGPT 里完成的。这里出现了一个问题,我们该怎么样更好地去向 ChatGPT 提问题。因为ChatGPT的回答能力很强,但这需要我们把问题描述地足够清楚,它才能够给到高质量的回答。 

这里分享一系列的工具,提示我们有一个场景问题时,该怎么提问。这些工具网站提供了提示词模板,帮助我们更好的提问。此外,还有其他用户反馈的优质提问经验的分享。 

常见问题

ChatGPT 产品本身有一些常见问题:

  •  ChatGPT 回答可能会胡编乱造;

  • 只知道 21 年前公开网络的信息;

  • 数据隐私安全问题。

针对胡编乱造的现象,目前有一些方式可以优化。例如提问“某公司的业绩表现如何”,该公司根本没有对外披露过该数据,那它可能会给到假数据,这实际上是错误的。

此时,我们需要一些提示词,并构建回答的语境,这很大程度上能避免胡编乱造的情况。此外,针对信息时效性的问题,可以使用 New Bing。New Bing 结合了 ChatGPT 的总结能力,并且基于它本身的搜索能力,可以获取最新讯息,更大程度上降低了胡编乱造的概率。

针对公开信息的局限性。在企业内部,可以进行信息输入,进一步训练,提升模型的信息广度。例如,2021 年之前的外部信息,没有“观远数据的吉祥物是观小猿”这一信息。当信息提交模型后,它可以进一步加以训练。

这里发散开来,将有很多的实际应用。很多公司都有帮助文档,以观远数据 BI 产品帮助文档为例。虽然所有人都可以看到帮助文档,但 ChatGPT 很大概率没有将其纳入训练过程。那么利用信息再输入的方式,可以把这些观远数据公开的BI产品信息提交给模型,再向其提问。如此一来,它就成为了企业定制化的智能问答机器人。

针对数据安全问题。以业务问题为例,例如想获取上季度的营业额,我们通过给 ChatGPT 提交 schema 信息,而不是完整的数据表信息,让 ChatGPT 返回 SQL。我们再在内部通过这条 SQL 搜索获取数据,就能有效避免数据泄露。另外,如果是非常敏感的数据,相信未来可以进行私有化的部署,完全不对公网,数据安全也可以得到一定的保障。 

AI Thinking

谈了这么多 AI 产品的使用,可以发现在 AI 时代,过去很多要花大量时间做的重复劳动、甚至脑力劳动、知识劳动,现在都可以用 ChatGPT 来替代。那么我们人类在新时代中要发挥什么样的价值?要去做什么样的事情?

首先要了解 AI 基础的运作模式,大致明白它的工作原理;其次是 AI 和人类智能的区别,AI 擅长做哪些事情,不擅长做哪些事情;最后怎么样把日常工作中的事情可以交给AI来做,哪些事情我们自己做。

如果可以利用好 AI,相信我们的工作效率能得到数倍的提升。这里着重分享下人和AI区别的个人理解。

  • 首先是批判性的思维和创造力。这是AI非常匮乏的,因为AI只有收到我们的指令后,它才能做事。

  • 其次是同理心,AI 很难理解用户所在处境,但人和人之间比较好理解。

  • 最后,在有了同理心后,人类可以进行产品构思、具体原型打造,以及后续产品发布的测试与迭代。这些事情都是模型不太擅长的。

但在上述过程中,chatGPT 可以起到很好的辅助作用。例如在产品构思时,可以帮助我们进行头脑风暴并列出关键意见。

问答式BI的思考

在 BI 数据分析的“问题定义—数据接入—数据处理—可视化展示—交互分析—决策行动”全链路上,ChatGPT 都有结合的机会。

  • 问题定义:对于部分场景问题,基于 ChatGPT 可以得到初步的数据分析与决策计划,人工再进行校对与修改;

  • 数据接入:原先非结构化数据通常需要清洗,而现在部分数据或许不再需要清洗,直接进行端到端的分析;

  • 数据处理:辅助数据工程师做ETL开发。在 ETL 开发过程中,通过自然语言的提问,ChatGPT 生成 SQL 提供用户使用,并且可以进行多轮交互式的构建。即便第一步出现偏差,也可以在第二步重新修正;

  • 可视化展现:回答业务问题,快速获得数据结果与结论。提交问题后,自动生成 SQL,再提交于 ChatGPT 生成文字结论以及后续的行动建议,实现问答式的 BI。

  • 交互分析:深度分析报告的自动化生成。基于BI系统能力,对接企业内部各类数据源,基于可靠的数据指标来源提供可信的业务分析报告。自动识别异常原因有业务含义,并以自然语言的方式展示,避免了数据分析方法差异带来的认知偏差。

  • 决策行动:提供辅助性的预测,基于历史行动做未来的推荐建议。

以下着重分享“数据处理”、“可视化展现”、“交互分析”中,观远数据进行的一些尝试和探索。

Chat2SQL

Chat2SQL 是我们制作的一款浏览器插件,来协助进行数据处理。当需要写 SQL 时,可以一键唤起插件。通过自然语言的交互,插件可以自动生成 SQL。

交互式的提问,可以带来很多好处。首先,它可以不断修正错误,一开始或许有偏差,但随着交互的深入,可以给到正确的结果;其次,应对非常复杂的 SQL 时,交互式方式可以层层生成 SQL,一步步构建出最终成果,准确性也非常高。这将是一个新的构建范式。

Chat2Viz

在可视化展现上,也就是提问后直接展示可视化内容,原先我们做 BI Dashboard 的交互分析其实有些许麻烦,但如果像 Google 一样,通过搜索把结果展现出来,这将是一个很大的进步。

以国外的 ThoughtSpot 产品为例,其搜索栏通过转化率、渠道、上个月等关键词展示可视化内容,它并不是一句自然语言。真正的自然语言应该是:上个月的每天转化率是多少?

我们制作了一个产品原型 Chat2Viz。首先在输入栏进行自然语言的查询,产品将自动生成查询 SQL,并提交于  ChatGPT 生成文字结论、可视化内容、其他卡片的推荐以及后续的行动建议。这对于业务使用是非常方便的。

Chat2DataStory

Chat2Viz发展到后续,能否形成“DataStory”?DataStory 有个必要的前提条件,它需要一个最佳实践。

因为如果 DataStory 只给数据,但没有业务的分析链路逻辑,对业务本身是没有太大帮助的。举个例子,一家电商客户通过数据发现天猫渠道的业务影响是最大的,但这是一个显而易见的事实,这对于业务没有任何帮助。因此 DataStory 要提供真正对业务有帮助的信息。

对此,观远数据打造了“自动数据洞察”。其中的核心是沉淀了各行各业分析场景的复杂分析“决策树”。我们可以定期进行决策树链路的分析,可能是每天、每周。

基于决策树的分析链路,用户每天自动看到决策树的分析报告。如果没问题,那证明今天的数据是正常的,如果出现异常情况,将提示醒目的标志,并告诉用户哪里出问题了,问题核心在哪。这是 DataStory 的一个雏形。并且后续用户在周会、月会上,不断收集大家的追加问题,甚至对于异常问题的追问,都进一步沉淀进决策树,最后就能成为真正的 DataStory。

未来,DataStory 可以支持多轮的交互,包括未来每天向其提问,呈现一份数据报告。需要开会讨论时,也可以使用该报告。以及未来,在该报告的基础上,进行追问,展开更深度的分析,这些都是非常吸引人、也很激动人心的发展方向。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

漫谈 ChatGPT 与问答式 BI 的相关文章

随机推荐

  • 数据库——自然连接、内连接、外连接(左外连接、右外连接、全外连接)、交叉连接

    1 自然连接 natural join 自然连接不用指定连接列 也不能使用ON语句 它默认比较两张表里相同的列 SELECT FROM student NATURAL JOIN score 显示结果如下 2 内连接 inner join 和
  • Android 内存优化(四) —— 未取消注册或回调导致内存泄露

    未取消注册或回调导致内存泄露 比如我们在 Activity 中注册广播 如果在 Activity 销毁后不取消注册 那么这个刚播会一直存在 系统中 同上面所说的非静态内部类一样持有 Activity 引用 导致内存泄露 因此注册广播后在 A
  • Django连接Mysql报错:ModuleNotFoundError: No module named 'MySQLdb'

    Django连接Mysql报错 环境 Django 1 11 8 与 Python 3 6 ModuleNotFoundError No module named MySQLdb django core exceptions Imprope
  • 实验一,简单的C++程序

    实验1 简单的C 程序 一 实验目的和要求 1 熟悉Visual C 6 0编译系统的常用功能 2 学会使用Visual C 6 0编译系统实现简单的C 程序 3 熟悉C 程序的基本结构 学会使用简单的输入 输出操作 二 实验内容 1 编译
  • 短视频源码PHP进入大屏时期,你会观看吗?

    网络环境的开展 电视能够说是离我们越来越远 在网络 手机的普遍应用下 短视频行业 直播行业都更倾向于手机端开展 而小小的手机屏幕曾经不能满足用户的需求 假如将短视频源码PHP与电视分离会是怎样的场景呢 固然我们对电视观看的次数降落 但电视的
  • js的if条件判断

    js的if条件判断 if 条件表达式 console log true 如果条件表达式为true 执行该处代码 不再执行else后面代码 else console log false 如果条件表达式为false 执行该处代码 if 1 co
  • ajax异步获取svg,jQuery的AJAX从文件中检索SVG - 错误:“没有很好地形成”(jQuery AJAX r...

    我一直在使用从Inkscape中许多不同的SVG和使用 load了一会儿特定的容器元素 最近 我试图改变负载于获取 AJAX 主要是为了能够预先设置SVG 这pefectly工作 SVG前置到元素应该做的 问题是我得到的控制台错误使用检索S
  • Lsyncd 实时同步

    1 描述 Lsyncd ssh 开源lsyncd采用inotify原理监听某一个目录 如果目录内发生变化 利用rsync协议自动同步多服务器 因此lsyncd是一个轻量级的实时镜像解决方案 细粒度的定制可以通过配置文件来实现 配置文件可以编
  • 2023华为OD机试真题【分奖金/单调栈】

    题目内容 公司老板做了一笔大生意 想要给每位员工分配一些奖金 想通过游戏的方式来决定每个人分多少钱 按照员工的工号顺序 每个人随机抽取一个数字 按照工号的顺序往后排列 遇到第一个数字比自己数字大的 那么 前面的员工就可以获得 距离数字差值
  • vue项目前端埋点,获取用户信息及记录页面菜单停留时间

    当路由切换时都会去调用这个方法 控制台中能看到用户信息 操作时间 停留时间等 以下代码放到你路由文件夹中 页面埋点方案 let startTime Date now let currentTime router beforeEach to
  • 电池充放电自动测试系统介绍

    电池是国民经济的基础产品 广泛运用在交通运输 通讯 电力 铁路 国防 计算机 应急设备等各个领域 传统电池检测生产方式已经很难满足电池产品的市场需求 那么如何高效快速的进行电池产品的性能检测呢 今天就给大家介绍一款全能型电池测试系统 电池充
  • Redis连接报错:ERR Client sent AUTH, but no password is set

    如果在redis windows conf或者redis conf 我的是这个配置文件 文件夹中设置了密码 但是会报错 ERR Client sent AUTH but no password is set 用记事本打开redis wind
  • AD20/Altium designer——过孔盖油

    1 AD中添加的过孔默认是不会进行盖油的 在3D视图下如下 可以很明显看出来 2 进行过孔盖油需要双击过孔 在弹出的属性栏里进行如下操作 3 过孔盖油后 可以看见只有小孔了
  • 如何轻松玩转Rust语言

    Rust是由Mozilla主导开发的通用 编译型编程语言 设计准则为 安全 并发 实用 支持函数式 并发式 过程式以及面向对象的编程风格 本期Meetup由FISCO BCOS核心开发者李陈希给大家分享如何轻松玩转Rust语言 围绕Rust
  • DVWA失效的访问控制

    失效的访问控制 可以认为是系统对一些功能进行了访问或权限限制 但因为种种原因 限制并没有生效 造成失效的访问控制漏洞 比如越权等 这里以DVWA为例 先访问低难度的命令执行并抓包 删除cookie 并在请求头添加路径 dv vulnerab
  • 在使用win10 cmd的时候python报错:python不是内部或外部指令,也不是可运行的程序或批处理文件

    今天想用cmd运行python脚本 但是弹出了python不是内部或外部指令 也不是可运行的程序 解决方法如下 右键我的电脑 属性 高级 环境变量 path 双击path 新建 在下面的框中把python路径填进去 下面来说找路径 win1
  • 【Typora】设置图片保存相对路径

    当使用Typor编写markdown文件时 如果拷贝到其他地方 经常会图片丢失 为了解决这个问题 我使用了图片相对路径设置 文件 gt 偏好设置 找到 图片插入 设置之后保存Typora 文件路径如下 这样就不怕找不到图片啦
  • 【GD32】从0开始学GD32单片机(12)—— TIMER高级定时器详解+DMA修改PWM波占空比例程

    目录 简介 重复计数器 互补模式和死区插入 中止模式 霍尔传感器接口功能 DMA模式 例程 简介 上两篇介绍了基本定时器和通用定时器 下面是文章的链接 TIMER基本定时器详解 1毫秒延时例程 TIMER通用定时器详解 PWM波形输出捕获例
  • Python如何优雅地可视化目标检测框

    1 引言 随着计算机视觉算法工程师的内卷 从事目标检测的小伙伴们越来越多了 很多时候我们费了九牛二虎之力训练了一版模型 可是可视化出来的效果平淡无奇 是不是有点太不给力啦 作为计算机视觉工程师 我们是不是应该关注下如何优雅地可视化我们模型地
  • 漫谈 ChatGPT 与问答式 BI

    近日 观远数据G park Let s Date BI 系列直播第二期 2023 金融业如何应对 流浪数据 顺利落幕 观远数据联合创始人兼首席数据科学家字节带来了 漫谈 ChatGPT 与问答式 BI 的探索思考 字节一方面介绍了一系列 C