这期七赚网七哥分享一篇关于当下非常火热的CHATGPT是什么,它具备什么能力,它能做什么又不能做什么?希望通过这篇文章能帮助大家解决这些疑问。下面我们一起看下关于ChatGPT有什么能力?(ChatGPT能做什么,不能做什么)的文章介绍。
“chatGPT 被认为是通用人工智能的起点,它具有什么样的能力?未来能发展到什么程度?这篇文章希望能够绕过一些复杂的概念,让你能够直观的感受到这一点。”
—、chatGPT 有什么能力
chatGPT 是由 openAI 推出的一款聊天机器人,它能够模拟人类的语言行为,与用户进行自然的交互,相比以往的 AI,它有以下几个重要能力:
知识储备:chatGPT 是一个大型自然语言内容生成模型,含有至少千亿级的参数,模型在训练时学习了大量的知识,训练的数据质量高、多样性高,同时横跨多个语种,因此知识储备很全面。
理解能力:chatGPT 利用基于人类反馈的强化学习式指令微调(RLHF)进行模型精调,在响应各类人类提示时,可以给出贴合人类预期的回复,这些回复尽管不一定都正确,但基本都能准确领会人类意图。
泛化能力:chatGPT 可以响应从没有见过的提示,可以通过小样本甚至零样本学习解锁新的能力,因此可以适应各种开放性任务。
语言生成能力:chatGPT 具备完备的语言运用能力,面对一个提问、一段文字、一个关键词、一项任务、一篇文章、一段代码、一个脑洞等人类提示时,可以生成一个答案、一个建议、一个修订、一个方案、一个摘要、一个表格、一段代码、一个客串等,因此它能够参与各种具体的任务事项。
逻辑推理能力:ChatGPT 能够基于思维链进行复杂的逻辑推理,这种能力虽然还缺乏足够的深度,但已经可以应付很多应用的需求。
上下文连续对话能力:chatGPT 可以记住单轮对话的上下文内容,能够准确记住会话中的各类指称,同时还可以随着对话的持续推进,一步步优化响应的质量。
升级潜力:chatGPT 在技术和工程实践上都具有可预期的、广泛的提升空间。
一些专业概念可以先忽略,下面是几个与 chatGPT (以 New Bing 为例)交互的小例子,能够让我们一窥它的实力:
这个问题(也就是所谓的提示) New Bing 回答的很好,因为:
提示本身并不蕴含最终的答案,同时提示文本与答案文本的关联度也不高,AI 要理解并解决这个问题必须依赖于其他知识;
这是个很无聊的问题,在搜索引擎上至少目前还没有找到类似的问答,因此 AI 不大可能轻易获得答案;
键盘的字母顺序通过现有知识或许比较容易获得,但语料给出的键盘字符顺序一般都是自左向右的,如果单纯基于键盘的语料知识,要做出正确的回答,就需要 AI 首先能够克服这种“定势思维”,而这一点通常是很难的;
chatGPT 能够真正响应这个问题而不是回应一些相关但无用的句子,观察 New Bing 的回答,可以发现它在这个问题中没有给出任何参考资料,说明这个响应来自于模型自身的能力。最为重要的是它不仅返回了答案,还生成了一段解读,通过这段解读大体能够看到这样的一个解答过程:明确这个问题和键盘的类型和设置有关—>明确什么是一般情况—>从指令中确定了起始位—>将滑动这个动作拆解为一步步从右向左的“触碰”并记录每次触碰到的按键—>明确最后一个按键—>返回答案,这种将复杂问题拆解为一个个小步骤,然后逐步推理进而获得结果的方式,是 AI 解决未知问题的关键, chatGPT 是在完全开放的问题中展现出了这种能力,它的通用潜力可见一斑。
如果觉得这是个偶然,我们可以再试几个:
逻辑流淌在语言之上,推理过程已经非常清晰。chatGPT 并不是第一个能听懂人话,并能说好人话的 AI,在此之前就有“微软小冰” 这样的高情商机器人化身人精与网友嗨聊,但要做到这般言之有物,并能真正触碰到人类思维这顶王冠,就是另外一个维度的事情了。
二、提示的重要性
我们通过提示与 chatGPT 进行交互,为了最大限度的激发这类 AI 蕴藏的能力,目前甚至还衍生出了一种叫“提示工程师”的全新职业,诸如“让我们一步一步解决这个问题...”、“”请化身化学教授...”这些魔法提示很多时候确实可以让 chatGPT 能力倍增(这听起来有些匪夷所思,但背后折射出来的正是这类 AI 所固有的一些缺陷),然而 openAI 并不想创造一款需要魔法咒语才能使用的 AI,所以除了使用魔法打败魔法,准确而富有层次的提示可以显着提升 chatGPT 的响应质量。为了展现这一点,这里先从一个简单的任务开始:使用 chatGPT 将一段图片 OCR 文本转换成表格。
首先将上面的图片通过 OCR 识别为文本,然后我们将其组装成一个提示:
由于提示不够明确,chatGPT 不知道要拆分出哪些数据列,给出的结果虽然可期,但并不理想。如果提示的意图能够进一步明确,chatGPT 通常可以完成任务:
在此基础上想进一步让它补充一下文本中难以对齐的信息,可以通过多次对话,逐步诱导它完成:
借助额外的两条提示,最终 chatGPT 成功完成了任务。仔细查看这个过程,会发现上图第一个提示的回复其实并不理想,它甚至搞错了既有数据的对应关系,不过它似乎理解了提示的主要意图,这种情况不妨先忽视细节,然后继续针对最终目标补充提示,也许惊喜就会一步步出现。整理表格的任务对于 chatGPT 来说并不属于困难问题,因此也可以尝试一步到位,直接通过一个提示生成最终的表格。但对于一些更加复杂的问题,提示的质量就会变得尤为重要。我们再看一个更复杂的任务,椭圆的方程可以写为:
如果有一天我们突然想知道椭圆方程在形式上为什么要写成这样,不同的提问可能会刺激 chatGPT 给出不同深度的响应。大多数人都可以给出类似这样的提问:
chatGPT 解释了公式各项的含义,并给出了一个简单的证明。然而这个解读还是不能让人立马通透。有一定数学思维的人,遇到这个问题可能会给出另外一种提问:
chatGPT 的回复不仅验证了提问者对这个问题的猜想,点开它的参考链接,回复中还将“防射变换”这个更深层次的概念给到了提问者:
椭圆公式中多出的 a,b 是为了将椭圆从形式上拉回圆形。显然 chatGPT 对这个提问的响应要比第一个更精准、更本质、更有价值。这两个问题所跨越的维度是由人类完成的,这一点传统搜索引擎做不到,chatGPT 目前也做不到。但是 chatGPT 可以对不同层次的提示给出不同层次的响应,而搜索引擎却不能做到这一点。这里有人可能会认为这两个问题即便通过搜索引擎也能获得类似的支持,其实这只是因为有很多人在互联网上问过这个问题,而如果我们换个大众不常参与的问题,比如下面这个:
用搜索来解决这个问题,将远比上一个问题困难的多,但 chatGPT 仍然可以给出很有价值的信息。事实上,通过文本的相关性进行信息的检索和排名,传统搜索引擎已经做的很好,但当问题的复杂度逐步提高,问题蕴含的信息越来越抽象,人与传统搜索引擎之间的巨大鸿沟就会一下子出现,chatGPT 则可以更好的处理这类任务。一方面它可以准确理解文本概念之间的关系并能进行一定的推理,另一方面它还可以通过多轮对话逐步熟悉问题的背景,最终做出更加准确的回复,比如下面这个很个性化的问题(也是经常有人问我的问题):
一开始他混淆了两人的关系,并且还给出了参考资料???但将这个问题分成递进的三个问题:
回复就准确很多,对于一些复杂问题或者比较小众的问题,不妨尝试将问题拆分为多个小问题,没准会有意想不到的效果。从上述的例子中,我们会发现 chatGPT 会遇强则强,遇弱则弱,不恰当的提示或者过于宽泛、模煳、发散的提示,可能会获得不理想甚至胡编乱造的回复,而富有层次、准确递进的提问可以显着提高 chatGPT 的响应质量。
三、chatGPT 不能做什么
1.深刻的洞见和深厚的创造力chatGPT 从既有的文字、代码、公式中学习到了广泛的语义概念、语义关系和语言组织规律,这种能力经过进一步的强化和发掘,不仅可以帮助我们提高效率,也许还可以进一步辅助我们发现一些新的交叉知识,或者产生一些极具创意的表现形式。但 chatGPT 还无法内化那些层次不同、领域不同、表述不同但内涵却趋于一致的概念,比如对于上面那个椭圆的例子,chatGPT 其实并不知道两个提问的内涵是统一的,也不清楚两类回答的内在逻辑是一体的,所以才会对人类的提示如此敏感,事实上它仍然漂浮于人类文字知识的表面(图片、视频 GPT4 已经上道),虽然擅长表达,有时也会灵光一现,但还很难将各种散装的知识融会贯通,因此现今还不具备深刻的洞见和深厚的创造力,自然也不会具有预见能力。
2. 准确性要求较高的任务chatGPT 是一种神经网络模型,它和其他一些大模型一样涌现出了一些高级别的能力和特性,这种涌现的内在机理虽然还不甚明了,但生成内容本质上仍然可以使用概率模型进行描述,chatGPT 的 “温度” 属性和 New Bing 的精确、平衡、创造力三种模式其实都是为了调节这一点(可以认为内容生成越发散,创意越高,准确性越低),也就是说靠不靠谱是一个概率问题,我们可以让它更靠谱,但极难让它不出错,比如对于常见的提示,它大概率很在行,对于一些反常的提示,那就很容易入坑:
这时候的 chatGPT 就是典型的人工智障,一连补充了四个词,都没回过神来,而且很多时候这样的坑是不可预期的。反常规提示带来的问题其实本质上来自于语料训练带来的惯性思维,实际也是一个概率模型固有的缺陷。目前 chatGPT 更适合具有容错空间的场景,还很难独自胜任一些对准确性要求比较高的任务,这些任务如果需要使用 chatGPT,至少应该有人类参与监督。3. 严格的逻辑推理chatGPT 已经具有不错的逻辑推理能力,但是严格的演绎目前确实比较孱弱,一不小心就会犯浑:
在符号推理能力上 chatGPT 仍然具有极大的提升空间,但要获得复杂演绎的完备,现有的技术路径可能很难实现。但它仍然可以成为人类解决和探索数学问题的得力工具,只因为它知道的实在太多了。4. 分布外的知识这个很好理解,没有学过的东西或者没有学好的东西自然很难产生高质量的输出,比如我个人写的一个数据处理工具包 iPybd 虽然在互联网上可查阅,但大概率没有被作为 chatGPT 的训练数据,让它写个方法示例,它会有模有样的胡编乱造:
结构看起来很合理,却是彻头彻尾的伪代码,如果不看参考资料,很容易被忽悠。
四、chatGPT 能做什么
虽然 chatGPT 目前的能力仍然还有极大的提升空间,很多时候还不能完全替代人类独当一面。但它确实可能会替代一部分人的工作,同时也极有可能会颠覆很多应用场景的现有模式,比如下面一些正在发生的事情:1. 革新搜索引擎
你可以像搜索引擎一样去使用它,虽然它还不能替代传统的搜索引擎(至少把网页作为知识凭证的价值仍然无可替代),但是很多时候,它确实是一个优秀的向导,能够大幅提高信息检索的效率,未来搜索引擎应该都会集成类似的智能机器人。
无论是生存、生活、生智、生产、生娃、身心乃至生死,对于人生这个问题 chatGPT 一般都可以应付自如2. 大众私人秘书chatGPT 正在被整合到 Word 、Excel、PPT、PDF 阅读器、网页浏览器、代码编辑器、日历、邮件、笔记、出行规划、绘图软件、视频创作软件等一系列应用程序之中,然后辅助用户写报告、看数据、读文献、作翻译、写代码、安排行程、学习知识、创作内容...,这些应用场景覆盖了绝大多数个体的日常,AI 的介入必然会成为一个不可逆的趋势。
AI 会被用于写报告、写规划、写指南、写课题、写总结、写方案、写水文等垃圾任务,但它会不会让我们更卷,这个不好说~
编码能力是真正的核心生产力,它有资格成为程序员的强大助手,但目前还不能替代程序员3. 领域智能助手这是目前最有想象空间的应用模式。垂直领域在长期发展过程中构筑起了很高的领域数据壁垒,这些壁垒维护了各个领域的内部生态,也在很大程度上迟滞了外部技术的流入。之前的各类 AI 如果要迁移到其他领域,人、财、数等方面的障碍其实是很难跨越的,chatGPT 代表的 AI 技术会让这件事情变得简单,它可以为各种开放性任务提供一个训练基座,然后以很小的代价获得或增强特定能力。这首先可能会导致部分人员失业,比如围绕某些领域的客服、中介、初级开发者等,但也会为领域的发展带来新的活力,未来诸如各类医疗助手、课业助手、心理助手、艺术助手、科研助手、博物助手、营销助手、装修助手、创作助手...将会层出不穷。
五、chatGPT 未来能够达到什么高度
回看 GPT 的发展历史,可以清楚的看到 openAI 对当前 AI 的发展有着很深刻的理解和洞见,这使得他们的技术路径非常的简洁务实,这让我们可以在一个统一的视角下去看待 chatGPT 的未来:
1)模型的知识储备必然会逐步丰富和增强,分布外的知识会被逐步补齐;
2)模型对知识的理解力仍然可以进一步挖掘,特别是大量用户的使用反馈和多模态的语料训练可以拓展模型对知识的理解深度;
3)符号演绎能力还可以大幅提升,目前已经有一些初步的研究尝试结合 chatGPT 在数学问题上进一步有所拓展,而 chatGPT 本身的数学能力在当前技术路径下都还有很大的改进空间;
4)上面三个能力有所提升,已经可以进一步提高模型的准确性,未来可以进一步引入一些针对性的增强手段,再次提升模型响应的准确性;
5)个性化能力,使其更加拟人会是个可实现的现实需求。
六、总结
这段总结,本想让 chatGPT 来写,但是它拒绝了我... chatGPT 所带来的突破不仅仅是 AI 发展历史的里程碑,更是整个社会生产力变革的里程碑。我们期待它的快速迭代,也更希望五星版的 AI 能够尽快追上并赶超。