第三章 智能交互的运行模式
回顾ChatGPT的发展历程,可以看出,OpenAI其实从GPT-1开始,基本就坚定地把大型语言模型(Large Language Model,LLM)看作通往通用人工智能(Artificial General Intelligence,AGI)的一条必由之路。具体而言,在OpenAI眼中,未来的AGI应该是这个样子的——有一个任务无关的超大型LLM,用来从海量数据中学习各种知识,这个LLM以生成一切的方式,来解决各种各样的实际问题,而且它能听懂人类的命令,以便于人类使用。
幕后:大型语言模型
自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要研究方向。它研究能够实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
自然语言处理是计算机科学,是人工智能、语言学等关注计算机和人类(自然)语言之间的相互作用的领域。因此,自然语言处理与人机交互领域有关。自然语言处理面临很多挑战,包括自然语言理解,因此,NLP涉及人机交互的面积。在NLP的诸多挑战中,就涉及自然语言理解的问题,即计算机源于人为或自然语言输入的含义,和其他涉及到的自然语言生成的问题。
一直以来,自然语言处理领域存在的问题有两个方面:一方面,迄今为止的语法大多仅限于分析一个孤立的句子,至于对上下文关系和谈话环境对本句的约束和影响还缺乏系统研究,因此分析歧义、词语省略、代词所指、同一句话在不同场合或由不同的人说出来所具有的不同含义等问题,尚无明确规律可循,需要加强对语用学的研究才能逐步解决。另一方面,人理解一个句子并非单凭语法,还会运用大量的有关知识,包括生活知识和专门知识,这些知识无法全部贮存在计算机里。因此一个书面理解系统只能建立在有限的词语、句型和特定的主题范围内;计算机的贮存量和运转速度大大提高之后,才有可能适当扩大范围。
最早的自然语言理解方面的研究源于机器翻译。1949年,美国人瓦伦·韦弗(Warren Weaver)首先提出了机器翻译设计方案。20世纪60年代,国外对机器翻译曾进行过大规模研究,并产生了巨额费用,但人们当时显然低估了自然语言的复杂性,由于语言处理的理论和技术均不成熟,所以进展不大。当时主要的做法是存储两种语言的单词、短语并在翻译时一一对应译法大辞典,技术上只是调整语言的同条顺序。但日常生活中语言的翻译并非这么简单,很多时候还要参考某句话上下文的意思。
大约20世纪90年代开始,自然语言处理领域发生了巨大的变化。这种变化有两个明显的特征。
(1)对系统的输入:要求研制的自然语言处理系统能处理大规模的真实文本,而不是如以前的研究性系统那样,只能处理很少的词条和典型句子。只有这样,研制的系统才有真正的实用价值。
(2)对系统的输出:鉴于真实地理解自然语言是十分困难的,所以并不要求系统能对自然语言文本进行深层的理解,但要能从中抽取有用的信息。例如,对自然语言文本进行自动提取索引词、过滤、检索,自动提取重要信息、进行自动摘要等。
同时,由于强调了“大规模”和“真实文本”,下面两方面的基础性工作也得到了重视和加强。
(1)大规模真实语料库的研制。大规模且经过不同深度加工的真实文本的语料库,是研究自然语言统计性质的基础。没有它们,统计方法只能是无源之水。
(2)大规模、信息丰富的词典的编制工作。规模达到几万、十几万,甚至几十万个词,含有丰富信息(如包含词的搭配信息)的计算机可用词典对自然语言处理的重要性是不言而喻的。
自然语言处理是指机器理解并解释人类写作、说话方式的能力,是人工智能和语言学的一部分,它致力于使用计算机理解或产生人类语言中的词语或句子。自然语言处理主要涉及语音识别、语音合成、语义理解、机器翻译,自然语言类产品呈现实用化的发展趋势,但是在产品成熟度方面仍存在较大的提升空间。
现代NLP算法基于机器学习,特别是统计机器学习。机器学习范式不同于一般的、之前的尝试语言处理。语言处理任务的实现,通常涉及直接用手的大套规则编码。主要研究领域包括:短文本的计算与分析技术,跨语言文本挖掘技术和面向机器认知智能的语义理解技术,以及多媒体信息理解的人机对话系统(见图3-1)。
ChatGPT无比强大的能力主要归功于“大规模”——ChatGPT所依托的大型语言模型。ChatGPT尽管加入了人工标注的数据,但是量级只有数万,这个规模的数据量和训练GPT-3.5模型使用的千亿级别的数据量相比,可谓沧海一粟,完全可以忽略不计,基本不会对提升GPT-3.5的基础能力产生作用。所以ChatGPT的强大功能,应该主要来自隐藏于背后的巨无霸模型——LLM。
图3-1 自然语言处理技术
在整个人工智能行业,几乎所有机构都在建立一个个专门的小模型,解决一个个具体的问题,然后再把这些模型组合起来一起工作。这时候,如果有人去研究大语言模型,试图制造一个类似于通用人工智能的东西,其有百亿的参数和大量计算资源,需要投资几十亿美元,那肯定会被认为是一群疯子。
所谓“大模型”,通常是在无标注的大数据集上,采用自监督学习的方法进行训练。之后在其他场景的应用中,开发者只需要对模型进行微调,或采用少量数据进行二次训练,就可以满足新应用场景的需求。
腾讯研究院称,当前的人工智能大多针对特定的应用场景进行训练,生成的模型难以迁移到其他应用,属于“小模型”的范畴。整个过程不仅需要大量的手工调参,还需要给机器喂养海量的标注数据,这拉低了人工智能的研发效率,且成本较高。
这就如同哥伦布逆着西风带着航行的船队所遇到的囧境。要想远航就需要干粮等补给的支撑。过了某一个折返点,剩下的补给将无法支撑船员返航,前面要么有岛屿,要么留给船员的就是生命最后几个月的时光。所有的人都害怕近在咫尺的死亡。所以,当哥伦布到达新大陆的时候,不仅哥伦布及西班牙的王室知道了此事,所有的人都知道了:这条路走得通。
如今,OpenAI已经用“暴力美学”的方式,把大语言模型这条路走通了,接下来其他企业、机构走第二遍,就容易多了。
LLM的发展可以理解为“构建一个任务无关的超大型LLM,让它从海量数据中学习各种知识”。图3-2展示了一个大型语言模型该有的样子。
图3-2 大型语言模型
首先,这个模型的规模必然非常巨大,有能力研发出或改动这个模型参数的机构必然很少。而任务需求方是无数的中小机构甚至是个人,就算这些中小机构或个人把大型语言模型开源出来,也无力部署这个模型,更不用说用微调这种技术模式去修改模型参数了。所以,我们应该追求不修正模型参数,就能让任务需求方顺利完成任务的方式,也就是应该采取提示词(Prompt)模式完成任务,而非采用微调模式。模型制作方则将LLM做成公用基础设施服务,以基础设施即服务(Infrastructure as a Service,IaaS)的模式运行。与此同时,服务提供方需要考虑到千变万化的用户需求,所以LLM开发方更要让LLM完成尽可能多的类型的任务,这也是LLM一定会走向通用人工智能之路的现实因素。
其次,LLM应该具备强大的自主学习能力。假设我们把世界上能获得的所有文本或者图片等不同类型的数据喂给它,它应该能够自动从中学习到数据所包含的所有知识点,学习过程不需要人的介入,并且它能灵活应用所学知识解决实际问题。因为数据是海量的,要吸收所有知识,就要用非常多的模型参数来存储知识,所以这个模型必然会是一个巨无霸模型。
那么,ChatGPT向GPT-3.5模型注入新知识了吗?答案:应该注入了。这些知识就包含在有人揭秘ChatGPT时所提到的“几万人工标注”数据里,不过注入的不是世界知识,而是人类偏好知识。所谓“人类偏好”,包含几方面的含义:首先,它是人类表达一个任务的习惯说法。比如,人们习惯说:“把下面的句子翻译成日语”,以此表达一个“机器翻译”的需求。但是LLM并非人类,它会如何理解这句话的意思呢?你要想办法让LLM理解这句命令的含义,并正确执行。所以,ChatGPT通过人工标注数据,向GPT-3.5注入了这类知识,方便LLM理解人的命令,这是它了解人类意图的关键。其次,对于什么是好的回答,什么是不好的回答,人类有自己的标准,例如,比较详细的回答是好的回答,带有歧视内容的回答是不好的回答,诸如此类。这是人类自身对回答质量好坏的偏好。人工标注通过打分模型(Reward Model)将这类信息反馈到LLM的数据里。总体而言,ChatGPT把人类偏好知识注入GPT-3.5,以此获得一个听得懂人话且比较有分寸的LLM。
就具体过程而言,首先,创建人类偏好数据。随机挑选一些问题,并由标注人员给出高质量回答,形成“人类表达—任务结果”的标注数据,喂给模型,让它学习。这批数据数量仅有数万,并通过提示词模式进行学习,即模型参数不产生变化。其次,训练一个反馈模型。随机挑选一些问题,让原始模型输出答案,再由标注人员基于“人类偏好标准”(如相关性、信息丰富程度、答案有害、负面情感等),对原始模型的答案做一个排序。最后,利用这批标注好的人类偏好数据,训练一个打分模型,这个打分模型会对原始模型的结果进行打分,告诉它哪个答案得分高,哪个答案得分低。
这样一来,整个过程通过循环式地强化学习,将反馈模型和原始模型连接到一起,当原始模型输出的结果在打分模型中获得较低分值时,它就会受到惩罚,被要求重新学习。后续不断循环后两个步骤,原始模型就会不断迭代升级,乃至脱胎换骨,学习到人类的偏好,变成一个让人类满意的模型,也就是我们最终看到的ChatGPT。
台前:新型人机交互接口
语言是人类区别于其他动物的本质特性。在所有生物中,只有人类具有语言能力。人类的多种智能都与语言有着密切的关系。人类的逻辑思维以语言为形式,人类的绝大部分知识也是以文字的形式记载和流传下来的。因而,语言也是人工智能的一个重要部分,甚至是核心部分。
用自然语言与计算机进行通信,是人们长期以来的追求。因为这既有明显的实际意义,同时也有重要的理论意义:人们可以用自己最习惯的语言来使用计算机,而无须花大量的时间和精力去学习各种复杂的计算机语言;人们也可通过它进一步了解人类的语言能力和智能机制。
实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。前者称为自然语言理解,后者称为自然语言生成。因此,自然语言处理大体包括自然语言理解和自然语言生成两个部分。历史上对自然语言理解研究得较多,而对自然语言生成研究得较少。但这种状况已有所改变。
无论实现自然语言理解,还是自然语言生成,都远不如人们原本想象得那么简单。从现有的理论和技术现状看,打造通用的、高质量的自然语言处理系统,仍然是未来较长时期的努力目标。但是针对一定应用,具有相当强的自然语言处理能力的实用系统已经出现,有些已商品化,甚至产业化。典型的例子有:多语种数据库和专家系统的自然语言接口、各种机器翻译系统、全文信息检索系统、自动文摘系统等,但是它们都不具备强大的记忆能力。
目前,很多研究已经证明LLM对于知识具有强大的记忆能力。但是,通常而言,在现实世界中,我们一般不会因为一个人记忆能力强就说这个人很聪明。是否具有强大的推理能力,往往是我们判断一个人是否聪明的重要标准。如果想让人觉得ChatGPT效果很惊艳,那么ChatGPT背后强大的推理能力是必不可少的。推理能力的本质是综合运用很多相关知识点,推导出新知识或新结论。当模型规模足够大的时候,LLM本身就具备了相应的推理能力。
ChatGPT的最大贡献在于:较好地构建了LLM的接口层,让LLM适配人类习惯的命令式表达方式,而不是反过来让人类去适配LLM,绞尽脑汁地想出一个想达到目的的命令。由此一来,LLM的易用性和用户体验便提升了。
而这种交互方式的演变,就是一种非常理想的新型人机交互模式。我们不需要专业的能力,不需要高端的设备,我们只需要开口说出自己的诉求,人工智能就能够理解并帮我们解答(见图3-3)。
图3-3 新型人机接口
这种产业变革和模式创新至少会体现在以下方面:
1.改变现有人机交互模式
用户将能够使用自然对话的方式与智能产品进行交互。
由于ChatGPT可以比较精准地理解用户的意图,因此在随后的软件和服务调用上它能够更加贴合用户的需求,进而提高交互效率与任务成功率。
这种人机交互模式的更迭,将会改变当前App等的使用方式。比如,更多的功能会被整合进App里,甚至出现拥有“大一统”能力的超级通用App。
2.改变信息分发获取模式
基于认知智能技术可实现更高效的信息整合和知识推荐。
以搜索为例,传统搜索引擎根据关键字匹配内容,使用者需要在海量搜索结果中筛选出有用信息,而ChatGPT加持的Bing搜索引擎可以直接给出答案,并提高了问题与答案的匹配度,大大提升了用户体验。
由ChatGPT引发的信息分发获取模式的改变,将影响流量的分布,并改变流量变现的商业模式。
在2022年12月的媒体通稿中,各大媒体对ChatGPT的评价集中于“仿真性”,俨然它通过了图灵测试一般。这种仿真性,可以认为是ChatGPT的“智力”又提升了的结果,人们认为它更聪明了。
