细说ChatGPT

2023-05-26 17:44
       ChatGPT是基于大语言模型开发的,国内各大公司目前正在训练的AI也是基于大语言模型。大语言模型的开发主要基于预训练语言模型(Pretrained Language Model)和Transformer架构。预训练语言模型是指通过大规模语料库的训练,使得模型能够预测下一个词的概率分布,从而可以在生成文本时更好地生成连贯的语句。而Transformer则是一种基于注意力机制的模型,可以自动学习语言结构和语义信息。由Google提出的一种深度学习模型,最初用于机器翻译,并且在2017年的一篇论文中首次提出,并且开源的。
        而大语言模型那主要体现【大】。大就是不一样 ,当你的模型足够大,用于训练的语料足够多,训练的时间足够长,就会发生一些神奇的现象。科学家把这种现象称为「涌现(Emergence)」。2022年8月,谷歌大脑研究者发布一篇论文 ,专门讲了大型语言模型的一些涌现能力,包括少样本学习、突然学会做加减法、突然之间能做大规模、多任务的语言理解、学会分类等等……而这些能力只有当模型参数超过1000亿才会出现。这里说下,chatgtp-4预计拥有超过100万亿个参数,几乎可以和人类进行精准交流,达到了语旨级;在逻辑学里,人的语言,可以分成三个层面,分别是,语旨、语意和语效。语意,也就是你说了什么,泛指字面意思。语效,是这句话导致了什么样的结果。而语旨,就是你说这句话的动机,你的根本目的。
        涌现的意思是当一个复杂系统复杂到一定的程度,就会发生超越系统元素简单叠加的、自组织的现象。比如单个蚂蚁很笨,可是蚁群非常聪明;每个消费者都是自由的,可是整个市场好像是有序的;每个神经元都是简单的,可是大脑产生了意识……
        很多人说AI会产生意识也是基于这一点,AI涌现新能力的关键机制,叫做「思维链(Chain-of-Thought)」;我们都知道,大脑是非常复杂的,由不同的生物学特征和神经化学物质等作用,而用AI类比大脑产生意识,光靠一个思维链是不够的。
        我们需要一个工具,可以把大语言模型中产生的思维链可以提炼出来,并使其可以演化和突变出更多功能和种类的思维链;让AI具有更加复杂性和丰富性。所以我们也必须要拥有这样一个工具,可以对其拥有掌控力。
        到这里我们就知道让AI产生意识还非常遥远,属于有生之年都未必能看见的;但是利用AI的能力,给大部分产业进行升级还是没有问题的。这里还有一个经济账要算,根据媒体预测,ChatGPT-4开发成本在10-20亿美元,每天的运营费用要70万美元;而随着各大公司入场,AI芯片也在涨价,所以开发成本也会越来越高;我们现在使用AI的时候很便宜,甚至是免费;当AI技术达到瓶颈的时候,就会考虑成本和盈利的问题,到时候我们就要考虑值不值得问题了。