多年来,OpenAI、Meta 和 Google 等科技公司一直专注于积累大量数据,认为更多的培训材料会带来更智能、更强大的模型。
现在,AI 领导者正在重新思考如何训练大型语言模型的传统智慧。
对训练数据的关注源于研究表明,transformers(大型语言模型背后的神经网络)与它们获得的数据量具有一一对应的关系。Transformer 模型“与给定的数据量和计算量呈相当线性的扩展,”穆罕默德·本·扎耶德人工智能大学 (Mohamed bin Zayed University of Artificial Intelligence) 的顾问亚历克斯·沃伊卡 (Alex Voica) 此前表示。
然而,高管们开始担心这种方法只能到此为止,他们正在探索推进技术的替代方案。
据科技通讯 Command Line 报道,Scale AI 首席执行官 Alexandr Wang 在本周的 Cerebral Valley 会议上表示,流向 AI 的资金主要取决于这项扩展法“将成立”的想法。它现在是“业内最大的问题”。
一些高管表示,这种方法的问题在于它有点盲目。“如果你在模型上投入更多的计算,如果你把模型做得更大,它就会变得更好,这绝对是真的,”Cohere 的首席执行官 Aidan Gomez 在 20VC 播客上说。“这有点像是改进模型最值得信赖的方法。它也是最愚蠢的。
但Gomez 倡导更小、更高效的模型,这些模型因其成本效益而获得行业支持。
其他人则担心这小而高效的模型方法不会达到AGI(通用人工智能) —— 一种与人类智能相匹配或超过人类智能的理论人工智能形式 —— 尽管许多世界上最大的人工智能公司都寄希望于它。
大型语言模型的训练只是为了“给出前一组标记,预测下一个标记”,Salesforce 前高管兼人工智能搜索引擎 You.com 首席执行官理查德·索彻 (Richard Socher) 告诉我们。他说,训练他们的更有效方法是“强迫”这些模型将问题转化为计算机代码,并根据该代码的输出生成答案。这将减少定量问题中的幻觉并提高他们的能力。
然而,并不是所有行业领袖都认为 AI 已经碰到了扩展的天花板。
“尽管其他人可能有不同的看法,但我们认为,在规模扩大的过程中,边际收益并没有出现递减的情况,”Microsoft 首席技术官 Kevin Scott 在 7 月份接受红杉资本的 Training Data 播客采访时表示。像 OpenAI 这样的公司也在寻求改进现有的 LLM。
OpenAI 的 o1 于 9 月发布,仍然依赖于 Socher 提到的代币预测机制。尽管如此,与 ChatGPT 相比,该模型专门用于更好地处理定量问题,包括编码和数学等领域,而 ChatGPT 被认为是一种更通用的模型。
o1 和 ChatGPT 之间的部分区别在于,o1 在回答问题之前会花更多的时间进行推理或“思考”。
“总而言之,如果我们要拟人化,gpt-4 就像你的超级无所不知的朋友,当你问他们一个问题时,他们开始谈论意识流,迫使你筛选他们所说的宝石,”Uber 前工程师负责人、前谷歌首席软件工程师 Waleed Kadous 在一篇博文中写道。“o1 更像是那个仔细倾听你要说的话的朋友, 挠了挠他们的下巴片刻,然后分享了几句一针见血的话。
然而,根据独立的 AI 基准测试网站 Artificial Analysis 的说法,o1 的权衡之一是它需要更多的计算能力,这使得它更慢、成本更高。
Lakshmi Varanasi and Lloyd Lee ,Nov 25, 2024