GPT-4 即将发布，带来什么产业边际变化？

Original 李沐华、李雪薇计算机文艺复兴 2023-03-17

行业更新系列

GPT-4即将发布，多模态趋势凸显。3月9日，微软德国CTO Andreas Braun 宣布GPT-4将在3.13-3.19日发布，将提供完全不同的可能性——如图像、视频。结合微软3月初发布多模式大型语言模型Kosmos-1，可以推断大模型包括GPT4将向多模态发展，多模态将成为下一波浪潮的核心。

Kosmos-1、Visual ChatGPT已铺垫GPT-4多模态模型。微软在多模态模型领域持续发力，2月28日发表论文推出了全能型人工智能模型——Kosmos-1，和局限于纯文本内容（LLM）的ChatGPT相比，Kosmos-1主干基于Transformer的因果语言模型，属于多模态大型语言模型（MLLM），除了自然语言任务，能同时理解文字与图像内容，未来会整合更多的输入模式，如音频、视频。

模型规模上，GPT-4不再强调参数规模扩张，开始注重模型表现。GPT-3采用的参数规模为1750亿个，此前业内专家推测GPT-4将具有100万亿个参数，网传热图将GPT-3的数据集比作一条线，GPT-4拓展成一个圆。OpenAI的CEO Altman在采访问答中对这张图进行了辟谣，并表示GPT-4接受训练的数据量并不会出现几何级的增长，OpenAI在数据规模上决定转型，探索怎样让模型发挥更佳效能。OpenAI的研究人员们现在意识模型规模扩张的边际回报递减，比起在规模上扩张，探索如何在学习率、批次大小等方面精进成为了突破的重点，所以GPT-4不再强调规模扩张，在数据规模上不会比GPT-3大很多。

模型优化：需要更多算力挖掘GPT-4的全部潜能。Altman在问答中提到GPT-4占用的算力总量要超过GPT-3。多模态模型在训练上需要使用图像、视频等多媒体数据，而此类文件体量大小远超文字。举例来说，OpenAI的根据文本生成图像的人工智能系统DALL-E2模型，在训练时使用了6.5亿图像数据集，模型规模有10到100亿参数量级的不同变体，按照平均图片大小估算，整体训练数据集大小高达约155TB，远超ChatGPT训练的规模。再加之视频素材的训练，训练数据集体量更是远超现在的纯文本模型，大数据规模需求凸显。综上，多模态大模型的训练对算力芯片数量需求远超纯文本语言类模型，在算力市场会迎来新一轮需求激增。

多模态是GPT系列发展的必然趋势，也是多元化应用落地的基础。当下，图像化应用已打开新型市场空间，3月8日微软开源了重量级的ChatGPT AI交互应用Visual ChatGPT，通过调用ChatGPT以及一系列视觉基础模型，实现了在聊天过程中发送和接收图像，以及动态对图像进行处理，在ChatGPT的基础上拥有了VQA（视觉问答）和AI作画的能力。Visual ChatGPT发布后短短一天，在Github就达到了4000星，文本生成图像功能已经如此引发市场追捧，GPT-4按照预期拓展到视频方向，文字生成视频、图像生成视频功能有望进一步奠定视觉方面应用落地，拓展市场格局。

图像端已有应用落地，视频等多模态的引入将打开下游行业应用空间。当前，不论是OpenAI的DALL-E2，还是AIGC领域的Stable Diffusion都已在图像领域进行了初步探索，并引起不小的反向。预计多模态短期内将在搜索引擎和聊天机器人上实现落地，为用户使用感带来巨大提升。考虑到当今信息数据有相当部分是以图像和视频的形式呈现，具有图像、视频处理能力的GPT-4对用户的反馈将从更完整的来源获得信息并以多媒体的形式呈现，有效地提高用户体验。远期看，多模态将打开视觉方向，图片生成、视频创作能力，将协助GPT-4在各类商业模式上实现进一步的拓宽，从而实现多媒体交互。

合规声明：本文节选自正式入库研究报告，如需PDF原文件请后台留言。