AI 技术正在快速改变我们的世界,而其未来发展可以大致划分为三大领域(当然,这是一种简化分类):
-
大型语言模型(LLM)
这些是通用模型,例如 GPT-4 或 Chinchilla。它们通过摄取网络或其他文本/语言数据,将其转化为多功能的模型,能够完成生成法律文件摘要、使用搜索引擎或作为聊天机器人等任务。 -
图像生成
包括 Midjourney、Dall-E、Stable Diffusion 等模型,以及易用的视频制作工具和 NeRF 等 3D 模型。这些模型允许用户通过提示生成图像或视频。 -
其他领域
这一类别涵盖广泛,包括机器人技术、自动驾驶汽车、蛋白质折叠(如 AlphaFold 2)等。尽管这些技术的模型架构和应用市场各不相同,但为了简化讨论,我们暂时将它们归为一类。
生成式 AI 的细分与未来
当人们讨论“生成式人工智能”时,往往会混淆这些领域。实际上,每个领域都有其独特的 AI 模型架构、计算需求、扩展潜力、质量标准和应用场景。通过细分这些领域,我们可以更好地预测它们未来的发展方向。
图像生成的多领域影响
图像生成技术可能在以下领域带来重大变革:
- 社交产品与图像(如 Lensa 类产品及其与社交平台的集成)
- 图形与可视化设计
- 电影、漫画、动漫、日本漫画
- 视频游戏
- CAD 与建筑设计
- 电子商务
此外,高性能视频和语音技术也将开辟更多应用场景。然而,短期内,图像生成的应用范围仍无法与文本和语言生成相提并论。
语言生成的核心地位
尽管图像生成的应用潜力巨大,但从经济角度看,大型语言模型(LLM)的重要性可能远高于图像生成。语言是 B2B 交互、社交产品以及商业领域的核心。因此,LLM 在短期内对经济的影响可能比图像生成高出几个数量级。
建模成本的差异
与 LLM 相比,图像生成模型的训练成本通常更低。例如,最新版的 Stable Diffusion 训练仅需数十万到数百万美元的 GPU 时间。
LLM 与基础模型的应用场景
大型语言模型在以下领域扮演重要角色:
- 搜索引擎
- B2B 交互、销售、ERP、文档管理与电子邮件
- 代码生成、数据交互、SQL、Excel 等
- 金融领域
- 社交与消费产品
- 聊天、短信及其他通讯应用
- “一切的副驾”——支持白领工作(如法律、会计、医学等)
目前,尚未明确哪些领域需要大型语言模型,而哪些领域更适合小众语言模型。但迄今为止,LLM 在某些领域表现优于小众模型。
未来市场结构的关键
大型语言模型及其潜在市场结构将决定未来的经济赢家和创新主导者。市场结构不仅影响收入分配,还决定了人才、利润和市值的流向。
通过以上分析,我们可以看到,AI 技术在未来将深刻影响多个领域,而语言生成和图像生成则是其中最具潜力的两个方向。