AI 的世界可以大致分为三个主要领域(尽管这是一种简化的分类):
大型语言模型(LLM)
这些是通用模型,例如 GPT-4 或 Chinchilla。LLM 会从网络或其他文本/语言来源中获取内容,并将其转化为可以执行多种任务的模型,例如生成法律文件摘要、使用搜索引擎,或作为友好的聊天机器人。图像生成
包括 Midjourney、DALL-E、Stable Diffusion 等模型,以及一些易用的视频制作工具和 3D 模型(如 NeRF)。这些工具允许用户通过输入提示生成图像。其他领域
这一类涵盖了机器人技术、自动驾驶汽车、蛋白质折叠等广泛的技术和市场应用。尽管这些领域的模型架构和终端市场差异巨大,但为了简化讨论,我们暂时将它们归为一类。
生成式 AI 的多样化应用
当人们谈论“生成式人工智能”时,往往会将这些领域混为一谈。然而,每个领域都有其独特的底层 AI 模型架构、计算需求、扩展性、质量标准和应用场景。理解这些差异有助于预测它们可能带来的未来。
图像生成的潜力
图像生成技术可能会对以下领域产生深远影响:
- 社交产品与图像(如未来版的 Lensa,或与核心社交平台的集成)
- 图形与可视化设计
- 电影、漫画、动漫
- 视频游戏
- CAD(计算机辅助设计)
- 建筑设计
- 电子商务
此外,高性能视频和语音生成技术也可能开辟更多应用场景。
尽管图像生成的社会变革潜力巨大,但在短期内,其影响力与文本和语言的应用相比仍显逊色。然而,随着视频和语音等接口的普及,这种情况可能会逐渐改变。目前,大多数 B2B 应用仍以语言为中心,而消费者应用则是语言与视觉的混合体(如 Twitter、Facebook、TikTok、YouTube 等社交平台,以及 Amazon、Airbnb 等电子商务平台)。
从经济角度来看,语言生成的潜在市场价值远高于图像生成。语言是 B2B 交互、社交产品和商业领域的核心,因此 LLM 的短期重要性可能比图像生成高出几个数量级。
图像生成的成本优势
与 LLM 相比,图像生成的建模成本更低。例如,最新版的 Stable Diffusion 的训练成本可能仅需数十万到数百万美元的 GPU 时间。这使得图像生成技术更容易被广泛采用。
LLM 的核心应用领域
大型语言模型在以下领域展现了巨大的潜力:
- 搜索引擎
- B2B 交互、销售、ERP、文档管理、电子邮件
- 代码生成、数据交互、SQL、Excel 等
- 金融服务
- 社交与消费产品
- 聊天、短信及其他通信应用
- “一切的副驾”——支持白领工作的工具(如法律、会计、医学等)
这些领域中,哪些需要大型语言模型,哪些适合小型语言模型,仍是一个悬而未决的问题。目前来看,LLM 在某些领域表现优于小型模型,但并非所有领域。
市场结构与未来生态
大型语言模型的市场结构将决定未来生态系统中的经济赢家和人才赢家。谁能在收入、利润、市值和创新中占据主导地位,将取决于市场的最终形态。