过去一周关于 DeepSeek 的热议让许多人明确了几个显而易见的趋势:
(一)中国在生成式AI领域正在赶超美国,这对AI供应链产生了影响。
(二)开放权重模型正在使基础模型层商品化,这为应用程序开发者创造了机会。
(三)扩大规模并非推动人工智能进步的唯一途径。尽管对解决能力的巨大关注和炒作不断,算法创新正在迅速降低训练成本。
周一,股市甚至会出现了“DeepSeek 抛售潮”:英伟达等多家美国科技公司股价暴跌(截至本文撰写时,股价已部分回升)。
但人们的认知往往滞后——直到最近,我仍听到中美两国的朋友认为中国处于落后地位。
通过 Qwen(我的团队已使用数月)、Kimi、InternVL 和 DeepSeek 等来自中国的模型,中国显然正在缩小差距;在视频生成等领域,中国甚至已显现领先势头。
令我振奋的是,DeepSeek-R1 以开放权重形式发布,其技术报告也披露了大量细节。
相比之下,一些美国公司通过渲染“AI 灭绝人类”等假设性风险推动监管,试图扼杀开源。
如今,开源/开放权重模型已成为 AI 供应链的关键环节:许多公司将使用它们。
若美国持续压制开源,中国将主导这一供应链环节,导致更多企业使用反映中国价值观而非美国价值观的模型。
正如我之前所写,LLM(大语言模型)的 token 价格正迅速下降,而开放权重加速了这一趋势并为开发者提供了更多选择。
训练基础模型并出售 API 访问权的商业模式充满挑战。该领域的许多公司仍在寻找回收高昂训练成本的路径。
文章《AI 的6000亿美元难题》对此挑战剖析深刻(需说明的是,我认为基础模型公司的工作很出色,并想让他们成功)。
相比之下,基于基础模型构建应用程序蕴含着巨大的商业机会——既然他人已投入数十亿美元训练模型,你只需花费几美元即可调用这些模型,开发客服聊天机器人、邮件摘要工具、AI医生、法律文档助手等应用。
围绕“扩大模型规模推动进步”的炒作甚嚣尘上。公允地说,我曾是模型规模化的早期支持者。一些公司通过鼓吹“资本越多→规模越大→性能越可预测”的叙事筹集了数十亿美元。
受美国 AI 芯片禁令影响,DeepSeek 团队不得不在性能较低的 H800 GPU(而非 H100)上进行多项优化创新,最终以低于 600 万美元的计算成本完成了模型训练(研发成本不计)。
目前尚不确定这是否会真正降低对算力的需求。有时,降低某种商品的单价反而会导致人们在购买该商品时花费更多的总金额。
但我认为,长久来看,人类对智能和算力的需求基本上没有上限。因此,我仍坚信,即使成本下降,人类对智能的使用量将持续增长。
在社交媒体上,我看到人们对 DeepSeek 的进展有多种解读,仿佛它是罗夏墨迹测试,任人投射主观意义。
我的团队已开始头脑风暴——正是因为能轻松获取开放的先进推理模型,许多新创意才成为可能。现在仍是构建未来的绝佳时机!
苇草智酷(全称:北京苇草智酷科技文化有限公司)是一家思想者社群组织。通过种种形式的沙龙、对话、培训、丛书编撰、论坛合作、专题咨询、音视频内容生产、国内外学术交流活动,以及每年一度的苇草思想者大会(原名互联网思想者大会),苇草智酷致力于广泛联系和连接科技前沿、应用实践、艺术人文等领域的学术团体和个人,促成更多有意愿、有能力、有造诣的同道成为智酷社区的成员,共同交流思想,启迪智慧,重塑认知。