|
|
|
|
2025-02-05 第03版:三版
| 【字体】 | 大 | | 默认 | | 小 |
|
|
从DeepSeek成功突围中汲取经验智慧 |
|
作者:
■李富永 来源:中华工商时报 字数:2042 |
|
|
|
|
|
|
半导体芯片尤其是高算力芯片,是美国围堵和打压中国高科技产业发展进步的重点,在美国政府不断加码对华禁售范围之下,中国的高科技事业应用该何去何从?最近,在全球范围一骑绝尘的大模型开发商DeepSeek以其独特的发展路径给出了答案。 1月20日,中国科技公司深度求索推出的推理模型DeepSeek-R1,仅用美国大模型GPT-o1十分之一的成本就达到同级别的推理能力,且应用费用比后者更便宜。这是全球范围内,首次有产品超越美国ChatGPT。 众所周知,OpenAI等美国巨头训练模型,动辄需要数千甚至上万块高算力的显卡芯片,花费数亿美元的训练成本。而中国的DeepSeek-R1的预训练费用只有557.6万美元,使用的显卡只有2048块。 2024年12月,DeepSeek发布了最新的AI模型DeepSeek-V3,并同步开源,训练成本仅为557.6万美元,整个训练只需要280万个GPU小时,实现了与GPT-4o等花费数亿美元训练的顶尖模型相当的性能。 这引起了美国资本市场对美国大模型企业靠堆砌高性能芯片和花费海量金钱研发大模型路径的怀疑。1月27日,美国主要科技股市值开盘缩水超1万亿美元,其中以芯片制造商英伟达市值缩水规模为最,市值蒸发5890亿美元,另一芯片巨头博通下跌幅度更达到17.4%,其他的芯片大户如甲骨文等,跌幅也都相当显著。 DeepSeek的优越性能在全世界迅速卷起了应用旋风,几天之内在140多个国家被下载应用,还招致了境外宵小的暗箭,用各种黑手段攻击DeepSeek的服务器。真是应了那句老话“木秀于林,风必摧之”。当然,美国各大AI巨头们都还是高姿态的,纷纷称赞DeepSeek的优异表现。 不妨稍微回头看看这几年中外人工智能技术的发展道路,可以说,它与算力芯片GPU几乎是“藤缠树”或“连理枝”的关系:但凡有突破意义的大模型,都是建立在高算力芯片大量占用和使用的基础之上。这些高算力芯片不仅提供了超常的计算能力,而且还将数据中心对电力的消耗不断降低。惟其如此,处心积虑遏制中国发展的美国政府,才会不断出台限制中国获得高端芯片的政令,且一次比一次狠。即便使美国企业经济利益严重受损也在所不惜。在这样的情况下,中国的人工智能研发和应用事业,如果选择照搬美国企业的研发路径,需要眼巴巴哀求美国政府“发慈悲”“开恩”,无异于与虎谋皮,越追越落伍。 DeepSeek的先进大模型的出现,打破了发展大模型就必然消耗大量高算力芯片和巨额资金既有认识,为中国人工智能事业发展探索出了一条新的路径:绕过美国算力芯片的垄断,通过优化算法、探索效率优先,走一条“低成本高产出”道路,最终实现弯道超车、后来居上。 比如,相比OpenAI乃至国内效仿者们用数亿美元训练大模型,DeepSeek选择了一种新的多头潜在注意力机制MLA架构,与自己的混合专家结构结合,把显存占用量降到了其他大模型最常用的MHA架构的5%至13%。 比如,其他开发商千篇一律用数万亿token(文本单位)训练模型,但DeepSeek则通过“数据蒸馏”技术。通俗讲,相当于用一个高精度的通用大模型当老师,而不是用题海战术来更高效训练学生“模型”,从而把数据计算最大程度降低,仅用1/5的数据量达到同等效果,使得成本下降。 再如,与OpenAI拥有资金和算力上的绝对优势、优先追求“通用智能”、为此不惜花费数十亿美元通过海量参数投喂训练模型、希望模型可以达到全能通才的效果相反,中国的DeepSeek选择从垂直场景切入,从特定领域开始,追求在部分领域(如数学、代码)的表现更优,再逐步分阶段完善其他领域的能力。 除了成本低廉和性能优异外,DeepSeek的开源也是在全世界获得赞美的另一个突出品格。DeepSeek的“高风亮节”如同一道冲击波,震撼了行业“霸主”OpenAI,后者迅速改弦更张,重回开源初衷。 DeepSeek选择开源,不仅是出于对传统大厂技术垄断的挑战,其实还是扬长避短的路径,是基于对自身发展情况的考量。深度求索作为一家创业公司,由于在资源和算力上处于劣势,但通过开源策略,可以快速建立生态,获得更多的用户和开发者支持。所以开源不仅是技术策略,更是对未来参与制定行业规则的预设和准备。 由此可见,科技创新,并不只是技术上的苦心孤诣,更是技术研发战略路径上的高瞻远瞩和运筹帷幄。DeepSeek的异军突起,其意义不应该只是科技研发路径的创新,在产业发展领域也有着举一反三的效果。当前,我国产业界深受美国芯片封锁政策之害。现在许多产品都需要大量高性能芯片,但国内高性能芯片研发和生产毕竟难以迅速跟上,如果一味走芯片堆积的技术路线,同样也会陷入受人制约的困境。DeepSeek的成功突围,也许能让我国产业界受到深刻启发。技术研发与产品研发,两者在基本逻辑方面,应该是有相通之处。
|
|
|
|
|
|
|