低成本训练方法或将改变行业格局
数据蒸馏技术推动AI技术普及
作者:
■本报记者蒋元锐
日前,由杭州深度求索人工智能基础技术研究有限公司推出的混合专家模型DeepSeek-V3问世,搅动了人工智能领域的一池春水。其低成本训练方法不仅降低了AI研发门槛,还为中小企业和初创机构提供了参与这一前沿技术的机会。
专家认为,这一新兴模型的出现将推动AI技术的普及与应用,促进各行业的数字化转型,然而在享受技术红利的同时,如何平衡成本与质量,仍然是行业亟待解决的课题。
因价格低廉火爆出圈
DeepSeek-V3模型的一个重要特征是价格低廉。其API服务价格每百万输入tokens只需要0.5元-2元,每百万输出tokens8元。
北京社科院副研究员王鹏认为,与传统大模型相比,DeepSeek-V3在训练资源、时间和成本上具有显著优势。在训练资源方面,DeepSeek-V3通过优化算法和硬件协同设计,降低了对高性能计算资源的需求。在训练时间方面,由于采用了高效的训练方法和数据蒸馏技术,DeepSeek-V3的训练时间大大缩短。同时,得益于其低精度计算和高质量数据的使用,训练成本仅为同类型模型的极小一部分。“这种以小博大的策略为小型机构和企业提供了参与AI研发的新机遇,降低了AI研发的门槛。”
“DeepSeek-V3训练成本低,主要是因为它用了一些聪明的方法,比如只激活模型里需要的那部分,还有用更少的计算精度但不影响结果。具体策略包括,减少数据量,降低内存;精选数据,高效训练;知识蒸馏,加速学习。”深度科技研究院院长张孝荣认为,它可以用更少的电脑和时间来训练。
张孝荣介绍,数据蒸馏技术就像是把一大锅汤浓缩成一碗精华,这样AI模型学习起来就更快。它对AI未来的影响在于能让AI模型更快更准,但也要注意,这种技术可能也会让AI的发展变得“套路化”。
在实际应用中,DeepSeek-V3展现出的性能在数学、编程和多语言任务中表现突出。其典型的应用场景包括金融行业的风险评估、市场预测,医疗领域的医学影像分析、疾病诊断,以及教育、交通等多个场景,有望为这些行业带来更高的效率和经济效益。
中关村物联网产业联盟副秘书长袁帅认为,数据蒸馏技术作为DeepSeek-V3成功的关键因素之一,对AI行业的整体发展方向可能产生一定影响。
然而,其也存在天花板效应,即“学生模型”无法真正超越“教师模型”,这可能对AI领域的创新带来一定挑战。袁帅认为,如何在利用蒸馏技术提高训练效率的同时,保持对基础模型的探索和创新能力,是AI行业需要思考的问题。
“DeepSeek-V3的低成本训练方法确实
有可能降低AI研发的门槛,使得更多小型机构和企业能够参与到AI研发中来。这有助于推动AI技术的普及和应用,促进各行各业的数字化转型。”然而,袁帅认为,也需要注意到,降低门槛并不意味着降低质量,如何在保证性能的前提下降低成本,是AI研发中需要平衡的关键问题。
袁帅认为,随着DeepSeek-V3等低成本高效率AI模型出现,可能会有更多企业参与到AI研发中来。其中,拥有丰富数据和应用场景的垂直类企业可能更具优势。这些企业可以利用自身在特定领域的专业知识和数据积累,结合AI技术进行创新,推动行业的智能化转型。同时,拥有强大算力和技术研发能力的企业,也将在AI竞争中占据有利地位。
垂直细分行业将受益
创新技术不仅显著降低了AI模型的训练成本,还为更多中小企业和初创机构打开了参与AI研发的大门。
全联并购工会信用管理委员会专家安光勇表示,具备丰富数据、强大技术和资金实力的企业,如大型科技公司、互联网巨头和拥有海量用户数据的平台,将在AI研发中占据优势。此外,医疗、金融等垂直领域的企业也有潜力通过AI提升行业竞争力。拥有专业团队和创新能力的初创企业,同样能够在细分领域占据优势。
安光勇认为,降低研发成本有助于企业在资源有限的情况下持续投入AI研发。然而,投资过程中仍需谨慎,避免过度依赖单一技术路径,确保合规性和可持续发展。
“DeepSeek-V3等低成本训练方法使得这些企业也能够承担起AI研发的成本,从而有机会在AI领域崭露头角。”林先平介绍。
随着AI技术的普及,越来越多的传统行业企业开始关注并尝试将AI技术应用于自身业务中,以提升效率和竞争力。
王鹏认为,在AI研发中占据优势的企业通常具备以下特点。首先,拥有强大的技术实力和创新能力,能够不断推出具有竞争力的AI产品和服务;其次,具备丰富的行业经验和应用场景,能够将AI技术与实际业务紧密结合;第三,拥有完善的生态系统和合作伙伴网络,能够形成协同创新和共赢发展的良好局面。例如,大型科技公司凭借其在人工智能算法、大数据处理、云计算等方面的技术优势,以及广泛的行业应用场景和合作伙伴网络,在AI研发中占据领先地位。