DeepSeek的$ 1.6B开发成本揭穿了

DeepSeek的新聊天机器人拥有令人印象深刻的介绍:“嗨,我被创建了,您可以问任何东西,并得到一个甚至可能让您感到惊讶的答案。”这种AI是中国初创公司DeepSeek的产物,已迅速成为主要的市场竞争对手,甚至导致NVIDIA的股价大幅下降。它的成功源于一种独特的建筑和培训方法,结合了几种创新技术。
多语预测(MTP):与传统的单词预测不同,MTP同时预测多个单词,分析不同的句子以提高准确性和效率。
专家(MOE)的混合:该体系结构利用多个神经网络处理输入数据,加速AI培训并提高性能。 DeepSeek V3使用256个神经网络,为每个令牌处理任务激活8个。
多头潜在注意力(MLA):这种机制着重于关键的句子部分,从文本片段中反复提取关键细节,以最大程度地减少信息丢失并捕获细微的细微差别。
DeepSeek最初声称已经培训了其强大的DeepSeek V3神经网络,仅使用2048 GPU,仅使用600万美元。但是,半分析显示出更大的基础设施:大约50,000个NVIDIA HOPPER GPU,包括10,000 H800,10,000 H100和其他H20 GPU,分布在多个数据中心。这意味着服务器投资约为16亿美元,运营费用估计为9.44亿美元。
DeepSeek是中国对冲基金高级飞行者的子公司拥有其数据中心,授予AI模型优化和更快的创新实施的完全控制。这种自资助的方法提高了灵活性和决策速度。此外,该公司吸引了顶尖人才,一些研究人员每年收入超过130万美元,主要来自中国大学。
虽然DeepSeek最初的600万美元培训成本索赔似乎是不现实的,但仅引用了培训的GPU使用情况,并排除了研究,改进,数据处理和基础设施,但该公司已在AI开发方面投资了超过5亿美元。与更大的官僚竞争者相比,其紧凑的结构有助于有效的创新实施。
DeepSeek的示例展示了一家资金充足的独立AI公司,成功与行业巨头竞争。但是,它的成功无疑与大量投资,技术突破和强大的团队有关,这使“革命预算”声称有些误导。然而,公司的成本仍然明显低于竞争对手;例如,DeepSeek在R1上花费了500万美元,而Chatgpt4的费用为1亿美元。即使考虑到DeepSeek的实际支出,这种成本差异也强调了竞争优势。
-
婚礼发型与婚礼发型编辑器一起发现您梦dream以求的婚礼发型!欢迎来到婚礼发型的世界,在那里您只需轻按一下即可将新娘照片转变为令人惊叹的杰作。我们的应用程序是一种多功能的新娘照片编辑器,可让您添加各种美丽
-
Whack Whack War准备好与** Whack War **一起进行令人振奋的新冒险,这款游戏不仅令人上瘾,而且非常容易通过其可爱的图形和直观的单尾控制措施深入研究。进入激动人心的舞台,您将指挥您的英雄并开始任务
-
Army Bomb Games 3D Nuclear War核炸弹模拟器和炸弹减少3D:炸弹爆炸与核弹游戏战争。让我们享受炸弹破坏核炸弹游戏3D脱机多人游戏,并在令人惊叹的核弹炸弹游戏中引入了炸弹减少小队。下载炸弹切割游戏,并谨慎对待原子弹的攻击
-
One Lab - Artful Photo Editor使用Onelab -Artful Photo Editor释放您的创造力,这是一个革命性的应用程序,可触手可及。从简单的照片编辑到有弯曲的小故障艺术,图像扭曲,过程产生和3D操纵,此应用程序是Artis的宝库
-
LEGO DUPLO WORLDLego Duplo World不仅是常规游戏。这是一个专门为儿童设计的引人入胜且教育的平台。有一个巨大的世界,可以探索充满乐高乐高乐团制成的丰富多彩的动物,建筑物,车辆和火车,孩子们正在互动和刺激性的体验。 t
-
Doppelgangers - find your twin释放了与我们的Doppelgangers一起找到完美外观的乐趣 - 找到您的双胞胎应用程序!通过下载应用程序并毫不费力地使用您的首选方法开始您的旅程。一旦进入,请拍摄清晰的自拍照,确保这一切与您有关,而无需分心。我们的加油