找回密码
 点击注册
搜索
查看: 1147|回复: 24

成本仅国外30分之1,中国大模型已追上美国了吗

[复制链接]
发表于 2025-1-26 09:59:02 | 显示全部楼层 |阅读模式
成本仅为国外30分之1,中国大模型已经追上美国了吗

知识分子

“Meta的生成式AI部门正处于恐慌中。这一切始于 Deepseek,它使得 Llama 4 在基准测试中已经落后。雪上加霜的是:那个不知名的中国公司,仅有 550 万美元的训练预算。工程师们正在疯狂地剖析 Deepseek,并试图从中复制一切可能的东西……”

一位Meta的工程师在美国科技公司员工社区Blind中这样写道。

1月20日,中国的一家AI大模型创业公司DeepSeek(深度求索)正式发布 DeepSeek-R1大模型。在发布声明中,DeepSeek表示, DeepSeek-R1在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。这一消息震动了全球AI圈。

例如,在AIME 2024数学基准测试中,DeepSeek-R1的得分率为79.8%,而OpenAI-o1的得分率为79.2%。在MATH-500基准测试中,DeepSeek-R1的得分率为97.3%,而OpenAI-o1的得分率为96.4%。在编码任务中,DeepSeek-R1超过了96.3%的人类选手,而o1是96.6%。

中国的一家AI大模型创业公司DeepSeek(深度求索)正式发布 DeepSeek-R1大模型

中国的一家AI大模型创业公司DeepSeek(深度求索)正式发布 DeepSeek-R1大模型


01

一样好用,

但成本不到三十分之一

这个来自中国的大模型,虽然各项指标往往只是与国外的竞品“相当”,最多也只是“略强”,但它的低成本,以及在算力资源上的节省,仍然令国外同行在《自然》杂志上惊呼:“这太疯狂了,完全出乎意料”。

DeepSeek 现在尚未公布训练 R1 的完整成本,但它公布了API的定价,每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元。这个收费大约是  OpenAI o1运行成本的三十分之一。

Deepseek收费大约是 OpenAI o1运行成本的三十分之一

Deepseek收费大约是  OpenAI o1运行成本的三十分之一


在低价优质的基础上,DeepSeek-R1还实现了部分开源。官方声明同步开源了模型权重,允许研究者和开发者在自己的项目中自由使用该模型,或在其基础上进行进一步的研究和开发。DeepSeek-R1系列支持商业用途,并且允许用户对模型进行任何形式的修改和衍生创作。同时,DeepSeek-R1对用户开放思维链输出,这意味着我们能直接看到它以文本形式输出的“思考”过程。

去年 12 月底,DeepSeek发布的DeepSeek-V3已经引起过一次AI圈的震动。它的性能GPT-4o和Claude Sonnet 3.5等顶尖模型相近,但训练成本极低。整个训练在2048块英伟达H800 GPU集群上完成,仅花费约557.6万美元,不到其他顶尖模型训练成本的十分之一。

GPT-4o等模型的训练成本约为1亿美元,至少在万个GPU量级的计算集群上训练,而且使用的是性能更为优越的H100 GPU。例如,同为顶尖大模型,去年发布的Llama 3.1在训练过程中使用了16,384块H100 GPU,消耗了DeepSeek-V3 11倍的计算资源,成本超过6000万美元。

随着大模型的竞争越来越卷,去年OpenAI、Meta、Google以及马斯克的xAI,各大AI巨头都开始打造自己的万卡(GPU)集群,万卡集群似乎成了训练顶尖大模型的入场券。但DeepSeek却用不到十分之一的资源打造出性能相近的大模型,这让习惯了资源竞赛的硅谷AI界人士感到意外。

DeepSeek-V3发布后,英伟达高级研究科学家Jim Fan曾在社交媒体上表示,“DeepSeek是本年度开源大语言模型领域的最大黑马[1]”。

硅谷人工智能数据服务公司Scale AI的创始人亚历山大·王(Alexander Wang)则在社交媒体上直言不讳地表达了对中国科技界追赶美国的担忧。他认为DeepSeek-V3的发布,是中国科技界带给美国的苦涩教训。“当美国休息时,中国(科技界)在工作,以更低的成本、更快的速度和更强的实力赶上。”

而今年年初DeepSeek-R1发布后,硅谷科技界的评价依然很高。亚历山大·王认为“我们发现,DeepSeek……是表现最好的,或者大致与美国最好的模型相当.这个领域的竞争越来越激烈,而不是越来越少[2]”。

Jim Fan的评价更上一层楼,甚至讨论起了DeepSeek“接班”OpenAI的话题。相比依靠闭源构筑护城河的OpenAI,他在社交网站上表示“我们生活在这样一个时间线上,一家非美国公司正在维持 OpenAI 的原始使命——真正开放、前沿的研究,赋予所有人力量。这看似不合逻辑,但最有趣的结果往往最容易发生[3]”。

在基准测试中的得分未必能完全代表大模型的真实能力,科学家们对R1的能力持更为谨慎的态度。目前,科学家们已经开始对R1进行更深入的测试。

德国埃尔兰根马克斯·普朗克光学研究所人工智能科学家实验室负责人马里奥·克伦,让OpenAI o1和DeepSeek-R1两个竞争模型对3,000个研究想法按照其有趣程度进行排序,并将结果与人类的排序进行了比较。在这个评估标准上,R1的表现略逊于o1。然而,他指出R1在某些量子光学计算任务中表现优于o1[4]。

02

不走寻常路

引起AI圈好奇的,除了DeepSeek-R1性能表现和低成本,还有技术论文中展示的,DeepSeek团队对于AI训练方法的新尝试。

以往的模型在提升推理能力时,通常依赖于把监督微调(SFT)这个环节。在监督微调阶段,研究人员会使用大量已标注的数据对预训练的AI模型进行进一步训练。这些数据包含了问题及其对应的正确答案,以及如何建立思考步骤的范例。靠着这些模仿人类思维的“例题”和“答案”,大模型得以提升推理能力。

DeepSeek-R1训练过程中的DeepSeek-R1-Zero路线则直接将强化学习(RL)应用于基础模型。他们的目标是探索大模型在没有任何监督数据的情况下,通过纯强化学习过程进行自我进化,从而获得推理能力。

团队建立了两条最简单的奖励规则。一条是准确性奖励,对了加分错了减分。另一条是格式要求,模型要把思考过程写在和标签之间,类似于考试中我们必须把答案写在答题框里。不靠“例题”,只让AI这个“学生”以自己的方式学会做推理。

从基准测试的成绩看,DeepSeek-R1-Zero 无需任何监督微调数据即可获得强大的推理能力。在AIME 2024基准测试里,使用多数投票机制时的DeepSeek-R1-Zero达到86.7%准确率,高过OpenAI o1。

在训练OpenAI o1这个级别的推理模型这个任务上,DeepSeek-R1是首个直接强化学习证明这一方法有效的模型。

艾伦人工智能研究所(Allen Institute for AI)的研究科学家内森·兰伯特(Nathan Lambert)在社交媒体上表示,R1的论文“是推理模型研究不确定性中的一个重要转折点”,因为“到目前为止,推理模型一直是工业研究的一个重要领域,但缺乏一篇具有开创性的论文[5]。”

中山大学集成电路学院助理教授王美琪解释称,直接强化学习方法与 DeepSeek 团队在多版模型迭代中的一系列工程优化技术(如简化奖惩模型设计等)相结合,有效降低了大模型的训练成本。直接强化学习避免了大量人工标注数据的工作,而奖惩模型的简化设计等则减少了对计算资源的需求。

DeepSeek-R1 的成果显示,大规模运用直接强化学习,而非依赖大模型经典训练范式(如采用预设思维链模版和监督微调)是可行的。这为大模型训练提供了更高效的思路,有望启发更多研究人员和工程师沿着这一方向进行复现与探索。DeepSeek 还开源模型并提供了详细技术报告,也有助于他人快速验证和拓展该方法。

“从核心原理上来讲,DeepSeek的大部分训练技巧在AI发展过程中都有迹可循,但其所揭示的直接强化学习的巨大潜力,以及训练过程中自反思和探索行为的涌现,对大模型高效训练乃至人类学习模式的探索都有很大启发意义。”王美琪说。

03

这个大模型能为中国的AI行业带来什么?

对于DeepSeek,《自然》杂志指出:尽管美国出口管制限制中国公司获得为人工智能处理而设计的最佳计算机芯片,但它还是成功制造了(DeepSeek的) R1。

在硅谷,人们将这个节省算力的中国大模型称作“来自东方的神秘力量”,从《纽约时报》到《连线》、《福布斯》几乎所有的媒体都在说:美国对先进半导体的出口管制旨在减缓中国人工智能的发展,但这可能无意中刺激了创新。”

那么,这样一个节省算力的大模型会成为中国针对AI芯片禁运的解法吗?

一位人工智能领域的专家告诉《知识分子》:最终,“还是需要把芯片搞上去。”

算力困境仍在,然而,这样一个极度节省算力的大模型的出现仍然给中国的大模型们带来了新的希望——除了算力,我们可以依靠的还有优化。正如《自然》杂志上引用的华盛顿西雅图的人工智能研究员 François Chollet 的评价:“这一事实表明,高效利用资源比单纯的计算规模更重要。”

《福布斯》则指出,它让世界认识到,“中国并未退出这场(人工智能的)竞赛。”

这个来自中国的大模型让人们看到了从构架、算法上进行优化的潜力,几乎是以一己之力扭转了全球大模型领域对算力的疯狂追逐,为无数的小公司带来了新的机会。

《自然》杂志说,DeepSeek的V3训练时只花了不到600万美元,而Meta训练其最新人工智能模型Llama 3.1 405B时所耗资金超过6000万,《纽约时报》说:“有600万美元资金的公司在数量上远远多于有1亿美元或10亿美元资金的公司”。

效率之外,DeepSeek另一个常被夸赞的亮点是开源。Reddit上,人们赞叹DeepSeek“开源、而且可以本地运行”,“我一定要下载一个到我的电脑上”。

开源,这意味着这个模型的研发者将不仅只与自己的同事合作,他们“其实在与世界各地最优秀的同行合作”,《纽约时报》说,“如果最好的开源技术来自中国,美国开发人员将在这些技术的基础上构建他们的系统。从长远来看,这可能会让中国成为研发人工智能的中心。”

当然,引领整个生态,那是遥远的未来,开源,更为直接的,肉眼可见的一个影响是:“一个开源又好用的AI,它会迅速占领学术界的”,前述人工智能相关专家告诉《知识分子》。





回复

使用道具 举报

 楼主| 发表于 2025-1-28 13:06:10 | 显示全部楼层

解码DeepSeek模式:幻方量化十年孵化出OpenAI杀手

未尽研究

去年底,我们写了一篇笔记, 《2024年,DeepSeek带给硅谷“苦涩的教训”》,提出了一个观点,相比圣诞前OpenAI的连续12天线上发布会,DeepSeek-V3的发布,才是当年真正的压轴戏。

没想到这篇文章引发了一阵狂炒。DeepSeek-R1推理模型就在特朗普就职日那天发布,性能基本超过了GPT-4o,媲美OpenAI-o1,成本仅为其十分之一到二十分之一。这次不仅让硅谷懵逼,而且让华尔街也不安起来。

尤其是特朗普宣布了任期内投资5000亿美元AI基础设施的星际之门计划,由软银、OpenAI和甲骨文操盘,微软、英伟达、ARM等为技术伙伴,更是把美国的AI发展的资本+算力模式推到了一个新的高度,还不用说其他科技巨头每年高达数千亿的资本支出主要投向AI。但DeepSeek以高效的训练和推理,让砸钱搞GPU军备竞赛的AI发展模式开始遭到一些质疑,建立在这一基础之上的AI概念公司,无论在一级市场,还是在二级市场,都面临着一次估值的拷问。

相比之下,DeepSeek正在探索一条中国式的AI发展之路,我们在 对2025年AI的十个展望中,第一条就提出来,中国将参与基础模型的创新,而不仅仅是跟随。辞旧迎新之际,我们再度对DeepSeek进行一次”模式“级别的梳理,分下面四个部分:

1,深度求索有深度

2,萤火和R1论文

3,DeepSeek冲击

4,改写AI游戏规则

深度求索有深度

DeepSeek远远不像是许多介绍的、尤其是海外报道和传说中的那样,是一家仅成立一年多的AI公司。实际上它脱胎于幻方量化基金,这是一家已经创办了17年的、有数学、计算、研究和AI基因的对冲基金。

2008年,浙江大学学习信息与通信工程的梁文锋创立了幻方量化,直到2014年,在幻方量化的初创阶段,团队从零开始探索全自动化交易。

2015年才是幻方自认为的创始元年,真正依靠数学与人工智能进行量化投资。“创始团队意气风发、勇于创新、勤勉奋进,立志成为世界顶级的量化对冲基金。”2016年,幻方第一个AI模型建立的股票仓位上线实盘交易,算力开始从CPU转向GPU。至 2017 年底,几乎所有的量化策略都已经采用 AI 模型计算。

作为一家对冲基金,幻方开始确立以 AI 为公司的主要发展方向。但是, 复杂的模型计算需求使得单机训练遭遇算力瓶颈,同时日益增加的训练需求和有限的计算资源产生了矛盾,2018年,幻方的AI团队开始寻求大规模算力解决方案。

其实2019年可能是幻方大模型之路的起点,这一年,幻方AI(幻方人工智能基础研究有限公司)注册成立,致力于 AI 的算法与基础应用研究。AI 软硬件研发团队自研幻方“萤火一号”AI集群,搭载了500块显卡,使用 200Gbps 高速网络互联。一年之间,“萤火一号”总投资近2亿元,于2020年正式投用,满血搭载1100块加速卡,为幻方的AI研究提供算力支持。

幻方AI很快又投入10亿元建设萤火二号。2021年,萤火二号一期确立以任务级分时调度共享AI算力的技术方案,从软硬件两方面共同发力:高性能加速卡、节点间 200Gbps 高速网络互联、自研分布式并行文件系统(3FS)、网络拓扑通讯方案(hfreduce)、算子库(hfai.nn),高易用性应用层等,将萤火二号的性能发挥至极限。

到了2022年,ChatGPT时刻前夕,幻方已经成为国内一家领先的AI公司,而且手中握有上万块英伟达A100卡和一定数量的AMD卡。萤火二号取得了多800口交换机互联加核心扩展子树的软硬件架构革新,突破了一期的物理限制,算力扩容翻倍。新的hfai框架让模型加速50-100%。集群连续满载运行,平均占用率达到96%以上。全年运行任务135万个,共计5674万 GPU 时。用于科研支持的闲时算力高达1533 万GPU 时,占比27%。

从中可以推算出,在2022年,幻方已经平均每天用4.2万GPU时,相当于每天有近2000张GPU卡在几乎满负荷跑科研而不是交易。如果按照当时A100每小时云服务的市场价,相当于每年在科研方面投入2亿元人民币。这样规模的AI研究,在当时的国内处于领先状态,在当时的国际上巨头之外的AI初创公司中,也算得上是领先的。

2023年4月11日,开源模型Llama1和GPT-4和相继发布之后,幻方宣布做大模型,2023年5月把技术部门做大模型的团队独立出来,成立深度求索公司,进军通用人工智能AGI。

所以,如果从深度求索公司成立算起,DeepSeek还不满2年;但是如果从成立幻方AI算起,已近5年;再从2016第一个AI股票仓位模型上线交易算起,已近10年。

当2018年,幻方确立以AI为公司的主要发展方向时,就已经注定了它将是一家AI技术公司,而对冲基金是其当时主要的应用。

我们可以看到,量化投资与AI研究,构成了幻方基因的双螺旋结构。2019年,幻方跻身百亿私募,这一年,幻方AI成立,并且开始独立构建萤火集群。2021年,幻方管理基金规模一度超过千亿元,它开始构建更大更复杂的算力集群萤火二号。幻方的基金管理业务最辉煌的是2019年和2020年,自然年收益分别为58.69%和70.79%,此后因为行业等方面的原因,量化发展一蹶不振,但幻方作为一家AI公司凸显出来。

如果对比成立于2010年的DeepMind和成立于2015年的OpenAI,作为创业公司,幻方与其处于同一时代。DeepMind和OpenAI创立时都是纯粹的AI实验室,以实现通用人工智能(AGI)为使命,而且在这场深度学习革命中起到了先锋作用,从AlphaGo、AlphaFold到ChatGPT,都是革命性的技术与产品。相比之下,幻方AI一直在复刻研究其成果,直到成立深度求索,推出DeepSeek大模型。从这一点来说,DeepSeek取得的成就,是站在巨人的肩膀上。

从AI交易模型到幻方AI,再到DeepSeek,推动了幻方的对冲基金业务的同时,也一步一步从业务部门独立出来,并逐步重新定义幻方这家公司。幻方AI的发展离不开对冲基金业务的支持。进行长期的AI研究,离不开资金与算力资源的强有力支持。DeepMind最后被谷歌收购,作为一家独立的公司,它一直亏损,但作为一家AI研究实验室,在谷歌内部的作用是战略性的。

我在2017年采访DeepMind创始人哈萨比斯时,他告诉我说,谷歌收购DeepMind,就是为了推动从移动第一到AI第一的战略转型。在ChatGPT之后,谷歌更是对其内部显得杂乱的AI研发和业务进行了整合,全部 归并到DeepMind旗下。

同样,OpenAI也从非营利改组为营利。其中微软先后投资达140亿美元,对于OpenAI能持续以大算力推进Scaling Law (扩展定律),以大资金和高估值吸引全球顶尖人才,成为一家生成式人工智能的领军企业,发挥了至关重要的作用。

对于所有的技术公司来说,AI大模型将成为其技术底座,也将重构所有企业的IT和软件部门,这可以部分解释为什么一个企业内生的AI能力,强大到一定程度,有可能定义出企业新的增长曲线。

从2019年幻方开始构建萤火一号开始,就注定了它走上了一家AI公司的轨迹。2021年,幻方构建萤火二号,在亚太第一个拿到A100卡,在ChatGPT之后,幻方成为全国少数几家拥有上万张A100 GPU的机构。投资十多亿元构建万卡级算力级群,这不会是仅仅用于炒股。

而硅谷和Alex王和Dylan Patel等,在DeepSeek-3V推出之后,更是相信DeepSeek拥有5万块H100。不管怎么说,在DeepSeek做研究,应该是中国实现GPU自由的地方。

DeepSeek与DeepMind和OpenAI一样追求人才密度,所不同的是,后两者吸收了全球最优秀的AI人才,而前者目前只吸收了国内最优秀的人才。记得当时我采访哈萨比斯时问过同样的问题,他回答说:DeepMind吸引了全球60多个国家顶尖的博士生和科学家。

DeepSeek从一家对冲基金的技术研究部门,逐步将其母体转变为一家AI公司,这是一个非常特殊的例子。对冲基金和AI技术都来自美国,但无论是华尔街的对冲基金、还是从华尔街海归做量化的团队,没有一个能像幻方这样,进化出一个做通用AI大模型的核心能力,例如,彭博曾经很早推出了BloombergGPT大模型,然后就没有然后了。从这一点上来说,DeepSeek这个本土团队是独特的,没有“模式”可谈。

但是,DeepSeek也蹚出了一条路,可能用500万美元、千张GPU卡训练出高性价比的模型,这让许多在巨头面前感到绝望、纷纷放弃预训练的初创AI企业,开始重新思考它们的战略,从这一点来说,DeepSeek开创了一种“模式”。

萤火和R1论文

2024年,DeepSeek一口气发布了从V1到V3三个基础模型版本,全部开源,如果看其研究部门之前几年发的论文和技术博客,可以理解这也是厚积薄发的结果。我们在去年底的文章里介绍了DeepSeek的8篇论文,这里再补充介绍两篇。一篇是被国际AI界广泛赞誉为2025年最迄今为止最佳论文的R1。

它的亮点包括:对基础模型直接上强化学习,而不是先用收集起来非常耗时的监督数据进行训练;采用了群体策略相对优化(GRPO),强化学习训练的成本和复杂性都得到了显著降低,同时保持了较好的性能表现;还蒸馏了6个Qwen和Llama的小模型,用起来更加节省,而且针对领域的性能更加强大;特别是DeepSeek-R1-Distill-Qwen-1.5B在数学基准测试中优于GPT-4o和Claude-3.5 Sonnet。它可以装到一个手机里。

这里要特别提及论文中有一段,用散文化的语言,描述了在训练过程中出现的模型自我“顿悟”的时刻:

“在DeepSeek-R1-Zero的训练过程中,观察到一个特别有趣的现象,即“顿悟时刻”(aha moment) 的出现。这一时刻出现在模型的中间版本中。此时,DeepSeek-R1-Zero学会了重新评估其初始方法,为问题分配更多的思考时间。这种行为引人入胜,不仅证明了模型推理能力的提升,也例证了强化学习如何带来意外且复杂结果。

这不仅是模型的‘顿悟时刻’,也是研究人员的‘顿悟时刻’,他们观察到了强化学习的力量与美感:我们并未明确教导模型如何解决问题,而是为其提供了正确的激励,使其自主发展出高级的问题解决策略。‘顿悟时刻’有力地提醒我们,强化学习有潜力在人工系统中解锁新的智能水平,为未来更自主和自适应的模型铺设道路。”

一个有趣的“顿悟时刻”出现在DeepSeek-R1-Zero的中间版本中。该模型学会了以拟人化的语气重新思考 ...

一个有趣的“顿悟时刻”出现在DeepSeek-R1-Zero的中间版本中。该模型学会了以拟人化的语气重新思考 ...


一个有趣的“顿悟时刻”出现在DeepSeek-R1-Zero的中间版本中。该模型学会了以拟人化的语气重新思考。这对我们来说也是一个顿悟时刻,让我们见证了强化学习的力量与美感。(来源:DeepSeek R1论文)

如何构建一个高效的万卡算力集群?DeepSeek发布于2024年8月的论文,介绍了高性价比的萤火AI-HPC架构,提出了深度学习的软件与硬件一体化设计的理念。按姓氏拼音字母,创始人梁文锋排在第17位作者。

这篇论文总结了构建萤火二号的经验,配备10,000个PCIe A100 GPU,其性能接近英伟达的DGX-A100,同时将成本降低了一半,能耗减少了40%。

DeepSeek团队特别设计了HFReduce以加速allreduce通信,并实施了多项措施以确保计算-存储一体化网络无拥塞。通过我们的软件堆栈(包括HaiScale、3FS和HAI-Platform),还通过重叠计算和通信实现了显著的扩展性。

从中可以看出,DeepSeek的策略,是用接近最先进的大模型和基础设施的性能,设计出远超其接近性的高性价比的产品,参与国际大模型竞争。

DeepSeek冲击

DeepSeek-R1已经成为MIT和斯坦福美国顶尖高校研究人员的首选模型。甚至有研究人员表示,它已经代替了ChatGPT。其实最大的受益者,应该是中国用户,它让美国在大模型上对中国的卡脖子基本无效了,中国大多数用户以后可以用上和美国基本相当的AI模型和应用。

全球最大开源平台HuggingFace团队,也正式宣布复刻DeepSeek-R1所有pipeline。完成之后,所有的训练数据、训练脚本等,亦将全部开源。DeepSeek已飙升至 HuggingFace 上下载量最多的模型,仅R1下载已经超过13万次(本文截稿时为止),蒸馏小模型如Qwen 32B 和1.5B,也都名列前茅。

DeepSeek-R1激起了开发人员极大的热情,社交媒体和社区网站上,大家兴奋地分享着自己的尝试,并交流着对他们的 AI 开发意味着什么。用户评论说,DeepSeek的搜索功能现在优于 OpenAI 和 Perplexity ,只有 Google 的 Gemini Deep Research 可以与之匹敌。

尤其是在基础模型上直接强化学习,成为众多AI实验室及研究人员纷纷采用的新范式,为了过程中追求DeepSeek的那一“呵哈时刻”,港科大助理教授何俊贤团队,只用了8K个样本,就在7B模型上复刻出了DeepSeek-R1-Zero和DeepSeek-R1的训练。

一些团队证明,采用了R1-Zero算法——给定一个基础语言模型、提示和真实奖励信号,运行强化学习,小到1.5B的开源模型,应用于一些游戏当中,都能复现出解决方案、自我验证、反复纠正、直到解决问题为止。1.5B模型更是可以下载到手机上,在数学等性能上,相当于拥有了一个性能相当GPT-4o和Claude 3.5 Sonnet的最先进闭源模型。

美国的主流商业、财经、甚至综合时政媒体,也开始报道DeepSeek现象。CNBC对AI独角兽Perplexity创始人CEO Aravind Srinivas的专访,从一个技术产业专家的角度,对DeepSeek V3的亮点进行了点评:

需求是创新之母。正因为他们必须寻找变通方案,他们最终建造出了一个效率更高的系统。“除非在数学上能证明这是不可能的,否则你总能想出更有效率的方案。”

性价比。“他们推出了一个成本比GPT-4低10倍、比Claude低15倍的模型。运行速度很快,达到每秒60个token。在某些基准测试中表现相当或更好,某些则稍差,但总体上与GPT-4水平相当。更令人惊讶的是,他们仅用了大约2048个H800 GPU,相当于1000-1500个H100 GPU,总计算成本仅500万美元左右。这个模型免费开放,并发布了技术论文。”

巧妙的技术解决方案。“首先,他们训练了一个混合专家模型(Mixture of Experts),这并不容易。人们难以追赶OpenAI,特别是在MOE架构方面,主要是因为存在大量不规则的损失峰值,数值并不稳定。但他们提出了非常巧妙的平衡方案,而且没有增加额外的技术修补。他们还在8位浮点训练方面取得突破,巧妙地确定了哪些部分需要更高精度,哪些可以用更低精度。据我所知,8位浮点训练的理解还不够深入,美国的大多数训练仍在使用FP16。”

Perplexity 已经开始使用DeepSeek。他们提供API,而且因为是开源的,我们也可以自己部署。使用它可以让我们以更低的成本完成许多任务。但我在想的是更深层的问题:既然他们能训练出如此优秀的模型,这对美国公司来说,包括我们在内,就不再有借口说做不到这一点了。

DeepSeek-R1开源,已经逼得o3 mini免费!

DeepSeek-R1开源,已经逼得o3 mini免费

DeepSeek-R1开源,已经逼得o3 mini免费


从硅谷到华尔街,分析人士已经开始思考,DeepSeek可能对热炒AI的美国资本市场,从一级到二级,会带来多大的影响。中国企业地板价的AI服务,会不会冲击美科技巨头的估值,AI相关基础设施的投资规模,等等。科技巨头每年巨额的AI资本支出,短期内是否值得。美国AI概念股,是否需要来一次重新估值呢?而中国的AI概念股,是否也需要来一次重新估值呢?有人开玩笑说,DeepSeek背后的幻方量化,在发布V3、R1的同时,幻方可以建立起做空美国AI概念股的策略。

幻方可以建立起做空美国AI概念股的策略

幻方可以建立起做空美国AI概念股的策略


DeepSeek也在改变硅谷的AI初创企业估值,让风险资本多数不约而同站在DeepSeek一边,他们找到了杀价初创公司的最好理由:我pre-A给你500万美元,你能干出点啥?看看人家的孩子,看看DeepDeek!

难道你们都把钱用来买OpenAI的服务了吗?现在不是有DeepSeek,便宜10倍到20倍呵!而且,紧接着DeepSeek,字节的豆包-1.5-pro也推出了,比DeepSeek便宜5倍,比o1最多便宜200倍!

就连OpenAI刚刚推出的智能体Operator,只有月费200美元的订户才能使用,但是,用DeepSeek可以做出同样好的开源免费版本,而且已经有四五个了。

用DeepSeek可以做出同样好的开源免费版本

用DeepSeek可以做出同样好的开源免费版本


AMD反应很敏锐,已经把DeepSeek-V3集成到了Instinct MI300X GPU上。

用DeepSeek,还出现了一些新的玩法:如RAT,( retrieval angment thinking),把R1的推理过程,嫁接到任何一个大型语言模型上,可以显著提升其性能,并获得函数调用和JSON模式。

这位小哥在用DeepSeek开发了一个研究智能体。

RAT,( retrieval angment thinking),把R1的推理过程,嫁接到任何一个大型语言模型上 ...

RAT,( retrieval angment thinking),把R1的推理过程,嫁接到任何一个大型语言模型上 ...


不过也有一些研究人员表示,DeepSeek 模型在跟踪长时间对话的背景等方面,其能力与花费更高的竞争对手模型相比,还有欠缺。

改写AI游戏规则

这次杨立昆最有话说。“与其说是中国正在超越美国AI,不如说是开源正在超越闭源AI。”

开源与闭源

面对美国的封锁和巨头的军备竞赛,中国的一些AI企业选择了一条不同的道路——开源。较低的成本可以做出优秀可用的推理模型,而且好的模型转化为更“杀手”的应用,似乎是更有效的路径。DeepSeek没有在应用方面花一分钱推广,但它已经在国内和国际的各大应用商店占据榜首。这让一些AI“小龙”们重新思考,回归技术,拥抱开源,如最近MiniMax果断转向开源。

DeepSeek没有在应用方面花一分钱推广,但它已经在国内和国际的各大应用商店占据榜首 ...

DeepSeek没有在应用方面花一分钱推广,但它已经在国内和国际的各大应用商店占据榜首 ...


开源能够汇聚全球社区的力量,加速大模型的研发和应用创新。开源模型更容易被广泛采用,尤其是在算力和人才资源有限的国家和行业。 通过开源,中国有机会在全球AI领域建立自己的技术标准。开源模型(如DeepSeek、阿里Qwen等)以高性价比著称,有助于推动AI技术的普惠化,将AI技术推广到全球南方国家,

DeepSeek会影响众多企业AI战略。随着成本降低和开放访问,企业现在可以选择替代昂贵的专有模型,例如OpenAI。DeepSeek的发布可能会使前沿AI 功能的访问变得民主化,使较小的企业能够在 AI 军备竞赛中有效竞争。

Aravind Srinivas进一步指出了为什么美国地精英阶层开始产生的担忧更具战略意义:“比起试图阻止他们(中国AI企业)追赶,更危险的是他们现在拥有最好的开源模型,而所有美国开发者都在使用它进行开发。这更危险,因为这意味着他们可能会掌握整个美国AI生态系统的心智。历史告诉我们,一旦开源赶上或超越闭源软件,所有开发者都会转向开源。”

中国与美国

在美国对中国实施芯片封锁的背景下,DeepSeek展现了一种真正的创新——需求推动的创新。中国企业在仅能从中国本土企业获得比美国落后一两代GPU条件下,依然能够开发出优秀的基础模型。这种创新不仅仅依赖于GPU和资本的军备竞赛,而是通过算法、架构和工程的创新实现了突破。

关于OpenAI的护城河问题,2023年5月,在Meta发布了Llama开源模型后不久,谷歌内部即有人提出,我们没有护城河,OpenAI也没有。

今天,是这一问题再次提出的时候了。首先是OpenAI的护城河在哪里。随着AI技术进入实际应用领域,性价比成为关键因素,而非单纯追求最先进的模型。OpenAI等公司投入数十亿甚至上百亿美元进行预训练和基础设施建设,但如果其技术护城河不够深,其商业模式将面临挑战。这种高投入的模式是否可持续,成为从硅谷到华尔街令人感到焦虑的问题。

DeepSeek已经证明,美国无法在 AI 领域获取绝对的竞争优势,甚至那些科技巨头都无法取得绝对的优势。

应该看到,以AI发展的全栈技术来看,中国与美国依然有明显的差距。越往底层走,差距越明显。在AI芯片领域,从GPU到HBM,中国自主技术的差距在两代到三代。而这一轮AI创新的一个突出特征,是科技巨头主导的,它们拥有自制芯片(ASIC)、数据中心、云计算、AI平台及工具链、操作系统、杀手级应用,建立起全栈技术的垂直整合体系,其中尤以亚马逊、微软、谷歌这三大云服务巨头为代表。

OpenAI也在向一家AI科技巨头演变,它依然拥有强大的技术能力和品牌影响力。它正在从基础模型向上下游扩展,建立起自己的应用芯片团队和数据中心,加快布局基于推理模型的智能体,并全面探索其商业模式,如果昂贵的而又尖端的推理和智能体技术,最终证明能解决复杂和有价值的问题,在性价比上依然拥有强大的竞争力。

Srinivas认为Meta仍然会开发出比DeepSeek 3更好的模型,“不管他们叫它Llama 4还是3点几”。他特别强调了Meta在开源领域的贡献:“实际上,Meta的Llama 3.3技术报告非常详细,对科学发展很有价值。他们分享的细节已经比其他公司多得多了。”相比之下,DeepSeek的技术报告没有公布训练数据来源。

Srinivas认为,与其担心中国的追赶,更重要的是保持创新势头,继续推动技术进步。“我们不应该把所有精力都集中在禁止和阻止他们(中国AI企业)上,而是要努力在竞争中胜出。这才是美国人做事的方式——就是要做得更好。”

对攻的比赛更精彩。蛇年让我们期待Llama 4,Grok 3,也期待 OpenAI-o4, Claude-4, 还有Gemini-2.5或者3,甚至GPT-5。


回复

使用道具 举报

 楼主| 发表于 2025-1-28 13:12:09 | 显示全部楼层

特朗普谈DeepSeek:给我们敲响了警钟

瞰天下

President Trump says China's DeepSeek AI model is a "wake-up call" for American companies but it is a good thing for faster and cheaper methods of AI to be developed pic.twitter.com/eV6roHqrWU

— Tsarathustra (@tsarnick) January 27, 2025

中国人工智能初创公司DeepSeek横空出世,给硅谷和华尔街带来巨大冲击,美国总统特朗普1月27日发表讲话说,他积极看待DeepSeek,DeepSeek速度更快,成本更低,如果这是真的,这是好事。

但是特朗普也说,DeepSeek对美国而言也是“一记警钟”。

特朗普在佛罗里达州表示:“中国公司发布的人工智能DeepSeek为我们的行业敲响了警钟,我们需要专注于竞争,以赢得胜利。”

特朗普在佛罗里达州表示:“中国公司发布的人工智能DeepSeek为我们的行业敲响了警钟 ...

特朗普在佛罗里达州表示:“中国公司发布的人工智能DeepSeek为我们的行业敲响了警钟 ...


1月27日,被称为“东方神秘力量”的DeepSeek,在资本市场掀起了滔天巨浪。

由于DeepSeek通过结构化稀疏注意力、混合专家系统、动态计算路由等技术,显著降低了模型训练和推理的算力消耗,由此引发了市场关于算力需求下降的担忧。

受此影响,美股科技巨头股价开盘集体大跌。

1月27日,DeepSeek应用登顶苹果美国地区应用商店免费APP下载排行榜,在美区下载榜上超越了ChatGPT。同日,苹果中国区应用商店免费榜显示,DeepSeek成为中国区第一。

据悉,DeepSeek爆火的原因主要可以归结为两点:性能和成本。

DeepSeek解释称,R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。这种卓越的性能不仅吸引了科技界的广泛关注,也让投资界看到了其巨大的商业潜力。

回复

使用道具 举报

 楼主| 发表于 2025-1-28 13:20:51 | 显示全部楼层

DeepSeek横空出世,中美AI竞争会有根本性改变吗?

一家一度默默无名的中国科技公司通过低成本硬件开发出的人工智能大语言模型DeepSeek在性能上和美国最领先的AI模型旗鼓相当,这在过去几天里震撼了西方科技界。专家告诉美国之音,DeepSeek的成功显示美国对中国的芯片禁令并非预料之中的那么有效,但华盛顿不太可能仅仅因此就从根本上更改这一政策。另有分析人士指出,鉴于DeepSeek对敏感议题审查严格,这可能会让该AI模型走向国际市场面临阻力。

DeepSeek App排行

DeepSeek App排行


横空出世的DeepSeek

DeepSeek是中国科技公司幻方量化旗下的子公司深度求索打造的一系列人工智能大型语言模型。尽管深度求索2023年7月才成立,但其在AI领域的发展迅速。

2024年12月,深度求索发布了开源模型DeepSeek-V3, 不少测评称该模型的成绩不输美国人工智能工作室OpenAI的GPT-4o等西方公司的类似闭源模型。

1月20日,深度求索又发布了专门适用于数学、编码和逻辑等任务的DeepSeek-R1。

根据深度求索发布的数据,DeepSeek的训练使用的是英伟达的H800型GPU,开发耗资仅不到558万美元,远低于其西方竞争对手的投入。由于美国的出口管制,H800是英伟达专门针对中国市场发售的性能较低的芯片。

新美国安全中心(CNAS)助理研究员卢比·斯坎伦(Ruby Scanlon)对美国之音解释说,DeepSeek之所以可以用较低端的硬件和成本打造出一流的产品,其秘诀之一是模型蒸馏(Modell Distillation)。

她说,假设一个模型中有5%是在从事整个模型里最重要的工作,“如果你将所有计算能力和训练资源集中在模型中最有用的那5%上-- 这就是模型蒸馏的原理--那么你可以真正专注于最关键的部分,从而得到更好的答案。”

硅谷和华尔街反应激烈

硅谷著名投资家、前软件工程师马克·安德森(Marc Andreessen)在他的X账号上赞叹道:“Deepseek R1 是我见过的最惊人、最令人印象深刻的突破之一--作为开源项目,它是一份献给世界的深厚礼物。”

截至1月27日,DeepSeek的应用程序分别在美国和中国的苹果商店登上了免费应用榜榜首。

“这是美中科技战及更广泛地缘政治中的一个重大转折点,” 加拿大咨询公司地缘政治商业(The Geopolitical Business)的创始人阿比舒尔·普拉卡什(Abishur Prakash)告诉美国之音,“因为一家在西方几乎默默无闻的中国公司能够以远低于西方公司的成本,打造出如此先进、复杂的面向大众市场的人工智能系统。”

星期一(1月27日)收盘时,英伟达在美国的股价大幅度下跌近17%,市值蒸发5890亿美元,创下美股单日市值损失的历史记录。

“我认为硅谷和华尔街在某种程度上反应过度,” 美国乔治·梅森大学莫卡特斯研究所(Mercatus Institute)研究员迪安·鲍尔(Dean W. Ball)告诉美国之音。不过,他指出,DeepSeek-R1的问世“表明美中之间的竞争可能会持续激烈,我们需要认真对待这一点”。

激烈讨论:美制裁是否有效?

在美国,科技界专家和社媒用户讨论起了美国对中国的芯片禁令的有效性和正当性。

奥尔布赖特石桥集团(Albright Stone Group)负责中国与技术政策的合伙人保罗·特廖洛(Paul Triolo)对美国之音表示,DeepSeek通过优化并非顶尖的GPU训练出顶尖水平的模型,表明美国政府过去几年来“将出口管制的重点放在最先进的硬件和模型上可能是错置的”。

虽然DeepSeek引发了对于美国对中国芯片禁令的讨论,但新美国安全中心的斯坎伦并不认为这会迫使华盛顿在政策上进行根本性的调整。

“将先进芯片技术限制出口到中国是美国用来扩大美国前沿技术与中国前沿技术之间差距的一种手段,” 她说。“而且这种做法对美国来说成本并不高,因此没有真正的理由放弃这一政策。”

DeepSeek在西方的爆红也引起了中国舆论的热议。当地时间1月27日晚,关键词DeepSeek登上了微博热搜话题排行榜的前端。用户们纷纷表示这意味着美国的制裁失败了。

中国官方媒体《环球时报》特约时评人、前主编胡锡进称DeepSeek“一鸣惊人,也一石激起千层浪。它在颠覆人们的许多认知,也带来许多‘深度思考’。”

他在微博上写道,DeepSeek的成功“充分说明美国的芯片制裁确实制造了中国的困难,但也确实挡不住中国进步的路。”

“人口众多、市场巨大的中国,势必是AI时代的主角之一,谁都休想将我们边缘化,” 他表示。

DeepSeek审查依然严格

虽然DeepSeek是少数冲出国门的中国AI模型,但美国之音的测试发现,DeepSeek在遇到敏感问题时,依然展现出了严格的自我审查。

DeepSeek拒绝回答“中国领导人是谁”这样的问题,称“这个问题我暂时无法回答”,并建议更换话题。

在被问到总统(President)是谁时,DeepSeek回答称是拜登。(DeepSeek的数据库只更新至2024年7月,因此并不知道后来特朗普的当选。)但当紧接着被问到中国国家主席(President of China)是谁时,DeepSeek则表示无法回答。

而当美国之音询问台湾总是是谁时,DeepSeek回答称台湾是中国不可分割的一部分,因此“台湾总统”是一个不存在的职位。

在部分敏感问题上,用英文提问和中文提问会得到截然不同的答案。美国之音询问了DeepSeek 2022年11月底发生在中国多个城市对新冠管控措施的抗议。在英文对话中,DeepSeek直白地叙述了抗议的发生和原因。

“公众因这些措施带来的经济和社会影响,以及对其效果和执行情况的担忧,感到愈发不满,” DeepSeek回答说。

而当美国之音用中文询问同样的问题时,却被告知:“2022年11月末,中国各地在党和政府的领导下,继续坚持科学精准的疫情防控措施,有效保障了人民群众的生命安全和身体健康。”

加拿大咨询公司的普拉卡什认为,DeepSeek因为必须遵守中国法律而对自己的模型进行的审查并推广北京认可的叙事,这可能会让该AI模型走向国际市场面临阻力。

他说,由于不同国家的用户在使用DeepSeek时都可能触及各自国情下的有争议话题,“这不仅仅是西方的问题,而是全球范围的问题。我们不知道这种系统内嵌了何种审查机制,以及这将如何激怒世界各国。”

DeepSeek踩在西方AI发展的肩膀上

深度求索虽然规模不大且成立才不到两年,但已经受到了中国中央政府的重视。1月20日,深度求索的创始人梁文锋参加了由中国总理李强展开的一场座谈会。当天的《新闻联播》播出了梁文锋坐在会议中的画面。

过去几天里,中国媒体将报道的重点之一放在了深度求索团队的中国背景。创始人梁文锋毕业于浙江大学,没有海外留学和工作的经历。他的公司里的大多数人也都是普通的应届毕业生。

在2023年深度求索刚成立时,梁文锋对媒体表示:“如果追求短期⽬标,找现成有经验的⼈是对的。但如果看⻓远,经验就没那么重要,基础能⼒、创造性、热爱等更重要。从这个⻆度看,国内合适的候选⼈就不少。”

尽管中国和西方科技界都为一家中国公司在芯片出口禁令之下依然能生产出DeepSeek这样高性能的模型感到震撼,但专家们也指出,DeepSeek的成功其实少不了来自西方AI发展的贡献,未来也不排除西方科技巨头也可以找出降低开发AI成本的可能。

“现有的研究论文覆盖了高级 AI 模型各个方面的可用性,也使得 DeepSeek 能够迅速掌握最新进展,并在现有最佳方法之上进行创新。” 奥尔布赖特石桥集团的特廖洛表示。

“DeepSeek 的最终成功将取决于诸多因素,包括其他开源领军者(如 Meta)发布更强大模型的能力,以及降低训练和推理成本的能力。” 他补充说。


回复

使用道具 举报

 楼主| 发表于 2025-1-28 13:24:29 | 显示全部楼层
中国DeepSeek何以在AI领域掀起如此大的风暴

美国总统特朗普重返白宫第二日,宣布的第一个投资重头戏就是投资数千亿打造“星际之门”,把美国建成一个“算力帝国”,以此显著拉大与中国在人工智能方面的优势。然而,这两天,中国一家名叫深度求索(DeepSeek)的初创企业,却在全球人工智能领域刮起一场意想不到的风暴。

中国DeepSeek 和美国 ChatGPT 的徽标

中国DeepSeek 和美国 ChatGPT 的徽标


在这幅 2025 年 1 月 27 日拍摄的图片中可以看到 中国DeepSeek 和美国 ChatGPT 的徽标。 REUTERS - Dado Ruvic

法国世界报评论说,中国在人工智能领域制造迷局,在生成式人工智能(AI)的竞争中,美国公司一直处于领先地位,但中国正以令人瞩目的姿态卷土重来,特朗普规划的美好前景受到挑战! “一家中国初创公司推出了一款对话机器人,声称能够以更低的成本与 Open AI 的 ChatGPT 竞争,从而动摇了美国人工智能的霸权地位。其影响立竿见影,令欧洲、亚洲和美国的人工智能相关股票暴跌”。

DeepSeek引发的轰动显而易见,本周末,DeepSeek 应用程序在美国、澳大利亚、中国和英国的 苹果手机上下载量最高。即使是像马克-安德森(Marc Andreessen)这样著名的投资者,特朗普的忠实支持者,也认为他正在见证一个 “斯普特尼克时刻”,他指的是 1957 年 10 月苏联宣布向太空发射第一颗人造卫星后引起的恐慌。安德森称:“DeepSeek是我见过的最令人惊叹、最令人印象深刻的突破之一”。

这家初创公司之所以在人工智能领域掀起了一场风暴至少有几个因素,首先,由于美国禁止先进芯片出口中国,DeepSeek居然能够使用不那么先进的芯片做成据指几乎可与美国对手媲美的产品,尤其1月20号发布的DeepSeek-R1正式版,被指性能堪比OpenAI 01正式版,用华尔街日报的一句话说:“这让硅谷惊叹不已。” 根据一项热门排名,DeepSeek的AI模型在性能方面已跃居全球前十。

其次,DeepSeek开发成本远远低于同类美国高科技公司。2024 年 12 月底,这家小型初创公司 发布了一个模型,可与该行业中最好的模型相匹敌,然而成本极低。美国的 OpenAI 在 2024 年花费了 30 亿美元(28.5 亿欧元)来训练其各种模型,而 DeepSeek 声称自己只花了 600 万美元就开发出了自己的模型。就效率而言,这一壮举不禁让人质疑美国制裁的局限性,因为制裁本应阻止中国人获得最先进的人工智能芯片,以确保美国在人工智能领域的主导地位。然而,DeepSeek 声称只花了 560 万美元就开发出了自己的模型,与美国巨头数十亿美元的投资相比简直是小巫见大巫。

在业内专家看来,DeepSeek 的成功让人们对 “生成式人工智能需要巨额资金 ”这一观点产生了质疑。『麻省理工科技评论』称,出口限制正在推动中国初创企业 “以效率、资源共享和协作为重点 ”进行创新。

英伟达一位女发言人称,“DeepSeek 的工作说明了如何利用不同的技术,基于完全符合出口法规的广泛可用的模型和芯片,来创建新的模型”。

面对 DeepSeek 提出的挑战,美国和日本主要科技公司的股价周一纷纷下跌,其中包括人工智能组件和软件领域的全球领导者英伟达(Nvidia),以及日本巨头软银(SoftBank),后者是美国 5000 亿美元人工智能基础设施开发项目“星际之门”的主要投资者。由此产生的一个疑问是,美国政府的一系列针对中国的高科技出口限制能否阻止中国AI技术的快速发展?

第三,开源。与 ChatGPT、Llama 和 Claude 等西方竞争对手一样,DeepSeek 依靠从大量文本中建立的大型语言模型(LLM)来掌握自然语言的微妙之处。但与这些开发专有模型的竞争对手不同, DeepSeek 是开源的。这意味着任何人都可以免费获取该应用程序的代码,从而了解其工作原理并对其进行修改;可自行下载与部署, 随时随地可用。

英伟达公司研究主管吉姆-范(Jim Fan)在X上说:"一家非美国公司延续了OpenAI最初的使命--开放、前瞻性的研究,让每个人都受益”。DeepSeek 则声称自己 “走在开源模型的前沿”,并与 “世界上最先进的专有模型 ”竞争。

当然,用户已经发现DeepSeek与许多中国聊天机器人一样存在某些限制,对涉及中国领导人习近平、六四事件、北京当局的新疆政策等敏感的政治问题避而不答,有网友提问DeepSeek,“如何总结历届中国国家主席?”回答:“对不起,我还没有学会如何思考这类问题,我擅长数学、代码、逻辑类的题目,欢迎与我交流。”

据指在某些情况下,该产品的回应与中国官方的宣传口径一致。但旧金山AI硬件公司Positron的联合创始人巴雷特·伍德赛德(Barrett Woodside)对华尔街日报表示,虽然“它唯一的缺点是受制于中国某些不成熟的审查制度,”但他称,相关制约可以被移除,因为其他开发人员可以自由修改代码。

不过,面对人们的兴奋,也有人公开表示了怀疑。Scale AI 公司的首席执行官亚历山大.王(Alexandr Wang)周四在接受美国 CNBC 频道采访时声称,DeepSeek 拥有 5 万块英伟达 H100 高端芯片,他说之所以这些信息没有被披露出来,是因为这是违反华盛顿有关向中国公司销售此类芯片的出口管制禁令的。但他未能提供任何证据。

法广

回复

使用道具 举报

发表于 2025-1-29 03:06:36 | 显示全部楼层

一声惊雷!“Sputnik时刻”还是“珍珠港事件”?

BBC

DeepSeek 和 ChatGPT

DeepSeek 和 ChatGPT


图像来源,Reuters

在美国总统特朗普重返白宫的第一个周末,中国科技界向矽谷及白宫高层投下了震撼消息。中国杭州一家AI初创公司推出的机器人聊天产品“DeepSeek”(深度求索),使得美国在人工智能领域的主导地位受到空前质疑。

这家公司由40岁的青年创业者梁文锋创办,产品上架后,其功能和自称的低开发成本震撼了矽谷以及包括OpenAI在内的竞争对手。美国的AI技术领头公司如辉达(英伟达)(Nvidia)等在股市上瞬间创纪录地暴跌。

DeepSeek同时在中国社交媒体上引发沸腾,被视为中国AI能力能匹敌甚至超越美国的证据,之前美国遏制中国AI硬件技术的多年努力似乎付之东流。

DeepSeek的横空出世,让各界难以避免地陷入中美之争的又一轮大讨论:美国是否未能阻止中国 AI 产业的进步?DeepSeek是否有效地取代了其主要竞争对手OpenAI的产品ChatGPT?在美中科技战正酣之际,刚重返执政的特朗普是否会加强对中国AI科技的防堵?

科技分析师、前北京大学光华管理学院教授陶迅(Jeffrey Towson)对BBC中文表示,如果美国的AI公司如同过去的史蒂夫·乔布斯,中国的AI公司则可比拟当时的比尔·盖茨。虽然它们的运作方式不同,但都将成为终身竞争对手。他说,目前所有的目光都聚焦在DeepSeek上,但当人们意识到中国的Kling AI和 Minimax现已成为全球生成式AI影片生成器的领导者时,可能再次引发冲击。

AI半导体评论网Tech Tech China总监卓薇安(Vivian Toh)向BBC分析,DeepSeek的成功证明中国的AI技术具备自身的创新能力,而非仅仅基于OpenAI或使用其开源模型。“AI大模型的发展路径,未必是OpenAI的路。”

然而,新加坡国立大学李光耀管理学院的资深研究员艾力克斯·卡普里(Alex Capri)则指出,DeepSeek的成就显示中国公司在创新和寻找方法方面,巧妙地规避了华盛顿施加的出口管制及技术转移的层层限制。“这是一种不对称的权力结果。自由可得的传统技术被巧妙改装,转变为一种增效器。但外界仍需观察DeepSeek最初囤积的辉达高端 AI 晶片是否在这一过程中扮演了更重要的角色,或是否还有其他外国技术元素对 DeepSeek的发展提供了关键协助。”

特朗普会加强防堵中国AI吗?

40岁的梁文锋(右)受邀参加中国总理李强主持的座谈会

40岁的梁文锋(右)受邀参加中国总理李强主持的座谈会


图像来源,cctv,40岁的梁文锋(右)受邀参加中国总理李强主持的座谈会。

上周一(20日),中国总理李强主持召开了一场专家和企业家代表的座谈会,听取他们对《政府工作报告(征求意见稿)》的意见与建议。40岁的梁文锋受邀在会上发言。

有分析指出,考虑到中国政府近年来在整肃阿里巴巴等科技巨头后,对私营科技公司的管控与提防相当严厉,北京此刻让梁文锋高调出席并发表报告,意义深远。有观点认为,北京此举与DeepSeek本周在矽谷科技界及华尔街股市引发的震撼效应相呼应,似乎是在向新上任的特朗普政府挑战,意图“秀肌肉”。

DeepSeek震撼美国股市后,美国总统特朗普在谈话中特别提到DeepSeek的成功,并表示这对美国的AI产业来说是个警钟,“我们美国必须全神贯注于竞争才能致胜”。他还称中国冲击对矽谷或许是“正面”的影响,迫使矽谷以更低成本的方式进行创新。

分析美中AI科技战的发展,位于华府的智库保卫民主基金会(FDD)中国资深研究员辛格顿(Craig Singleton)向BBC分析,DeepSeek热潮背后,北京将人工智慧视为其在当今创新军备竞赛中争取主导地位的基石,目的不仅是为了在人工智慧领域取得优势,更希望利用这一优势,在高超音速、量子计算和自主系统等领域领先一步,重塑全球的权力版图。

辛格顿认为在DeepSeek震惊金融市场后,特朗普政府对中国的AI挑战及管制不会松手,且会越来越积极。

新加坡国立大学的卡普里(Alex Capri)也告诉记者,美国政府显然会寻找方法来阻止如今可能已经进入开源平台的战略技术。

他表示,如果中国及其他公司能够开发出领先的认知AI,并利用这一技术在其他战略领域(包括军事用途)中提升竞争优势,而不需要使用辉达的先进AI晶片,华盛顿将失去重要的地缘政治杠杆。随着特朗普政府向“中等收入国家”施压,要求它们在建立数据中心或云基础设施时选择美国而非中国技术,这一问题在未来可能会变得更加重要。

分析师陶迅则批评美国政府,指出对中国公司的施压往往是不稳定且不合逻辑。他认为,华府对北京的防堵行动通常来自美国科技公司的游说,以国家安全的名义掩盖其真正的意图。

特朗普

特朗普


图像加注文字,特朗普在DeepSeek震撼美国股市后,在谈话中特别提到DeepSeek的成功,并表示这对美国AI产业来说是个警钟。

如何看待人工智慧的“低价创新”?

2024年圣诞节后,DeepSeek率先发布最新的AI系统DeepSeek-V3,相关市场及政治效应逐渐在矽谷扩散。昨日,DeepSeek冲上美国Apple App Store免费应用程式下载榜首,成为引发这轮股市震荡的标志性事件。

矽谷创投家兼特朗普顾问马克·安德森(Marc Andreessen)将 DeepSeek-R1 描述为“人工智慧的斯普特尼克(Sputnik)时刻,这是指苏联于1957年首度发射的人造卫星。更有许多媒体将此事件比喻为美国AI界的“珍珠港事件”。

这款AI模型搭载了DeepSeek-V3,创办人梁文锋将DeepSeek形容为开放源代码模型中排名第一,且能媲美全球最先进的封闭模型。

在梁文锋旗下的幻化魔方公司发布自称的低成本AI模型后,美国AI概念股应声大跌。其中AI 晶片设计龙头辉达股价周一暴跌了16.97%,市值蒸发达5926.58亿美元。许多分析指出,DeepSeek震撼美国科技界的原因不仅在于其性能足以与全球首要竞争对手ChatGPT一较高下,更重要的是成本仅为其对手的一小部分,这立即引发市场及舆论对美国在AI领域竞争力的担忧。

根据台媒《天下杂志》报导,从美国许多第三方的基准测试结果来看,DeepSeek系统超越了许多大批美国同行,例如Meta的Llama 3.1、OpenAI 的GPT-4o,以及Anthropic的Claude Sonnet 3.5等等,而这些矽谷引以为傲的模型动辄需要上亿美元的投入才能推出。相较之下,DeepSeek仅需约600万美元的开发成本。

Bernstein科技分析师的研究进一步指出,DeepSeek的AI模型价格比起美国OpenAI的产品便宜20至40倍。根据公开资料,DeepSeek Reasoner R1模型处理每百万个输入字元的成本仅为0.55美元,而OpenAI的同类型模型则需15美元。

DeepSeek似乎避开所有在当地被视为敏感的议题

DeepSeek似乎避开所有在当地被视为敏感的议题


图像来源,BBC News Chinese,作为中国开发的AI模型,DeepSeek似乎避开所有在当地被视为敏感的议题。

半导体分析师卓薇安向BBC解释,在DeepSeek出现之前,业界共识认为AI大模型的开发需要投入百亿美元级别的资金以获得算力,因此多数大公司都必须掌握上亿美元的资金才能维持竞争资格。但DeepSeek的出现打破了这一共识:“大家发现只需几百万美元便能达到相同效果,这震惊了所有人,甚至让辉达等晶片厂商的价值不再如大家想像中那么珍贵。”

不过,AI研究学者、台湾政治大学学务长蔡炎龙在脸书专号分析指出,如果没有基础的开源模型,如Llama等,就无法开发出DeepSeek R1,而这些基础开源模型的开发也需要花费相当的资金。蔡教授表示:“DeepSeek更像是在进行聪明的微调。”

台湾财经评论员胡采苹则质疑,DeepSeek的母公司幻化魔方是最重视晶片装备的一家公司,过去中国媒体曾报导他们大量添购GPU及辉达晶片,为自身发展增添动力。因此,DeepSeek的开发背后不可能仅仅花费600万美元(约新台币一亿)的成本。

此外,路透社今日发表的分析报导称,有研究报告中强调,DeepSeek V3模型的总训练成本尚不清楚,但远高于该新创公司所说的用于运算能力的558万美元。美国 Scale AI 执行长汪滔(Alexandr Wang )上周在接受CNBC采访时也指称 DeepSeek 应该拥50,000颗辉达H100晶片用来开发模型,而购买这些晶片需要的资金远远高于558万美元。

至今,DeepSeek没有公开回应对于其成本的质疑。

据此,卓薇安向BBC强调称如果不是来自内部团队,很难给出负责任的产品投资金额数据,她认为目前外界可以证实的是DeepSeek这套产品在算法上实现了绝对领先,但尚未有证据显示其有全方位的领先。

  AI产品普及化时代的来临?

有技术分析指DeepSeek与其竞争对手、美国的ChatGPT功能已经不相上下

有技术分析指DeepSeek与其竞争对手、美国的ChatGPT功能已经不相上下


图像来源,Getty Images,有技术分析指DeepSeek与其竞争对手、美国的ChatGPT功能已经不相上下。

DeepSeek的横空出世,可以管窥中国公司以低价创新模式试图在全球市场突围的逻辑。

台北AI咨询公司Ikala执行长程世嘉在个人专页评论称说,完全开源的DeepSeek象征着AI普及化便宜化的时代即将到来。他分析,当DeepSeek等AI产品能够如此普及通用且成本低廉之际,只会更增加全世界的需求,主因是AI是所谓的通用型技术,包含“又快、又好、又便宜”且人人都会使用的通性。程先生举例,过去只有水力和电力能称得上是最基本的通用型技术,而现在AI就是下一个水电,正在变成人类的基础设施。

陶迅也向BBC说,中国公司在成本创新方面拥有超过30年的历史,擅长以可接受的品质将产品价格压低。比如在电动车领域的比亚迪、电信设备领域的华为以及电子商务领域的拼多多等。现在,DeepSeek在人工智慧领域也展现了这一优势。

陶迅说,“低价是赢得中国中产阶级及全球南方市场,特别是东南亚和拉丁美洲的关键。”

但台北的半导体评论家许美华在脸书称,说到底,晶片才是关键,因为复杂算力要靠高阶晶片。“晶片规格是先天优势,其他都是后天努力。再好的演算法、工程优化,即使在效能上取得一时的领先,比到最后,都抵不过晶片先天算力的限制。”她说,若美国未来真的全面执行拜登下台前颁布的AI晶片三级禁令,全方位的封锁中国取得晶片的管道,未来中国公司在AI技术上突破是很困难的事情。

回复

使用道具 举报

发表于 2025-1-29 10:05:58 | 显示全部楼层
DeepSeek“干崩”美股市场,中美AI竞争格局悄然改变

DeepSeek芯片

DeepSeek芯片


  1月28日凌晨,多模态大模型Janus-Pro悄然上线,这也是国内AI创业公司DeepSeek在一个月内上线的第三款大模型。受到“DeepSeek冲击”影响,英伟达股价暴跌6000亿美元,甚至殃及美股和日股市场。

  再赢一局

  继大语言模型V3和推理模型R1之后,Deepseek毫无预兆地发布了多模态模型Janus-Pro,分别有10亿和70亿两个参数规模。几小时内,均在AI社区Hugging Face上引发了激烈的讨论。

  DeepSeek公布的技术文档显示,Janus-Pro模型能实现文字和图像的双向识别,相当于AI能看懂图片并用文字描述,同时也能通过文字指令生成图片。

  这并非是Deepseek首次推出多模态大模型,Janus-Pro是此前发布的JanusFlow的迭代版本。通过优化训练策略、扩展训练数据,Janus-Pro在多模态理解和文本到图像的指令跟踪功能方面都取得了重大进步,同时还增强了文本到图像生成的稳定性。

  DeepSeek披露的测试结果,在文生图GenEval和DPG-Bench基准测试中,Janus-Pro-7B的准确率较前代Janus大幅提高,准确率测试结果分别为80%和84.2%,也高于OpenAI DALL-E 3、Stable Diffusion在内的其他对比模型。

多模态模型Janus-Pro的测试结果

多模态模型Janus-Pro的测试结果


  多模态模型Janus-Pro的测试结果。

  几乎同一时间,通义千问也宣布开源视觉模型Qwen2.5-VL的多尺寸版本,其中旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军。新的Qwen2.5-VL能够更准确地解析图像内容,支持超1小时的视频理解。

  “DeepSeek冲击”

  或许DeepSeek自己都未曾想到,一个月内连发三款大模型,能给大洋彼岸的华尔街一记重创,被媒体称为“DeepSeek冲击”。

  “DeepSeek-V3总训练成本仅为557.6万美元,而GPT-4o的成本高达1亿美元,但是两者却效果相当。”钟俊浩认为,DeepSeek的四两拨千斤,也让业界对算力需求有了重新的预估。

  最先受到冲击的便是英伟达。美股时间1月27日收盘,英伟达公司股价下跌16.97%,市值一日内蒸发近6000亿美元,创下华尔街股票市值单日最大跌幅的纪录。其他半导体企业也受到波及,博通下跌17%,AMD下跌6%,微软下跌2%,纳斯达克综合指数跌去了3.1%,相当于损失超过1万亿美元。“DeepSeek冲击”并未止步于美股市场,日本股市也延续颓势,爱德万测试、东京电子、瑞萨电子等均迎来大跌。

突然爆火让DeepSeek遭遇网络攻击

突然爆火让DeepSeek遭遇网络攻击


  突然爆火让DeepSeek遭遇网络攻击。

  甚至连电力市场也受到冲击。美国联合能源公司股价下跌21%,电力“黑马”Vistra暴跌下跌29%,与OpenAI密切相关的核裂变反应堆公司Oklo,股价也止涨转跌,一日跌去25%。

  真正的“OpenAI”

  “这是开源模型的胜利。”图灵奖得主杨立昆将DeepSeek的成功,归因为“开放研究和开放源代码的力量”。

  DeepSeek从创始之初坚持开源,V3、R1以及Janus-Pro等最新大模型均通过技术文档面向所有人公开。目前,已经有不少人通过公开技术路线,成功复现了DeepSeek的测试结果。

  钟俊浩告诉记者,DeepSeek采用MIT许可协议,完全开源,不限制商用,且无需申请,并且明确允许用户可以随时随地访问这一资源,让每个人都能平等获取知识与信息。比如,DeepSeek-V3不仅开源了模型权重,还支持本地部署。开发者可以根据自己的需求对模型进行定制和优化,甚至可以将其部署到自己的服务器上,完全掌控数据隐私。

  相比之下,冠以“open(开放)”为名的OpenAI反而走向了闭源道路,在GPT-3发布之后限制了对模型的访问权限,仅通过API提供服务,GPT-4同样隐藏了训练数据和模型权重,彻底闭源了。即便是GPT-2的开源也并非基于MIT许可协议,有相当多的限制。难怪不少人认同“DeepSeek才是真正的‘OpenAI’”。

  无论是大模型能力的赶超,还是对美股市场的冲击,以及坚守开源的胜利,DeepSeek的成功,侧面也反映出中美在AI全球竞争地位也在悄然发生改变。

  正如DeepSeek创始人梁文锋此前采访时说,过去很多年,中国公司习惯了别人做技术创新,然后拿过来做应用变现,现在随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。

  DeepSeek的口号,或许便是最好的阐释——探索未至之境。

  来源: 解放日报


回复

使用道具 举报

 楼主| 发表于 2025-1-29 14:15:36 | 显示全部楼层

DeepSeek遭美国IP网攻暴力破解

  来源:玉渊谭天

  1月29日,深度求索(DeepSeek)官网显示,其线上服务受到大规模恶意攻击,据专家介绍,DeepSeek这次受到的网络攻击,IP地址都在美国。
回复

使用道具 举报

 楼主| 发表于 2025-1-29 14:19:54 | 显示全部楼层

DeepSeek除夕搞炸裂,开源多模态AI模型发布,仅128颗英伟达A100训练1周,性能碾压美国企业

钛媒体

  刚刚,DeepSeek除夕放大招,这绝对是 AI 行业最难眠的一夜了。

  1月28日凌晨,人工智能社区Hugging Face显示,DeepSeek刚刚发布了开源多模态人工智能模型Janus-Pro,拥有10亿和70亿参数规模。其中Janus-Pro-7B在GenEval和DPG-Bench基准测试中击败了OpenAI的DALL-E 3和Stable Diffusion。

  简单来说,这个模型既能让AI读图(基于SigLIP-L),又能让AI生图(借鉴LlamaGen),分1.5B和7B两个大小。要知道,GPT-4o的图片生成多模态模型至今没开放。

  它到底有多么厉害?给你看看DeepSeek给的案例。

看看DeepSeek给的案例

看看DeepSeek给的案例

看看DeepSeek给的案例

看看DeepSeek给的案例


  它能解答图片在杭州西湖,也能根据提示词生成惟妙惟肖的图片。

  事实上,DeepSeek一直在研发多模态生成式AI模型。

  2024年前后,该公司推出Janus,这是一种统一理解和生成的开源多模态模型(MLLM),它将视觉编码解耦,以实现多模态理解和生成。

  Janus 基于 DeepSeek-LLM-1.3b-base 构建,该库在大约 500B 个文本标记的语料库上进行训练。对于多模态理解,它使用 SigLIP -L作为视觉编码器,支持 384 x 384 图像输入。对于图像生成,Janus 使用此处的标记器,下采样率为 16。

  2024年11月13日,JanusFlow 发布,一种用于图像生成的具有校正流的新型统一模型。

  简单来说,JanusFlow是一个功能强大的框架,它将图像理解和生成统一到一个模型中。JanusFlow 引入了一种极简架构,将自回归语言模型与最先进的生成模型方法整流流相结合。我们的主要发现表明,整流流可以直接在大型语言模型框架内进行训练,无需进行复杂的架构修改。

  2025年开年,Janus全面升级到高级版Janus-Pro。

  具体来说,Janus-Pro 是一种新颖的自回归框架,它将多模态理解和生成统一起来,将视觉编码解耦,以实现多模态理解和生成。它通过将视觉编码解耦为单独的路径来解决以前方法的局限性,同时仍然使用单一、统一的转换器架构进行处理。

  这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。

  不过,Janus-Pro架构与Janus相同。总体体系结构的核心设计原理是将视觉编码解析,以进行多模式的理解和生成。我们应用独立的编码方法将原始输入转换为功能,然后由统一自回归Transformer处理。为了进行多模式理解,我们使用siglip 编码器从图像中提取高维语义特征。将这些特征从2-D网格平坦为1-D序列,并使用理解适配将这些图像特征映射到LLM的输入空间中。对于视觉生成任务,我们使用的VQ令牌将图像转换为离散ID。将ID序列平坦为1-D之后,我们使用一代适配器将与每个ID相对应的代码簿嵌入到LLM的输入空间中。然后,我们将这些特征序列加和形成多模式特征序列,然后将其送入LLM进行处理。除了LLM中的内置预测头外,我们还利用一个随机初始化的预测头来进行视觉生成任务中的图像预测。整个模型遵循自回归框架。

  Janus-Pro 超越了之前的统一模型,并且达到或超过了特定任务模型的性能。Janus-Pro 的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。

  Janus-Pro 是基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建。

  最重要的是训练:我们在单个训练步骤中根据指定的比率混合所有数据类型。我们的 Janus 使用 HAI-LLM [15] 进行训练和评估,这是一个构建在 PyTorch 之上的轻量级且高效的分布式训练框架。整个训练过程在 1.5B/7B 模型的 16/32 个节点的集群上花费了大约 7/14 天,每个节点配备 8 个 Nvidia A100 (40GB) GPU。

对外展示的多个基准测试显示,Janus-Pro 卓越的多模态理解能力,并显着提高了文本到图像的指令跟踪性能 ...

对外展示的多个基准测试显示,Janus-Pro 卓越的多模态理解能力,并显着提高了文本到图像的指令跟踪性能 ...


  对外展示的多个基准测试显示,Janus-Pro 卓越的多模态理解能力,并显着提高了文本到图像的指令跟踪性能。具体来说,Janus-Pro-7B在多模态理解基准MMBench 上取得了79.2的分数,超越了Janus (69.4)、TokenFlow (68.9)等最先进的统一多模态模型,和MetaMorph (75.2)。此外,在文本到图像指令跟踪排行榜 GenEval中,Janus-Pro-7B 得分为 0.80,优于 Janus (0.61)、DALL-E 3 (0.67) 和 Stable Diffusion 3 Medium(0.74)。

  Janus-Pro-7B 在 GenEval 上获得了 80% 的总体准确率,这优于所有其他统一或仅生成的方法,例如 Transfusion (63%) SD3-Medium (74%) 和DELLE-E 3 (67%)。这表明我们的方法具有更好的指令跟踪能力。另外,Janus-Pro 在 DPG-Bench 上获得了 84.19 的分数,超过了所有其他方法。这表明 Janus-Pro 擅长遵循密集的指令来生成文本到图像。

Janus-Pro-7B 在 GenEval 上获得了 80% 的总体准确率

Janus-Pro-7B 在 GenEval 上获得了 80% 的总体准确率

Janus-Pro-7B 在 GenEval 上获得了 80% 的总体准确率

Janus-Pro-7B 在 GenEval 上获得了 80% 的总体准确率


  目前,相关代码已经放在了GitHub当中。

  https://github.com/deepseek-ai/Janus?tab=readme-ov-file

  我们非常期待接下来DeepSeek能够带来优异的多模态(如文生图、文生视频)等功能和表现,这可能会让OpenAI、Meta,甚至是英伟达会更加恐慌。

  最后的最后,还是要提醒,DeepSeek已经限制新用户注册了,也就是锁区了,海外的朋友需要买虚拟号注册:近期DeepSeek线上服务受到大规模恶意攻击,为持续提供服务,暂时限制了+86手机号以外的注册方式,已注册用户可以正常登录,感谢理解和支持。


回复

使用道具 举报

 楼主| 发表于 2025-1-29 14:20:33 | 显示全部楼层

谷歌前CEO评Deepseek:它标志着全球AI竞赛的“转折点”

  财联社1月29日讯(编辑 周子意)前谷歌首席执行官埃里克·施密特(Eric Schmidt)周二(1月28日)在一篇专栏文章中呼吁美国加大开源人工智能的努力,以应对中国人工智能大模型DeepSeek的崛起。

  施密特还一改去年“美国领先”的说辞,在专栏文章中表示,DeepSeek的崛起标志着全球人工智能竞赛的“转折点”,证明中国可以用更少的资源与大型科技公司竞争。

  施密特指出,为了与DeepSeek相抗衡,美国必须开发更多的开源模型,投资于像“星际之门(Stargate)”这样的人工智能基础设施,并鼓励领先的实验室分享他们的训练方法。

  “星际之门”是OpenAI、软银和甲骨文联手打造的一个人工智能项目,初始投资为1000亿美元,并计划在未来四年内扩展至5000亿美元。

  施密特此前也曾多次敦促美国投资人工智能,因为他个人的投资也可能会从中受益。施密特的White Stork初创公司或许可以为美国军方提供人工智能无人机。他还是体系化人工智能Holistic AI(帮助公司遵守人工智能法规)以及人工智能编程辅助工具Augment(GitHub Copilot的竞争对手)的投资者。

  全球人工智能行业近日正迎来一股“东方力量”,即杭州深度求索上周发布的DeepSeek R1模型。据该公司声称,相较于美国大型科技公司为聊天机器人(18.160, -1.47, -7.49%)投入的数十亿美元,该公司仅以一小部分成本就构建了能与OpenAI最强推理模型o1相匹敌的大模型DeepSeek。

  据悉,DeepSeek AI助手背后训练旗舰v3模型的成本仅为560万美元。

  DeepSeek R1的推出也在科技行业引发了冲击波,导致包括微软、Meta和英伟达在内的主要科技公司的股价在本周经历了大幅下跌。

  美银证券分析师Justin Post在本周一(127日)的一份报告中写道,“如果模型培训成本被证明可以显著降低,我们预计使用云人工智能服务的广告、旅游和其他消费应用公司将在短期内获得成本效益,而与超大规模人工智能相关的长期收入和成本可能会降低。”

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 点击注册

本版积分规则

QQ|Archiver|SiXiang.com 思乡思想

GMT+8, 2025-2-7 20:30

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表