| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

新闻资讯

论坛

温哥华地产

大温餐馆点评

温哥华汽车

温哥华教育

黄页/二手

旅游

加州: 凌晨三点的暗战:硅谷焦虑与中国狂欢的 24 小时

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
墙内自媒体碳基智能-Mind Mirror文章:8 月 21 日凌晨 ,硅谷某 AI 独角兽的机房里,工程师马克盯着屏幕上 “NVIDIA H100 供货延迟至 11 月” 的通知,狠狠揉了揉通红的眼睛 —— 他们的大模型训练已停滞 3 天,每天损失超 200 万美元。同一时刻,上海张江科学城 DeepSeek 研发中心的灯光亮如白昼,首席架构师张启明博士攥着刚打印出的测试报告,指节因用力而发白:“UE8M0 FP8 技术成了!在摩尔线程 MTTS80 芯片上,训练效率比 H100 高 32%,成本还不到一半!”


当天上午 9 点 30 分,A 股开盘即现 “国产算力狂欢”:寒武纪直线封板(涨幅 20%),海光信息涨 15.6%,#中芯国际 成交量较昨日翻倍,科创板 AI 芯片板块单日市值激增 472 亿元。财联社从接近工信部的人士处获悉,这份 “#DeepSeek-V3.1 + 国产芯片” 的适配方案,已被纳入 “新一代#人工智能 产业创新重点任务清单”。这场突然爆发的技术突围,究竟藏着多少不为人知的攻坚故事?又将如何改写全球算力格局?

一、48 小时的精度生死战:当国产芯片遇上 “卡脖子” 的 FP8 难题


“第 7 次迭代失败时,整个团队都沉默了。” 回忆起今年 3 月的攻坚瓶颈,DeepSeek 算法工程师林晓雯的声音仍带着一丝颤抖。当时团队要解决的核心难题是:国产芯片的浮点运算精度始终跟不上国际水平 —— 用 FP16 精度训练,显存占用太高;用 FP8 精度,模型准确率又会暴跌 15%,根本无法商用。

那天晚上,张江研发中心的会议室成了 “战场”:白板上写满了浮点编码公式,桌上堆着没开封的外卖,张启明博士把铺盖卷搬到了办公室。“我们发现问题不在芯片本身,而在参数缩放逻辑。” 林晓雯指着电脑里的代码解释,“英伟达的 FP8 是固定范围,而国产芯片的运算单元更适合动态调整 —— 就像给不同身高的人定制衣服,而不是用统一尺码硬套。”

团队连夜改写了 1200 多行核心代码,提出 “UE8M0 FP8 Scale 动态适配方案”:通过实时监测芯片运算负载,自动调整浮点数的指数范围,在肺部 CT 影像分割测试中,准确率从 82% 飙升至 98.2%,仅比 H100 的 98.5% 低 0.3%。更惊人的是,当他们把方案部署到芯原股份 VIP9000 NPU 上时,推理速度达到了 1.8ms / 帧,比上一代国产方案快 2.7 倍,“相当于过去处理 1 小时的医疗数据,现在 13 分钟就能完成”。




上海张江科学城


这份成果很快得到权威认可:工信部电子标准研究院 8 月 20 日发布的《#国产 AI 芯片适配白皮书》中,明确将 UE8M0 FP8 技术列为 “推荐适配方案”;中信建投证券在紧急研报中直言:“这是国产算力从‘能用’到‘好用’的关键一跃,预计将带动国产 AI 芯片商用率提升 40%。”

二、梅雨季的机房奇迹:600 块国产芯片干翻 1000 块 H100?

“杭州的梅雨季太折磨人了,机房湿度高达 78%,我手里的测温仪都凝了水珠。”DeepSeek 硬件适配工程师李哲的工位在杭州某测试基地,7 月的那次关键测试,让他至今记忆犹新。当时团队要验证一个疯狂的想法:用搭载寒武纪思元 590 的国产服务器,能不能完成原本需要 1000 块 H100 才能搞定的千亿参数训练?


不错的新闻,我要点赞     这条新闻还没有人评论喔,等着您的高见呢
上一页123下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0374 秒 and 3 DB Queries in 0.0011 秒