证券简称:寒武纪 证券代码:688256
中科寒武纪科技股份有限公司
投资者关系活动记录表
编号:2021-009
□特定对象调研 √分析师会议
投资者关系活动 □媒体采访 □业绩说明会
类别 □新闻发布会 □路演活动
□现场参观 √电话会议
√其他 券商策略会
(排名不分先后,按字母顺序排列)Aspex Management、博时
基金、创金合信基金、大成基金、东方阿尔法、东方证券、方
圆基金、富国基金、FuhHwa、富唐资管、FountainCapital、GF
Asset Management HK、工银瑞信基金、固禾资产、广东宝新
资管、广发证券、观富资管、国金证券、航长投资、HaoFund、
Hel Ved Capital、恒健远志、恒生前海基金、河清资本、HSZ
Group、华安基金、华商基金、华西证券、汇丰晋信基金、混
沌道然资产、Invesco、加拿大鲍尔、嘉实基金、景泰利丰、聚
联汇投资、开思基金、澜和基金、马可波罗基金、民生证券、
参与单位名称
Pinpoint Asset Management、Point 72 Asset Management、
PrudenceInvestmentManagement、浦发银行、前海互兴、前海
开源、前海联合基金、润晖投资、山石基金、尚诚投资、申港
证券、神农投资、申万宏源、盛曦投资、SherwoodCapital、首
创证券、泰达宏利基金、太平保险资管、太平资产、唐融资产、
Trikon AM、拓璞基金、望正资本、微明恒远、文渊资本、谢
诺辰阳、信诚基金、新同方投资、鑫元基金、幸福时光基金、
兴业证券、易方资本、一鸣投资、英大国际信托、宜信投资、
永赢基金、远策投资、YunqiPath、智诚海威、中金公司、中金
证券、中泰国际、中信保诚基金、中信证金、中信证券、中信
证券资管、珠海万方资产。
时间 2021 年 11 月 4 日、2021 年 11 月 11 日、2021 年 11 月 17 日、
2021 年 11 月 18 日、2021 年 11 月 30 日
形式 □现场 √网络会议 √电话会议
地点 北京、上海
董事长、总经理:陈天石
副总经理、首席技术官:梁军
上市公司接待人
董事、副总经理、财务负责人、董事会秘书:叶淏尹
员姓名
证券事务代表:童剑锋
(注:除叶淏尹女士参加全部场次外,其他人员参与部分场次)
一、请问公司的核心技术优势是如何体现在或者转化为思元
370 系列产品的核心优势或者亮点?
答:(1)芯片算力和实测性能、能效提升:凭借 7nm 制程
工艺和寒武纪最新智能芯片架构 MLUarch03,思元 370 峰值
算力可达 256TOPS(INT8),是寒武纪第二代产品思元 270 算力
的 2 倍。同时,思元 370 芯片支持 LPDDR5 内存,高带宽且
低功耗,可在板卡有限的功耗范围内给 AI 芯片分配更多的能
投资者关系活动 源,输出更高的算力。相较于峰值算力的提升,思元 370 在实
测性能和能效方面也具有一定优势。以 ResNet-50 为例,
主要内容介绍
MLU370-S4 加速卡(半高半长)实测性能为同尺寸主流 GPU
的 2 倍;MLU370-X4 加速卡(全高全长)实测性能与同尺寸
主流 GPU 相当,能效则大幅领先。
(2)产品配置灵活,满足不同应用场景需求:寒武纪首
次采用 chiplet 技术,通过不同芯粒组合规格多样化的产品,
为用户提供适用不同场景的高性价比 AI 芯片。
(3)推动“云边端一体、训推一体、软硬件协同”的统
一智能生态建设:为了加快用户端到端业务落地的速度,减少
模型训练研发到模型部署之间的繁琐流程,寒武纪的统一基础软件平台CambriconNeuware整合了训练和推理的全部底层软件栈,将 MagicMind 和深度学习框架 Tensorflow、Pytorch 深度融合,实现训推一体,有效提升开发部署效率,降低用户成本。
二、公司新发布的思元 370 首次采用了 chiplet 技术,请简要介绍下该技术。这项技术对于提升产品性能或者业务推广有何助益?
答:思元 370 是寒武纪首款采用 chiplet(芯粒)技术的云
端智能芯片,在一颗芯片中封装 2 颗 AI 计算芯粒(MLU-Die),
每一个 MLU-Die 具备独立的 AI 计算单元、内存、IO 以及
MLU-Fabric 控制和接口,通过 MLU-Fabric 保证两个 MLU-Die间的高速通讯。得益于芯粒技术,思元370可以通过不同MLU-Die 组合规格多样化的产品,为客户提供适用不同场景的高性价比 AI 芯片。
三、公司新品发布中提到思元 370 是基于寒武纪最新智能芯片架构 MLUarch03,此前公司半年报中也披露了公司第四代智能处理器微架构 MLUarch03 的研发进展。是否可以理解为公司自研的处理器微架构对于智能芯片的设计和研发有着至关重要的意义和作用?
答:智能芯片研发需要全面掌握核心芯片与系统软件的大量关键技术,技术难度大、涉及方向广,是一个极端复杂的系统工程,其中处理器微架构与指令集两大类技术属于最底层的核心技术。公司自成立以来长期开展智能芯片架构研发工作,迄今已自主研发了四代智能处理器微架构(MLUarch00 、MLUarch01、MLUarch02 和 MLUarch03),是国内外在该技术方向积累最深厚的企业之一。
由 公 司 自 主 研 发 的 第 四 代 智 能 处 理 器 微 架 构
(MLUarch03),拥有新一代张量运算单元,内置 Supercharger模块大幅提升各类卷积效率;采用全新的多算子硬件融合技术,在软件融合的基础上大幅减少算子执行时间。MLUarch03芯片架构在计算单元、多核处理、控制指令、计算指令、访存能效和可编译性等多方面均实现了优化和提升。在寒武纪新一代人工智能芯片架构 MLUarch03 的加持下,思元 370 峰值算力提升,最高可达 256TOPS(INT8),而且思元 370 实测性能和能效方面的表现也较为优秀。
四、公司推出思元 370 的同时,还发布了两款基于思元 370 的
加速卡 MLU370-S4 和 MLU370-X4。请介绍下这两款 AI 加速
卡的产品性能和市场竞争力如何?
答:MLU370-S4 智能加速卡搭载思元 370 芯片,采用 7nm
制程工艺和寒武纪新一代人工智能芯片架构 MLUarch03,板卡功耗为 75w。该款加速卡体积小巧、能效出色,可在服务器中实现高密度部署。具体而言,(1)实测性能方面,MLU370-
S4 加速卡的性能平均接近市场主流 70WGPU 的 2 倍;(2)能
效方面,相较于同尺寸市场主流 GPU,MLU370-S4 处理相同AI 任务的用电量可减少 50%以上,将有力地帮助用户实现“双碳”目标。此外,MLU370-S4 加速卡在解码方面具有较强竞
争力,相较于同尺寸 GPU,可提供 3 倍的解码能力和 1.5 倍的
编码能力。
MLU370-X4智能加速卡同样搭载思元370芯片,采用7nm制程工艺和寒武纪新一代人工智能芯片架构 MLUarch03,为单槽位 150w 全尺寸加速卡。该加速卡的优势表现为高性能,可提供 256TOPS(INT8)推理算力和 24TFLOPS(FP32)训练算力,同时提供 FP16、BF16 等多种训练精度,配合全新Cambricon Neuware 软件栈,可充分满足推训一体 AI 任务需求。
五、公司本次对寒武纪的统一基础软件平台也进行了全面升级,整合了训练和推理的全部底层软件栈,是否意味着公司的软件栈已在通用性方面取得长足的进步和完善?
答:公司为云边端全系列智能芯片与处理器产品提供统一的平台级基础系统软件 Cambricon Neuware,并通过持续研发和升级,以适配新的芯片。本次全新升级的统一基础软件平台Cambricon Neuware 整合了训练和推理的全部底层软件栈,新增推理加速引擎 MagicMind,将 MagicMind 和深度学习框架Tensorflow、Pytorch 深度融合,实现训推一体。在寒武纪全系列计算平台上,从云端到边缘端,用户均可以无缝地完成从模型训练到推理部署的全部流程,进行灵活的训练推理业务混布和潮汐式的业务切换,可快速响应业务变化,提升开发部署的效率,降低用户的学习成本、开发成本和运营成本。
在通用性方面,Cambricon Neuware 支持 FP32、FP16 混
合精度、BF16 和自适应精度训练等多种训练方式并提供灵活高效的训练工具,高性能算子库已完整覆盖视觉、语音、自然语言处理和搜索推荐等典型深度学习应用,可满足用户对于算子覆盖率以及模型精度的需求。
六、公司全新打造的 MagicMind 是否提升了 CambriconNeuware 软件栈的性能和竞争力?
答:MagicMind 是公司全新打造的推理加速引擎。在
MLU、GPU、CPU 训练好的算法模型上,借助 MagicMind,客户仅需投入极少的开发成本,即可将推理业务部署到寒武纪全系列产品上,并获得具有竞争力的性能。
MagicMind 的优势不仅在于可以提供较高的性能、可靠的
精度以及简洁的编程接口,让客户能够专注于业务本身