证券代码:688787 证券简称:海天瑞声
北京海天瑞声科技股份有限公司
投资者关系活动记录表
投资者关系活动类别 √特定对象调研 □分析师会议
□媒体采访 □业绩说明会
□新闻发布会 □路演活动
□现场参观 √电话会议
□其他 (请文字说明其他活动内容)
参与单位名称及人员 华商基金:金曦、黄润、戴福宏、彭欣杨
姓名 西南证券:叶泽佑、王兴
华夏基金:孙逸非
富国基金:陈天元、曹晋
建信基金:黄子凌、张湘龙、左远明
天弘基金:杜昊
鹏华基金:戴钢、胡颖、董威、冯升
会议时间 2021 年 11 月 22 日
2021 年 11 月 24 日
2021 年 11 月 25 日
会议地点 腾讯会议、海纳百川会议室
上市公司接待人员姓 董事会秘书: 吕思遥
名 证券事务代表: 张哲
公司简介:
北京海天瑞声科技股份有限公司是一家从事训练数据
投资者关系活动主要 的研发设计、生产及销售业务的人工智能训练数据专业提
内容介绍 供商。公司位于人工智能产业链的上游,为下游的客户提
供训练数据产品和训练数据定制服务。公司通过设计数据
集结构、组织原料数据采集、对取得的原料数据进行加工,
最终形成可供 AI 算法模型训练使用的专业数据集,通过软件形式向客户交付。数据集的生产主要涉及设计、数据采集、数据加工、质检四大环节。公司提供的主要产品和服务包括训练数据定制服务、训练数据产品和训练数据相关的应用服务。
训练数据产品是公司先于客户需求进行研发的标准化数据集,知识产权归属于公司,公司可以通过授权的形式卖给不同的目标客户,而产品的开发成本只有一次,因此可以给公司的毛利率创造较大贡献;训练数据定制服务则是根据客户需求进行数据采集、标注形成定制数据集,或由客户提供原料数据(例如客户的实网数据),公司仅提供纯加工服务,训练数据定制服务涉及的原料数据和加工后的训练数据在交付客户并完成验收后,知识产权完全转移给客户,公司不能自用或授权其他客户使用。
自 2005 年成立以来,海天瑞声始终致力于为 AI 产业
链上的各类机构提供算法模型开发训练所需的专业数据集。海天瑞声所提供的训练数据覆盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个核心领域,全面服务于人机交互、智能驾驶、智慧城市等多种创新应用场景。其中智能语音为海天瑞声的优势领域,产品线已包含 160 余个主要语种及方言,并凭借稳定的质量、优质的服务赢得了阿里巴巴、腾讯、百度、微软、三星、亚马逊、科大讯飞、商汤科技、中国科学院、清华大学等众多大型优质客户的认可,核心技术、产品资源、优质客户等竞争优势逐步凸显。
从过去五年的发展看,海天瑞声较好的抓住了训练数据自 2016 年至今行业第一个五年的发展机遇,在人工智能技术开始应用的情况下,使训练数据发挥了其商业价值,为公司过去五年获得了收入约 30%、净利润约 70%的良好
增长。未来一个时期,随着 AI 应用端的高速发展,智能语音、计算机视觉和自然语言技术已经越来越多地应用到更多的场景中,在以智能驾驶等为代表的领域拓展方面,公司将适度超前布局。同时,随着国家“一带一路”战略的进一步深入推进和我国企业出海布局增多,将带动多语言训练数据需求迎来新一轮增长,公司也将在现有语种积累基础上进一步拓展、升级多语言资源体系。
从中长期来看,包括智能驾驶在内的垂直行业数据、以及政府数据治理等领域也将是亟待挖掘、拓展的方向,公司也已经开始了这些方面的探索,并计划将该类研究持续深化,逐步扩展到更多的行业领域,提升公司的数据处理能力,赋能人工智能技术与更多行业实体经济的深度融合。
问题回答:
1、 请介绍一下公司三季度业绩情况
由于今年境外新冠肺炎疫情的反复导致部分原料数据采集环节需在境外进行的项目工期延迟,进而导致数据交付或验收递延,另外,因部分客户的研发节奏安排,导致当期针对特定领域的训练数据定制服务采购量有所下降。
根据公司技术驱动及产品驱动的定位,公司进一步加大研发投入。其中,在基础研发方面,算法及平台等研发人员数量显著增加,主要投入在智能驾驶及 OCR 智能标注技术及平台研发、语音智能标注技术研发、多语种语料设计平台升级等领域,算法的投入是为了提升效率、降低成本,尤其是提升采集、标注环节的自动化程度、降低对人的依赖,此外为了在多语种项目上实现上述效果,这就需要在不同的语言环境下来进行投入、实现平台的广泛适配性;在产品研发方面,公司新增研发超过 260 个训练数据集产品,尤其在多语种语音数据集及计算机视觉数据集(如
道路数据集、手语数据集等)上,积累了更丰富的数据集资源,以便于保持优势竞争地位。
2、 关于模拟数据,在不同业务方向分别有什么样
的具体内容?
客户的 AI 产品在上线之前及初期,因为其自身尚未产生实网数据,通常需要采购模拟型数据集进行算法模型的训练,在产品上线并运行一段时间、产生大量实网数据之后,则会提供实网数据给到我们进行数据加工,加工的数据反哺到客户的产品上从而促进其产品的迭代、升级。
在语音领域,模拟数据指的是我们根据不同的适用场景,提前设计好采集文本、采集环境、被采集对象特征、数据特征等结构性参数,然后按照计划去实施数据采集,进而将采集到的数据进行标注,最终质检、交付,这其中的一个重要技术难点在于如何通过科学、合理的前置设计实现以尽量少的数据采集覆盖尽量多的语言现象,海天瑞声在这方面的深厚积累使得自身在该领域得以保持长期领先。
在视觉领域,以自动驾驶为例,模拟数据则指的是公司根据适用场景提前设计好道路覆盖类型(高速、国道、市区道路等)、时段/环境类型(清晨、白天、傍晚、夜间等)、天气类型(晴天、雨天、雪天、雾天等)、车辆类型(家用轿车、SUV 等)等要素参数,然后按照计划去实施数据采集、标注、以及后期的质检、交付。
3、 研发投入今年增幅较大,未来会维持在什么水
平?研发团队的构成是什么样?
截止到今年三季度末,公司研发人员接近 70 人,同比增幅 40%左右,研发投入合计 3,904.41 万元,较去年同期增长 36.41%。未来一段时间,公司会继续在算法、平台等方面显著增加投入:(1)算法研究与工程化实施方面会进
一步加大投入,提高数据处理效率,降低数据开发成本;(2)持续加大公司在自动驾驶领域的算法、平台、工具的投入,为业务的爆发做好准备;(3),为了实现更加智能的资源自动配置功能,也会在供应链资源管理平台加大研发投入,利用调度算法对供应链资源的管理能力,加大资源的使用效率;此外,在数据集产品尤其是多语种数据集的研发投入会持续。
公司的研发人员隶属于研发中心,该部门主要负责:(1)公司的基础算法研究;(2)公司各种平台/工具的开发;(3)语言研究,目前公司开展业务所需的自营全流程平台/工具均是公司自行研发。
4、 公司在自动驾驶领域有哪些客户?具体的订单
情况是什么样的?公司未来如何布局?
从几年前公司已经开始为一些客户的座舱数据需求提供服务或产品,这部分数据主要是车载语音数据集,近年来公司开始与传统车企、造车新势力、以及一些头部自动驾驶技术公司开始合作,客户目前大概有 10-20 家。换言之,只要是有智能驾驶算法研究部门的公司客观上都存在训练数据需求。如车内座舱类数据,客户需要通过使用训练数据来训练其语音识别、语音合成算法模型,进而支撑其车载语音交互产品或应用;车外数据,则会被用于道路识别、行车决策、泊车决策等等。订单规模与客户自身的需求相关,从十几万到几百万不等。
从今年开始,随着汽车智能化理念的普及和自动驾驶技术将逐步落地,与智能驾驶相关的数据需求开始呈现规模化的趋势,该类需求首先展现在了训练数据采标方面,例如针对车载雷达传感器传回的 3D 点云数据,经过处理,形成结构化训练数据集用于雷达传感器算法或自动驾驶系统算法的训练。目前,公司为更好的承接智能驾驶业务,
开发并上线了 2D 标注平台、3D 标注平台及 2D-3D 联合标
注解决方案,同时将招募更多的专业人士专门从事该类业务的开展。
智能驾驶业务对于公司来讲是一块新的业务,从业务的宽度看,需要覆盖从数据采集、处理到训练、仿真、测试、验证的完整闭环,从客群特点看,除自动驾驶技术公司外,整车厂等传统应用技术的公司会成为公司的直接客户。因此,智能驾驶业务从客群到技术方案到交付都有自身的行业特征和逻辑,公司今年与部分行业头部企业建立了合作关系,也正在进行智能驾驶行业的系统化梳理,希望通过自身在数据处理平台、数据质量、需求对接、项目响应能力、供应链资源管理能力的积累,深入与现有客户的合作,并扩展更多的客户。同时也会积累智能驾驶领域的标准数据集产品,迎合更多客户多样化需求。
5、 境外疫情给公司带来哪些影响?2022 年境外
收入是否会有恢复?
自新冠疫情爆发以来,各地区人员聚集受到不同程度的限制,对公司业务开展尤其是涉及在境外进行原料数据采集的项目产生直接影响;同时,一些欧美国家的客户至今都还是以居家办公为主,且境外的线下行业/学术展会都停办了,这些都对公司与客户的日常有效交流产生直接影响;上述因素叠加,就会对客户的需求释放、项目进展、以及收入确认产生直接影响。
目前看,随着疫情逐步好转和疫苗接种的普及,国外客户的生产办公逐渐恢复,通过不断与客户对接,我们了解到一些国外客户已经开始部署下一步的研发计划,下一步我们将陆续与国外客户开始对接 2022 年的数据采购需求,随着国外客户进一步恢复到正常模式,相信公司境外收入会逐渐恢复到上升通道。
6、 海天的数据在客户那边具体的应用逻辑是什么
样的?
客户的 AI 产品在上线之前及初期,因为其自身尚未产生实网数据,通常需要采购模拟型数据集进行算法模型的训练,在产品上线并运行一段时间、产生大量实网数据之后,则会提供实网数据给到我们进行数据加工,加工的数据反哺到客户的产品上从而促进其产品的迭代、升级。之后,客户需要进行产品功能的拓展,再次需要购买模拟数据集来支撑,后续再采购数据加工服务进行迭代,如此周而复始。
以智能家居场景为例,客户可以提出家居场景下的智能音箱所需的定制化训练数据需求,我们则可以根据具体要求(例如近场/远场、户型、性别、年龄分布、语言等等)来设计文本、数据集结构和部署采集场景,然后由供应商按照上述要求来组织人员,在公司的管理下进行录音的工作,接下来按照标注要求对这些录音数据进行标