证券代码:688787 证券简称:海天瑞声
北京海天瑞声科技股份有限公司
投资者关系活动记录表
编号:2021-003
投资者关系活动类别 √特定对象调研 □分析师会议
□媒体采访 □业绩说明会
□新闻发布会 □路演活动
□现场参观 √电话会议
□其他 (请文字说明其他活动内容)
参与单位名称及人员姓名 中泰证券 何柄谕、刘一哲
长城国瑞 黄文忠、丁子惠
国泰君安 齐佳宏
中银基金管理有限公司,王嘉琦
北京康曼德资本管理有限公司,扈波
国华人寿保险股份有限公司,安子超
彬元資本有限公司,Allen Xu
上海乾惕投资管理有限公司,王洲
中泰证券(上海)资产管理有限公司,罗晟
北京市星石投资管理有限公司,陈启腾
深圳望正资产管理有限公司,旷斌
会议时间 2021 年 11 月 3 日、17 日、18 日
会议地点 海纳百川会议室、电话会议
上市公司接待人员姓名 董事会秘书: 吕思遥
证券事务代表: 张哲
投资者关系活动主要内容 公司简介:
介绍 北京海天瑞声科技股份有限公司是一家从事训练
数据的研发设计、生产及销售业务的人工智能训练数据专业提供商。公司位于人工智能产业链的上游,为下游的客户提供训练数据产品和训练数据定制服务。公司通过设计数据集结构、组织原料数据采集、对取得的原料数据进行加工,最终形成可供 AI 算法模型训练使用的专业数据集,通过软件形式向客户交付。公司提供的主要产品和服务包括训练数据定制服务、训练数据产品和训练数据相关的应用服务。
训练数据产品是公司先于客户需求进行研发的,知识产权归属于公司,公司可以通过授权的形式卖给不同的目标客户,而产品的开发成本只有一次,因此可以给公司的毛利率创造较大贡献;训练数据定制服务则是根据客户需求进行数据采集、标注形成定制数据集,或由客户提供原料数据(例如客户的实网数据),公司仅提供纯加工服务,训练数据定制服务涉及的原料数据和加工后的训练数据在交付客户并完成验收后,知识产权完全转移给客户,公司不能自用或授权其他客户使用。
自 2005 年成立以来,海天瑞声始终致力于为 AI
产业链上的各类机构提供算法模型开发训练所需的专业数据集。海天瑞声所提供的训练数据覆盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个核心领域,全面服务于人机交互、智能驾驶、智慧城市等多种创新应用场景。其中智能语音为海天瑞声的优势领域,产品线已包含 160 余个主要语种及方言,并凭借稳定的质量、优质的服务赢得了阿里巴巴、腾讯、百度、微软、三星、亚马逊、科大讯飞、商汤科技、中国科学院、清华大学等众多大型优质客户的认可,核心技术、产品资源、优质客户等竞争优势逐
步凸显。
公司的业务是依赖于 AI 行业发展大趋势的,具体来说是要看算法、算力的发展以及AI技术应用的程度;在 2020 年之前,随着深度神经网络和云计算的发展,AI 技术开始投入大规模应用,训练数据方面的需求也开始实现规模化。从 2020 年开始,训练数据对于行业的重要性被提升到了一个新的高度,国家十四五规划当中首次为 AI 训练数据设置专门篇章、明确了未来五年该领域的发展方向,业界内以吴恩达为代表的主流科学家也明确提出新的“二八定律”,即“80%的数据+20%的模型=更好的 AI”。
从过去五年的发展看,海天瑞声较好的抓住了训练数据自 2016 年至今行业第一个五年的发展机遇,在人工智能技术开始应用的情况下,使训练数据发挥了其商业价值,为公司过去五年获得了收入约 30%、净利润约 70%的良好增长。未来一个时期,随着 AI 应用端的高速发展,智能语音、计算机视觉和自然语言技术已经越来越多地应用到更多的场景中,在以智能驾驶等为代表的领域拓展方面,公司将适度超前布局。同时,随着国家“一带一路”战略的进一步深入推进和我国企业出海布局增多,将带动多语言训练数据需求迎来新一轮增长,公司也将在现有语种积累基础上进一步拓展、升级多语言资源体系。
从中长期来看,垂直行业数据、政府数据治理等领域也将是亟待挖掘、拓展的方向,公司也已经开始了这些方面的探索,并计划将该类研究持续深化,逐步扩展到更多的行业领域,提升公司的数据处理能力,赋能人工智能技术与更多行业实体经济的深度融合。
问题回答:
1、 公司对市场空间、行业未来如何看待?
公司认为,训练数据行业是一个新兴行业,市场空间广阔,客户对于训练数据的需求是长期持续的。客户的 AI 产品在上线之前及初期,因为其自身尚未产生实网数据,通常需要采购模拟型数据集进行算法模型的训练,在产品上线并运行一段时间、产生大量实网数据之后,则会提供实网数据给到我们进行数据加工,加工的数据反哺到客户的产品上从而促进其产品的迭代、升级。之后,客户需要进行产品功能或语种的拓展,再次需要购买模拟数据集来支撑,后续再采购数据加工服务进行迭代,周而复始。
根据市场上的相关报告预估,2025 年国内训练数据市场规模能够达到 100 亿左右,复合增长率 20%左右,而公司的三分之一左右的业务来源于海外,因此全球市场空间也是公司关注的,根据整体 AI 产业的数字比例,全球是中国市场的 5-8 倍左右,因此,2025年全球训练数据市场规模可能在 400-500 亿以上,而这当中仅仅是基础类的训练数据市场需求规模,还未把各个垂直行业(例如交通、金融、城管等等)纳入进来,而公司相信这部分的空间是巨大的。
2、 公司给科大讯飞提供什么样的产品/服
务?
科大讯飞是公司多年来的优质客户,公司给科大讯飞提供的产品及服务主要集中在智能语音领域,包括语音识别数据集产品或语音识别数据定制服务。
3、 请介绍一下 2005-2016 年之间,公司的发
展路径、速度;2016 年之后的股权融资情
况
在 2016 年之前,公司规模相对较小,2016 年开始
随着AI产业的快速发展,公司自身发展也步入快车道。
2016 年、2017 年公司进行了对外融资,引入了上海兴富、天津金星、银杏谷资本等股东。2019 年底,公司引入战略投资者中国移动和中国互联网投资基金(隶属于中央网信办)等,希望藉此形成战略协同效应,并能够紧跟国家政策、服务于国家网信战略的推进实施。
4、 公司在多年发展过程中,是否遇到过一些
困难?
公司的业务是依赖于 AI 行业发展的大趋势的,具体来说是要看算法、算力的发展以及 AI 技术应用的程度;因此在 2020 年之前,随着深度神经网络和云计算平台的发展,AI 技术开始投入应用,训练数据方面的需求开始规模化,公司面临的问题是如何提升自身产能去满足市场上的数据需求,近年来,我们也在这方面做了充分的工作:1、重视技术研发投入,提升自身技术能力,不断深化算法辅助能力,开发更为先进的工具和平台,全面助力公司规模化能力的提升;2、不断扩大技术人员团队,完善包括产品设计、客户需求对接、项目管理、交付验收等板块在内的技术人员体系建设;3、提升资源积累,公司已沉淀下近千个自有知识产权的数据集产品,拥有多场景、多语言覆盖能力,并在全球范围内建立了丰富的多语种语言学家团队资源及稳定合作的供应商、客户等上下游资源体系。
自新冠疫情爆发以来,各地区人员聚集受到不同程度的限制,对公司业务开展尤其是涉及在境外进行原料数据采集的项目产生直接影响;同时,一些欧美国家的客户至今都还是以居家办公为主,且境外的线下行业/学术展会都停办了,这些都对公司与客户的日
常有效交流产生直接影响;上述因素叠加,就会对客户的需求释放、项目进展、以及收入确认产生直接影响。针对上述影响,公司已经开始实施了一些应对措施:(1)加强平台工具的远程化功能开发和部署,降低疫情对公司生产流程的影响;(2)扩大在美国的销售团队,改善本地化的客户商务沟通;(3)更大程度把握国内的机会,保持公司基本面稳定。
5、 客户对训练数据是否有持续需求?
客户对训练数据本身的需求是会长期持续的。客户的 AI 产品在上线之前及初期,因为其自身尚未产生实网数据,通常需要采购模拟型数据集进行算法模型的训练,在产品上线并运行一段时间、产生大量实网数据之后,则会提供实网数据给到我们进行数据加工,加工的数据反哺到客户的产品上从而促进其产品的迭代、升级。之后,客户需要进行产品功能的拓展,再次需要购买模拟数据集来支撑,后续再采购数据加工服务进行迭代,如此周而复始。因此,客户对训练数据的需求是持续的,且随着应用 AI 技术的场景越来越多,各种场景的数据集需求会兴起,带来的是训练数据的需求会越来越大。
6、 公司的业务是否存在规模效应?
公司业务是存在规模效应的,一方面随着公司在研发方面加大投入,自研平台的能力逐步提升,可以赋能数据处理过程中的人机协作朝着更加智能化的方向前进,这就使得公司进行更大规模的数据生产成为可能。同时,数据产品的积累、平台以及工具的研发,在公司业务规模逐渐上升的情况下,相关的研发费用、管理费用将被摊薄;
从成本端看,数据生产的成本还有很大的下沉空
间,对于成本控制我们会在两方面进行持续投入:一方面是继续加大技术投入,采用更为合理的人机协同比例完成数据处理任务,降低人员投入,提高处理效率;另一方面是加强供应链资源管理能力,扩大资源供给,降低单位成本。
此外,数据集产品一直是我们公司所坚持的重点方向,公司开发大量通用型、复卖率高的标准化产品数据集,反复给公司带来利润,也能实现训练数据产品的规模化效应。
7、 训练数据产品、定制服务对公司有怎样的
意义?
拥有行业排名第一的自有知识产权训练数据产品集群是公司区别于众多竞争对手的显著优势,公司已沉淀下近千个自有知识产权的数据集产品,通过开发大量通用型、复卖率高的标准化产品数据集为公司的规模化和高利润率提供了保障。
训练数据定制服务是公司收入的重要来源,而且在提供训练数据定制服务过程中,公司会接触到各种类型的数据,帮助公司了解行业最新的技术路线和需求,同时,该等数据会在公司的采集加工平台上进行处理,对公司的算法提升和平台的工程化能力都提供了很好的学习资源,是研发迭代的较强助力。
8、 产品数据集的生命周期多长?
就目前训练数据产品的销售情况看,平均生命周期大概在 5 年左右,有部分产品生命周期可达 8-10 年之久,比如公