Logo

自研工具将标注效率提升50%,「星尘数据」还要为无人车场景提供全方位服务

付向平 | 2020-12-11 16:52
在数据标注行业头部企业的竞争中,标注精度和速度是核心竞争点。

星尘数据是一家提供数据标注服务和AI数据中台系统的SaaS公司,为人工智能企业提供数据服务,提供AI数据全流程标注和质量管理。

人工智能的发展过程中,数据、算力、算法缺一不可。目前,深度学习是AI的主流算法,训练数据在深度学习训练中起到重要作用。一些情况下,“大量数据+普通模型”比“小量数据+高级模型”的准确度要高。

深度学习训练中数据量与模型的关系

此前,供AI训练的数据的标注以人工为主,业界普遍探索依靠技术来提升标注的效率。星尘数据形成了一套完整的质量管控系统。系统首先利用自动化培训考核工具选择上岗人员,并根据考试结果分配相应难度的标注内容。此外,在标注过程中,系统会对已标注数据进行交叉审核,被标注数据可在用户自定义的标注池、检查池、抽查池中来回流转,保证最终进入完成池的精确度。除了人工质检,系统还设置算法质检,保障数据服务质量的下限,尽量避免漏题和显而易见的错误。

标注速度方面,星尘数据利用深度学习的模型辅助标注,降低人工劳动重复率。在标注时,平台的智能识别功能可以对物体边界进行高贴合度的分割,标注者只需要对标注数据进行选点即可框出物体。这一功能能将标注效率提升50%-80%。

因为有系统支持,针对客户的个性化需求,星尘数据开发了自动化报价平台。客户可以根据具体的标注场景上报图形、标注范围等精细化需求。平台会根据需求自动生成价格评估单。星尘数据可标注的数据类型包括点云、视频、音频、图像和文本。标注工具涵盖点线面、3d框、2d框、多边形、长方体等,在自动驾驶、安防、消防场景、医疗等领域都有应用。

与此同时,借助这套系统,也有助于保证用户数据安全。数据安全是客户普遍关心的问题。星尘数据为了提升数据安全,设置权限管理系统,通过白名单和访问控制、动态水印使数据不可复制,并设置访问频率限制。在数据传输时,甲方数据库仅需要向星尘数据平台传输URL,而不传输数据本身。数据处理完成后,星尘数据会使用传输层安全性协议(TSL)对数据进行加密传输,减少黑客爬取数据的风险。

星尘数据不止提供数据服务,也根据真实场景提供全栈式解决方案,实现“底线思维”。例如在智能驾驶场景中,公司设计了无人车闭环解决方案系统,为无人车研发提供车辆改装、数据采集、数据标注、仿真测试、真车测试一站式服务。客户只需关心无人车的模型训练。星尘数据是全国首家实现这一解决方案的公司。目前,无人车业务占公司总业务60%-70%左右。

星尘数据的无人车闭环解决方案

据艾瑞咨询数据,2019 年中国AI基础数据服务行业市场规模达30.9亿元。根据需求方投入情况和供应方营收增长情况推算,预计 2025 年市场规模将突破 100 亿元,年化增长率为 21.8%,有较好的市场发展前景。

早期的AI数据标注行业是劳动密集型行业,门槛较低,市面上大大小小的供应商良莠不齐,质量和数据精度无法保证。随着竞争的加剧,这一行业的头部企业正在显现。目前国内有竞争力的数据标注企业除了星尘数据,还有已获得3300万元Pre-B轮融资的「龙猫数据」,公司主打众包模式,即通过大量C端的人力在APP上实现数据标注的分包。以及从数据交易转型至数据标注方向,通过积累的销售优势服务企业客户的「数据堂」。还有提供从数据标注到模型训练迭代一站式服务的「倍赛Basic Finder」等。星尘数据CEO章磊认为,在头部企业的竞争中,标注精度和速度是核心竞争点。星尘数据的多重审核机制和智能标注功能可以维持公司这两大竞争力;与以上竞品相比,星尘数据的标注效率最高,标注速度可达400-600 3D Box/h。

星尘数据的CEO章磊毕业于浙江大学和乔治华盛顿大学,曾在美国世界银行工作,开发的模型被联邦储蓄局作为行业标准。COO徐铭锴曾担任京东AI+商务战略负责人。CTO熊梓陶曾在美国多家公司任职资深架构师顾问。主创团队都有AI背景和甲方背景,了解数据标注行业技术痛点。