数据赋能人工智能
3月21日,Testin云测VP贾宇航应AICUG的邀请与Oracle负责Oracle自治健康和机器学习(AI和机器学习)的副总裁Sandesh Rao在美国旧金山共同分享了人工智能行业发展的前景与趋势。
左一 Oracle VP Sandesh Rao 左二 Testin云测VP贾宇航
数据,算法,算力是人工智能的重要组成元素。当下算力突飞猛进,算法研究的进步振聋发聩,相比之下数据却成了制约人工智能发展的短板。在这样的背景下,Testin云测作为移动互联测试业务的行业翘楚毅然投身于AI数据服务行业。
贾宇航提到人工智能的应用项目对于数据的需求必然会经历三个阶段:
第一阶段:开源/付费数据集
一个人工智能项目在立项的初期,往往会去寻找开源数据集进行训练以验证精度是否达到预期。这些免费的、公开的数据集在大学、公共机构都可以获得,而那些需要定向场景的数据则可依靠LDC、数据堂这样以数据集为核心业务的公司进行数据采购,就能顺利完成项目的POC阶段。
第二阶段:大量数据和定制化数据
基于数据集本身具有的产品属性,尤其是项目POC阶段的开源数据集,只要是应用于类似的场景的项目都可以使用,以这种“通用”数据训练出的模型精度完全不足以让企业处于行业领先。此时企业需要更多新数据,以提高模型的准确率和鲁棒性。但对于企业本身,项目的常见场景非常容易捕捉,而那些Corner case(边角案例,指小概率场景)不容易被覆盖。如何覆盖到尽可能多的Corner case场景,将是摆在产品经理和数据科学家面前的严峻考验。
眼球跟踪采集
第三阶段:需要更多维度数据融合
倘若企业已经顺利度过第二阶段,则需要进一步提高产品的精度和准确性,例如传感器硬件的升级。以自动驾驶为例,为了突破硬件极限, Waymo这样的公司选择了自己设计生产激光雷达,整个智能驾驶行业传感器硬件的迭代也从未停止。
(1)摄像头+雷达
(2)摄像头+雷达+激光雷达
(3)摄达+激光雷达+GNSS+高精地图+V2X……
由此我们可以看到,除了第二阶段提到的数据是否贴近现实应用场景之外,数据的维度也在不断的增加,数据质量和精确程度的要求也在不断的翻新。还是以智能驾驶为例, 2015年以前数据标注作业多以2D拉框为主,此时国内的标注公司遍地开花层出不穷。但到了2017年,语义分割需求不断增长,此时大部分的标注公司并不具备语义分割作业能力,而时间到了2018年,3D点云标注、3D点云与2D图像联合标注等要求更高、难度更大的标注作业成为了智能驾驶标注作业的主流。
3D点云标注
针对第二、三阶段所遇到的问题,Testin云测有独到的解决方案。
Testin云测认为:开源的、通用的数据集不能满足产品本身的需求,只有定制化数据采集模式才能解决AI企业最核心的数据需求。Testin云测在广州、浙江和北京设立的数据采集基地可基于客户的现实应用场景进行场景的定制化搭建。基地配套的软/硬件设备,丰富的活体样本可满足高难度采集作业。已有的众包测试业务也延伸为数据采集平台,完成地理位置要求强,样本丰富性要求高的任务。最终确保数据可以满足项目本身,赋予算法模型灵魂,使算法模型可以应用于现实场景。
面对多维度数据融合的问题,Testin云测坚持自建标注基地,统一管理,规范生产。标注员均经过统一、系统的培训。自研的有数数据标注平台,可满足各类数据标注及多数据标注类型联合标注作业。在数据准确率方面 ,Testin云测配备专岗专职的审核团队,并坚持审核员不参与标注的“标审分离”制度,对数据有效把关,保证数据的高质量输出。
AI数据
Testin云测数据标注体系基于自主研发的数据标注平台,满足各类型数据一站式处理,并对数据进行预标注,为企业获取更快、更准确的标注数据,加速应用场景落地。
了解详情:http://u6.gg/sm3ha