数据标注吧 关注:36,193贴子:345,548
  • 0回复贴,共1

给想要做数据标注的各位老板的建议

只看楼主收藏回复

首先做科普:
概念
1.数据标注(data annotation)
对文本、图像、语音、视频等待标注数据进行归类、整理、编辑、纠错、标记和批注等操作,为待标注数据增加标签,生产满足
机器学习训练要求 的机器可读数据编码。
2.标签(label)
标识数据的特征、类别和属性等,可用于建立数据及机器学习训练要求所定义的机器可读数据编码间的联系。
3.标注任务(annotation task)
按照数据标注规范对数据集进行标注的过程。
4.数据标注员(data labeler)
负责对文本、图像、音频、视频等待标注数据进行归类、整理、编辑、纠错、标记和批注等操作的工作人员。
5.标注工具(annotation tool)
数据标注员完成标注任务产生标注结果所需的工具和软件。标注工具按照自动化程度分手动、半自动和自动三种。
数据标注分类
1.图像标注
图片标注的场景目前应用还是非常广的,主要的标注方法有,点标、框标、区域标注、3D标注、分类标注等等,应用场景如安防、教育、自动驾驶等等也非常多,目前落地比较成熟的要数人脸识别了,不管是在做一些身份识别验证还是出门做地铁、高铁都有可能用到。
2.语音标注
语音应答交互也是目前重要的分支,所以在此类语音虚拟助理的研发中,基于语音识别、声纹识别、语音合成等建模与测试需要,需要对数据进行发音人角色标注、环境场景标注、多语种标注、ToBBI(Tones and Break Indices)韵律标注、体系标注、情感标注、噪声标注等。
3.文本标注
自然语音处理是人工智能的分支科学,为了满足自然语音处理不同层次的需求,对于文本数据进行标注处理是关键环节。具体而言,通过语句分词标注、语义判定标注、文本翻译标注、情感色彩标注、拼音标注、多音字标注、数字字符标注等,可提供高准确率的文本预料。
标注流程
数据采集--------数据清洗--------数据标注---------数据质检
1.数据采集
数据采集与获取整个数据标注流程的首要环节。目前对于数据标注众包平台而言,其数据主要来源于提出标注需求的人工智能公司。对于这些人工智能公司,他们的数据又是从哪来的呢?比较常见的是通过互联网获取公开的数据集与专业数据集。公开数据集是政府、科研机构等对外开放的资源,获取比较简单,而专业数据往往更耗费人力物力,有时需要通过人工采集、付费所得,或者通过拍摄、录制等自主手段所得。
2.数据清洗
在获取数据后,并不是每一条数据都能够直接使用,有些数据是不完整、不一致、有噪声的脏数据,需要通过数据预处理,才能真正投入问题的分析研究中。在预处理过程中,要把脏数据“洗掉”的数据清洗是重要的环境。
在数据清洗中,应对所采集的数据进行筛检,去掉重复的、无关的数据,对于异常值与缺失值进行查缺补漏,同时平滑噪声数据,最大限度纠正数据的不一致行和不完整性,将数据统一成合适于标注且与主题密切相关的标注格式,以帮助训练更为精确的数据模型和算法。
3.数据标注
数据经过清洗,即可进入数据标注的核心环节。
4.数据质检
无论是数据采集、数据清洗,还是数据标注,通过人工处理数据的方式并不能保证完全准确。为了提高数据输出的准确率,数据质检成为重要的环境,而最终通过质检环节的数据才算是真正的过关。
其次是工程涉及的甲方
人工智能公司:直接需求方,属于源头,有国营企业,私营企业,私营企业比较有代表性的包括:百度,科大讯飞,腾讯,京东,美团等。
数据众包平台:概念上属于是需求方的中标公司,属于分包甲方。比较有代表性的包括:京东众智,百度众测,数据堂,龙猫众包,有道众包。其中有人工智能公司,关联方,形式包括子公司占股或者直接控股。
标注公司:实际参与采集,标注,质检的作业公司,拥有大量的人员和设备,以及技术熟练度。完成源头甲方或者分包甲方的工作任务。
最后关于标注公司规模:
一、10~20人标注公司,属于初期创业团队,一般锤炼人员会从众包平台,进行项目承接。好处是结算稳定,可持续,劣势在于利润率低,只能维持收支平衡。
二、30~50人标注公司,属于较稳定的作业团队,一般可尝试直接对接非知名人工智能公司的需求,做乙方。
三、60~100人标注公司,属于稳定作业团队,基本属于人工智能公司的合作服务商,可直接对话知名人工智能公司某个板块的业务需求,做中标乙方。也同时会开展一些业务分包,将部分利润率不太高的工程,进行分流,给其他合作公司。
四,100~300人标注公司,属于中型作业团队,基本可承接人工智能公司全板块的作业需求,做中标乙方,分包甲方。此阶段,基本核心截留的属于高作业难度,高利润,短工期的工程,分包出来的属于低利润,低难度,作业量大的工程。
五、500人以上标注公司,属于成熟标注公司,发展方向基本以中标乙方,众包平台为方向。项目来源


来自iPhone客户端1楼2022-12-11 20:16回复