最专业的八方代购网站源码!

资讯热点
谈论标记这些事情的数据

发布时间:2022-5-13 分类: 电商动态

您对数据注释了解多少?

 一、什么是数据标注

首先说说什么是数据注释。有许多类型的数据注释,例如分类,框架,注释,标记等,我们将在下面更详细地讨论。

要理解数据注释,首先必须了解AI实际上是人类认知功能的部分替代。回想一下我们是如何学习的。例如,如果我们学会了解Apple,那么有人需要拿一个苹果来告诉你这是一个苹果。那么你将来会遇到Apple,你知道这个东西叫做“Apple”。

比喻机器学习,我们必须教他认识一个苹果,你直接给它一张苹果的图片,它完全没有意识到这是一个技巧。我们首先要有一张Apple的照片,标有“Apple”字样,然后机器会在图片中学习很多功能,然后给机器任何苹果图片,它会识别它。 。

在这里,您可以提到训练集和测试集的概念。训练集和测试集都是标记数据,或Apple用作示例。假设我们有1000张标有“Apple”的图片,那么我们可以使用900作为训练集,100作为测试集。机器从900张Apple图像中学习模型,然后我们识别机器未看到的剩余100张图像,然后我们就可以获得模型的准确性。当我们考虑我们的学校时,考试的内容将与我们通常的作业不同,只有通过这种方式我们才能测试学习的真实效果,因此不难理解为什么测试集被划分。

我们知道机器学习分为监督学习和无监督学习。无监督学习的影响是不可控制的,并且经常用于探索性实验。在实际的产品应用中,通常使用监督学习。有监督的机器学习需要标记数据作为先验经验。

在数据标记之前,我们首先需要清理数据以获得满足我们要求的数据。数据清理涉及删除无效数据,将其组织为常规格式等。可以使用算法人员确认特定数据要求。

 二、常见的几种数据标注类型

1.分类标签:分类标签是我们共同的标签。通常,从预定标签中选择对应于数据的标签,该标签是封闭的集合。如下图所示,地图可以有许多类别/标签:成人,女性,黄色,长发等。对于单词,您可以标记主语,谓词,对象,名词动词等。

适用:文字,图片,语音,视频

应用:人脸识别,情感识别,性别识别

2.框架标注:机器视觉中框架的标签易于理解,即选择要检测的对象。对于面部识别,您必须首先确定面部的位置。行人识别,如下图所示。

适用:图像

应用:人脸识别,物品识别

3.区域标签:区域标签要求比标签更准确。边缘可以是柔性的。如自动驾驶中的道路识别。

适用:图像

应用:自动驾驶仪

4.跟踪注释:某些需要详细功能的应用程序需要识别。面部识别,骨骼识别等。

适用:图像

应用:人脸识别,骨骼识别

5.其他注释:除了上述常见类型外,还有许多个性化。根据需要,需要不同的标签。例如,如果要自动汇总,则需要标记文章的主要内容。此时,标签严格不属于上述任何一种。 (或者您可以将其归类为分类,但没有这样的客观标准来标记要点。如果标记为Apple,大多数人都会被标记为类似的结果。)

  三、数据标注的过程

  1.标注标准的确定

确定良好的标准是确保数据质量的关键步骤,并且有一个可以参考的标准。一般为:

设置标签样本和模板。例如,标准颜色图表的颜色。

对于不明确的数据,请设置统一的处理方法,例如可以弃用或统一标记。

参考标准有时必须考虑行业。以文本情感分析为例,术语“疤痕”可能是心理学界的负面词,也是医学界的中性词。

 2.标注形式的确定

注释的形式通常由算法人员制定,例如一些文本注释,问题识别,并且只需要标记句子0或1.这是关于问题的问题1,问题是0。

  3.标注工具的选择

在确定标签的形式之后,它是标签工具的选择。它通常也由算法人员提供。大公司可以在内部开发用于数据注释的可视化工具。如:

还有开源数据注释工具,例如Github上推荐的labelImg

 四、数据标注产品的设计

将自己与数据标记工具结合起来,讨论设计数据标记工具的一些技巧。

数据注释工具通常包含:

进度条:用于指示数据注释的进度。标记人员一般都有任务要求,一方面标签人员检查进度方便,另一方面便于统计。

标签主体:可根据标签的形式设计。原则上,越简单易用,越好。根据注释所需的注意力,可以将其分为单个注释和多个注释,可以根据需要进行选择。

数据导入和导出功能:如果您的注释工具直接连接到模型,则不需要它。

收集功能:数据注释可能不会触及此功能。人们经常标记的事情之一是疲劳,或者当他们遇到那种模棱两可的数据时,可以先收集它们,然后重新标记。

质量检查机制:在分配数据时,可以随机分配一些已经标记的数据,以检测标记人员的可靠性。

专栏

每个人都是产品经理专栏作家。人工智能产品经理,独立音乐家,专注于需求分析,原型设计和项目管理。喜欢阅读,思考和创造。网易云音乐主页:跹尘。

这篇文章最初发表。未经许可,禁止复制。

该地图来自unsplash,基于CC0协议

« 如果你没有钱,你想做一个引爆市场的营销活动吗?事实上,你可以! | 企业不能盲目建造。掌握这四个趋势是关键。 »