科技中国网欢迎您!

螃蟹变龙虾?MIT发现AI基准数据集存在“系统性”标记错误

时间:2021-03-30 14:38:05    作者:admin    来源:原创整理

近日,麻省理工学院(MIT)发布新论文,发现在AI基准数据集中存在“系统性” 标签错误,平均误差3.4%。螃蟹变“龙虾”、青蛙成“猫”、手写数字3变“5”……大量图文音视频等内容的标记错误,或会影响AI预判及科学家实验结论。

MIT研究人员通过模型训练,发现AI可对标签错误自行“修正”,且低容量、简单模型在训练AI修正数据集精确度时效果最佳。

该研究论文题目为《ML数据集中普遍存在的标签错误会破坏基准测试的稳定性(Pervasive Label Errors in ML Datasets Destabilize Benchmarks)》。

论文链接:https://labelerrors.com/paper.pdf

一、系统性标签错误:影响AI及科学家预判,平均误差3.4%

人工智能和机器学习领域可以说是建立在几百篇论文的肩膀上的,其中很多论文都是利用公共数据集的子集得出结论。从图像分类到音频分类,大量的标注语料对人工智能的成功至关重要。这是因为它们的注释将可理解的模式暴露给机器学习算法,实际上是告诉机器在未来的数据集中寻找什么,这样它们就能够做出预测。

但是,尽管标记数据通常等同于基本事实,但数据集也确实会出错。

构建语料库的过程中,通常涉及某种程度的自动注释或众包技术,这些技术本身就容易出错。当这些错误到达测试集(研究人员用来比较进展和验证他们的发现的数据集子集)时,就存在很大问题。这可能会导致科学家判断模型的实际表现时得出错误结论,可能会破坏社区对机器学习系统进行基准测试的框架。

论文共同作者在对包括ImageNet在内的10个数据集的测试集分析中发现,从ImageNet验证集中的2900多个错误,到QuickDraw中的500多万个错误不等,所有数据集平均有3.4%的错误。

研究人员说,错误的标签使测试集的基准测试结果不稳定。例如,当ImageNet和另一个图像数据集CIFAR-10因标记错误而被纠正时,较大的模型的性能比容量较低的模型差。这是因为高容量模型比小容量模型在更大程度上反映了标记错误在预测中的分布,这种影响随着错误标记测试数据的流转而增加。

▲显示了在流行的人工智能基准数据集中标注错误的百分比

在选择要审计的数据集时,研究人员选取计算机视觉、自然语言处理、情感分析和音频多领域模式,查看了过去20年中创建的最常用的开放源代码数据集。他们评估了六个图像数据集(MNIST,CIFAR-10,CIFAR-100,Caltech-256,Image Net),三个文本数据集(20news、IMDB和Amazon评论)和一个音频数据集(AudioSet)。

据研究人员评估,QuickDraw在其测试集中的错误百分比最高,占总标签的10.12%。CIFAR排名第二,错误标签率约为5.85%,ImageNet紧随其后,为5.83%。39万个标签错误约占亚马逊评论数据集的4%。

其中,有图像、文字情绪及音频等标记错误。例如,一个品种狗被混淆为另一品种,或被认成婴儿奶嘴;亚马逊产品的积极评论被标记为负面;爱莉安娜·格兰德(Ariana Grande)的在YouTube上的高音视频被归类为哨音。

▲一只吉娃娃在ImageNet中被误标为羽毛蟒蛇

二、AI模型能自动修正误标,简单模型做的更好

此前MIT的一项研究发现,ImageNet存在“系统性”标记错误,当用作基准数据集时,与基本事实或直接观测数据不一致。这项研究的合著者得出的结论是:大约20%的ImageNet照片包含多个对象,导致在数据集上训练的模型精确度下降高达10%。

相关文章



2015-2018 Copyright © 科技中国网

技术支持:科技中国网