Facebook薅羊毛？被赛事方以未规范使用外部数据集的理由赛后删除了排名

2020-06-17 10:07:05来源：开源中国

6 月 13 日，Facebook 公布了 Deepfake 检测挑战赛结果，第一名团队算法识别准确率达 82.56%，整体平均准确率为 65.18%，接近 2/3。

但是，挑战赛的第一、二名，被赛事方以未规范使用外部数据集的理由，删除了解决方案和排名。

整体误报率未知，识别率也未达期许2019 年 9 月，Facebook 联合微软等公司，以及包括麻省理工、牛津大学在内的几所高校，发起 deepfake 的检测挑战赛。同年 12 月，微软在 NeurIPS 2019 大会上公布数据集，挑战赛正式开始，比赛成果提交截止到今年 3 月 31 日。

比赛在数据竞赛平台 Kaggle 上进行，共有 2114 名开发者参与比赛，最终输出 3.5 万种检测算法。

Facebook 给参赛者开放访问 100000 多个视频的独特数据集权限，并提供 1000 万美元的研究资助和奖励。谷歌母公司 Alphabet 旗下的 Jigsaw 和谷歌一起，提供了 3000 个付费演员的新视频数据集，以帮助改善侦查技术。亚马逊提供 100 万美元的云信用额度支持该挑战。

然而，比赛结果并没有达到许多人的预期。排名第一但已经被删除方案的模型，基于Facebook 提供的数据集中，可以识别出 82.56% 的 deepfake，但当该模型去检测一组新的数据时，识别率下降到 65%。

65% 的识别率或许还没迈过可实际使用的门槛。通常，人们认为，识别率达到 90%，才能对统计数据产生实际作用，并可以被允许实际应用。

此外，Facebook 还未公布整体误报率，而这非常重要。

误报率为 0 时，即便模型只能检测出 2/3 的 deepfake，并且自动标记或清除，这对打击造假也非常有帮助。反之，误报率会导致非常严重的后果，尤其再加上互联网平台的规模，即便是 1% 的误报，也会带来大量虚假信息流传。

外部数据集使用纠纷有人说，Facebook 办这个比赛是只是薅了一把开发者的羊毛。说好第一名和第二名共有 80 万美元的奖金，但比赛结果公布之后，他们的成绩都被取消了，原因是使用外部数据集时不符合比赛规则。

比赛前，他们按照Facebook 和 Kaggle 规定的：使用外部数据集时，必须可供竞赛的所有参赛者用于比赛目的，其他参与者可无偿使用;以及在外部数据的其他声明中，必须可用于商业用途，不局限于教学用途的规则使用外部数据集。

但比赛结束后，他们被告知，使用外部数据集还要遵守附加规则。

特定比赛规则第 4 节中，有两条规定：

如果提交文档的任何部分描述，标识或包括了不是个人参与者或团队成员的任何人，则您必须具有所描述，标识或包括的个人的所有许可和权利，并且您同意提供竞赛赞助商和 PAI，并根据要求以书面形式确认这些权限。

提交文件不得侵犯，挪用或侵犯任何第三方的任何权利，包括但不限于版权(包括精神权利)，商标，商业秘密，专利或隐私权或公开权。

简单来说，就参赛者使用外部数据集，必须提供其中所涉及到的每个人的许可证明。

“不幸的是，由于数据来自公共数据集，因此我们没有其中每个人的具体书面许可，也没有任何方法识别这些人的身份。”比赛结束之后，排名第一的解决方案开发者之一Giba 表示，这样的要求根本没法实现。

而且大多数参赛者，都没意识到上述附加限制的存在，“我们在比赛过程中，没有意识到外部数据集属于‘文档’以及外部数据规则…… 在比赛中，有关外部数据的规则一再被阐明，因此我们想知道为什么 Kaggle 从来没有澄清，外部数据必须另外遵循限制性更强的规则来提交文档。”

排名第二的解决方案，因为使用了faceforensic ++ 数据，也遭到删除。其开发者 Shengtao Xiao 表示，即便他们事后找了与 faceforensic ++ 数据集所有者，确认这是一个公共数据集，也无济于事。

Shengtao Xiao 还说，“我们认为，一开始就声明不允许外部数据参与此竞赛会更加清楚。我们对从排行榜中删除分数的最终决定深感失望。这只是消除了我们为这场比赛做的所有努力。”