大赛详情

比赛项目

▶ 音频深度伪造检测

项目简介

赛题任务是对混合了深度伪造音频和真实音频的数据集鉴别真伪。其中，深度伪造音频指利用深度学习等技术制作或修改的音频文件。人工拼接、录音重放等方式形成的伪造音频并不在考虑范畴。

评价指标

评价指标

计算公式定义

等错误率

（EER）

调整阈值，使得误拒绝率(False Rejection Rate，FRR)等于误接受率 (False Acceptance Rate，FAR)，此时的FAR与FRR的值称为等错误率。

平均耗时（ms）

其中，为第个样本推断结束时间，第个样本推断开始时间

竞赛数据集

竞赛数据集不少于20000段音频样本，其中伪造音频与真实音频的比例约为1:1。测试数据集的说明为：
1）语种为中文，部分样本包含少量英语单词；
2）音频的长度主要为3s、5s左右；
3）伪造方式包括语音合成和声音转换，录音重放和拼接等不在伪造考虑的范围;
4）伪造的方法和系统不少于7种，其中TTS 4种，VC 3种
5）采样率16kHz；
6）语音声道主要为单声道，不考虑双声道情况；

任务输入输出格式

1)（输入）测试音频文件夹路径；
2)（输出）检测结果：要求参评单位将检测结果整理为CSV文件。
每一项用制表符'\t'分割，每一行具体格式如下（所有输出以UTF-8无BOM格式编码）：
音频ID\t音频被伪造的概率\t推断开始时间\t推断结束时间
其中，推断开始时间和推断结束时间，保存成毫秒级13位时间戳，例如 1499825149257。