▶ 音频深度伪造检测
项目简介
赛题任务是对混合了深度伪造音频和真实音频的数据集鉴别真伪。其中,深度伪造音频指利用深度学习等技术制作或修改的音频文件。人工拼接、录音重放等方式形成的伪造音频并不在考虑范畴。
评价指标
评价指标 | 计算公式定义 |
等错误率 (EER) | 调整阈值,使得误拒绝率(False Rejection Rate,FRR)等于误接受率 (False Acceptance Rate,FAR),此时的FAR与FRR的值称为等错误率。 |
平均耗时 |
其中, |
竞赛数据集
竞赛数据集不少于20000段音频样本,其中伪造音频与真实音频的比例约为1:1。测试数据集的说明为:
1)语种为中文,部分样本包含少量英语单词;
2)音频的长度主要为3s、5s左右;
3)伪造方式包括语音合成和声音转换,录音重放和拼接等不在伪造考虑的范围;
4)伪造的方法和系统不少于7种,其中TTS 4种,VC 3种
5)采样率16kHz;
6)语音声道主要为单声道,不考虑双声道情况;
任务输入输出格式
1)(输入)测试音频文件夹路径;
2)(输出)检测结果:要求参评单位将检测结果整理为CSV文件。
每一项用制表符'\t'分割,每一行具体格式如下(所有输出以UTF-8无BOM格式编码):
音频ID\t音频被伪造的概率\t推断开始时间\t推断结束时间
其中,推断开始时间和推断结束时间,保存成毫秒级13位时间戳,例如 1499825149257。




