微信网站模板,城乡建设部网站首页甲级,登录贵州省住房和城乡建设厅网站,wordpress分类子目录在DCASE 2013官网上#xff0c;了解到在本篇文章中#xff0c;详细描述了DCASE2013挑战赛的结果。下面加上个人的理解做了相应的翻译#xff0c;可能有不对的地方#xff0c;在之后的会慢慢改善。 摘要对于智能系统来说#xff0c;使用音频形态是最好的#xff0c;重点在… 在DCASE 2013官网上了解到在本篇文章中详细描述了DCASE2013挑战赛的结果。下面加上个人的理解做了相应的翻译可能有不对的地方在之后的会慢慢改善。 摘要 对于智能系统来说使用音频形态是最好的重点在于他们不仅能识别作为特定的任务研究过的语言音乐而且能识别日常环境中的一般声音。为了激励这个领域的研究我们进行了一项公共研究挑战赛IEEE AASP(音频和声学信号处理技术委员会)对声学场景分类与事件检测(DCASE)的挑战赛。本文中我们报告了自动音频场景分类的技术状态自动检测和分类音频事件。我们调查了以前的工作以及来自各研究小组所提出的挑战所代表的技术水平。我们还提供有关组织挑战的详细信息以便我们作为挑战主持人的经验可能对组织类似领域的挑战有帮助。 我们为挑战创造了新的音频数据集和基准系统; 这些以及一些提交的系统可以在公开许可证下公开提供作为进一步研究通用机器监听的基准。 关键字音频数据库事件检测机器智能模式识别 前言 自动语音识别ASR的进步已经整合到工作的工业系统中[1]这个算法的前景可以预见分类和翻译各种声音近在咫尺。 在ASR中研究人员继续提高识别质量在具有挑战性的音频条件下如针对嘈杂背景远处的语音[2]。此外在音乐信息检索MIR的进步给我们带来了可以录制的音符和和弦音乐[3]或从低质量的声音片段[4]识别曲名和歌手系统。然而语音和音乐只是在典型的室内或室外环境中可以听到的许多类型的声音中的两种。部署在各种可以听到声音的环境的机器越来越多它们可以是手机助听器或者自主机器人但是他们能听懂他们听到什么吗 声音通常能对诸如视频之类的模式提供有用的补充其中携带不存在如来自语音和鸟鸣的信息。声音也可以更方便地收集例如在手机上 。从语义音频分析收集的信息有助于做如机器人导航用户警报或分析和预测事件模式的进一步处理[5]。 除了收听设备之外相同的技术在音频文档分类/搜索中也有应用数字收藏在近几十年中已经大大增长[6]。 音频档案通常包含丰富多样的语音音乐动物声音城市音乐民族志记录等等但是它们的可访问性目前落后于文本档案。 为了促进机器对一般音频环境听觉的研究在2012-2013年期间我们在IEEE AASP主持下组织了一个研究挑战声场和事件检测与分类DCASE挑战赛。 这个挑战集中在具体但相对通用的一般机器听系统将执行的任务类型识别一般环境类型声学“场景”以及检测和分类场景内发生的事件。 这些描述为“机器侦听”的任务也可以被认为属于计算机听觉场景分析CASA[7]。 这个命名法回顾了Bregman在人类“听觉场景分析”能力方面的有影响力的工作[8]因此CASA经常被认为是一种旨在平行于人类听觉的处理阶段的方法和/或模拟人类听觉观察现象可能包括如“失去本质”的幻想[7第1章]。这些以人为中心的目标并不直接反映我们在这里的目标即开发可以从音频数据中提取其周围环境的语义信息的系统。 本文的目的是对这一挑战进行全面的描述其目的有两个首先让读者熟悉机器听觉中的最新技术其次为以后进行研究挑战的人员提供有益的指导和经验。接下来我们首先给出一些研究背景以及在相近领域组织的以往挑战。然后我们详细介绍我们设计的任务的实验设计评估方法以及我们为任务收集的数据。我们也考虑在挑战中采取一些实际行动。在第五节中我们给出了每个任务在挑战中的结果这些结果首先在IEEE WASPAA 2013会议上提出[9]。我们讨论从结果中出现的问题如任务难度级别特别是我们比较我们的事件检测挑战的“现场”和“合成”变体。最后我们考虑到挑战的机器倾听前景技术状况未来发展方向以及这一挑战的贡献。我们还会考虑到与可再生性和可持续性等问题相关的这一挑战和其他挑战的组织结构。 背景 在本节中我们将简要介绍场景中声场分类和声音事件检测的任务两者都在最近的文献中进行了研究。我们讨论与其他机器侦听任务的关系并概述所采取的标准方法。然后我们将讨论机器听力方面的最新评估竞赛这为我们自己的竞赛设定了背景。 声场分类旨在通过为其选择语义标签来表征音频流的声学环境[10]。它可以被认为是广泛的单标签分类范例内的机器学习任务其中提供了一组类标签并且系统必须为任何给定的输入准确地选择一个[11第1章]。因此它与音乐类型识别[12]或说话人识别[13]等音频分类任务相似并且与其他基于时间的媒体如视频进行分类的任务相似。当对基于时间的媒体进行分类时一个关键问题是如何分析时间结构化的数据( temporally-structured data)以便产生一个表示媒体对象的标签。文献中有两个主要的策略。一种是使用一组“BOFbag-of-frames”方式的低级特征将这种场景视为单一对象目的是将其表示为某些局部频谱特征的长期统计分布。该方法的不同特征之中的主要特征是已经发现表现相当好的梅尔频率倒谱系数MFCC[10]。 Foote [14]是一个早期的例子通过矢量量化VQ比较MFCC分布。从那时起比较分布的标准方法是通过为每个实例或每个类构造一个高斯混合模型GMM[10]。另一个策略是在分类之前使用中间表示使用一组通常由“声原子”acoustic atoms的词汇或词典捕获的较高级别的特征来建模场景。这些原子通常表示非先验的场景中的声学事件或流因此以无监督的方式从数据中学习。可以采用稀疏性或其他约束来得到更有识别性表征从而简化分类过程。一个例子是使用非负矩阵因子分解NMF提取的主要成分随后转换为MFCC以获得紧凑性并用于对火车站场景的数据集进行分类[15]。基于这种方法在[16]中的作者通过带有时间约束的移位不变概率潜在分量分析SIPLCA和隐马尔可夫模型HMM来提高性能。在文献[17]中提出一种使用匹配追踪算法(MP)获得有效的时频特征选择的系统其随后用作MFCC的附加以执行环境声音分类。 声学事件检测的目标是标记音频记录中的时间区域从而产生符号描述使得每个注释给出特定事件类型的单个实例的开始时间结束时间和标签。它在精神上与自动音乐翻译有关[3]而且还与说话人分类speaker diarization相似它恢复了时间段的结构化注释但集中于语音“转”而不是个别事件[18]。事件检测中的大多数工作将声音信号视为单声道一次只能检测到一个事件[19][20]。在一般的音频场景中事件很可能共同发生因此可以进行复音事件检测允许重叠的事件区域。然而突出事件可能相对较少地发生即使在单声道检测中也有价值。已经有一些将系统扩展到复调检测的工作[21]。事件检测可能是比场景分类要求更高的任务但与此同时又是相互交织的。例如来自场景分类的信息可以为事件检测提供补充的上下文信息[22]。许多提出的方法可以在文献中找到其中频谱分解技术(spectrogram factorization techniques)倾向于作为常规选择。在[23]中提出了概率潜在语义分析PLSA系统与NMF密切相关的方法来检测重叠的声音事件。在[20]中在检测非重叠声音事件测试中将卷积NMF算法应用于Mel频谱。最后一些提出的系统着重于从诸如语音[24]鸟鸣[25]乐器和其他谐波声音[26]色情声音[27]等环境音频场景的特定声音事件的检测和分类事件[28]。 复音的问题与上述任务相关因为音频场景通常是多音多源。与音乐一样可以对整个音频信号进行一些分析而不考虑复音尽管考虑组成信号的组件源可能会获得一些好处。这种分量分析类似于Bregman人类听觉模型中发生的听觉流。在语音识别应用中通常可以假设有一个主要来源应该成为分析的焦点[24]但一般的音频场景不是这样。处理复音信号的一个策略是执行音频源分离然后分别分析结果信号[29][21]。然而请注意听觉流的计算等效性并不一定要求单个音频信号的重建–Bregman并不声称人类听众这样做 - 而是可以使用一些中级表示如多源概率模型[30] 。通用音频的源分离距离解决问题还有很长的路要走[31]。例如用于“多源环境中的语音识别”的最近挑战中的评估不需要提交的算法来执行音频源分离对语音转录输出进行评估。提交的算法通常不涉及源分离步骤许多使用空间或频谱噪声抑制来集中于一个源而不是分离所有源[32]。 在机器听觉中系统的公共评估和基准测试具有宝贵的作用。它可以在各种提出的系统之间进行客观比较也可以用于研究多年来的性能改进。许多这样的挑战集中于语音。例如DARPA EARS Rich Transcription评估2002-2009侧重于演讲者的讲解任务适用于广播新闻和会议记录[18]。 MIREX挑战2005年至今评估了MIR系统在特定音乐任务中的表现如旋律转录或节奏跟踪[33]。 SiSEC挑战2007年至今着重于语音混合和音乐的音频源分离算法[31]。CHiME挑战2011年2013年侧重于嘈杂的多源声音环境中的语音识别[2]。上述挑战都不直接涉及我们在这里考虑的通用机器侦听任务。他们中的一些使用大致相似的任务轮廓例如分类diarization但是经常使用特定领域的评估措施例如语音转录准确度音频分离质量。他们也吸引了专门针对特定音频领域的贡献。为了目前的目的2006年和2007年期间发生了最密切的挑战作为CHIL项目期间进行的CLEAR评估的一部分[34]。提出了仅音频仅视频或多模态跟踪和事件检测的几个任务其中包括“声音事件检测和分类”的评估。这些数据集在几次互动研讨会中被记录并包含与研讨会演讲掌声椅子移动等相关的活动。从为评估创建的数据集中隔离会议室声学事件的“FBK-Irst数据库”已广泛应用于事件检测文献;然而上述数据集仅包含非重叠事件。 CLEAR评估虽然在当时很有前途和创新但随着CHIL项目的结束而停止。 在未来的视听研究的另一个相关挑战是TRECVID多媒体事件检测其重点是录像中的视听多模式事件检测[35]。 一些研究人员使用从视听TRECVID数据中提取的音频来评估其系统; 然而为音频挑战而明确开发的数据集将提供更好的评估框架因为它将在音频方面变化多得多。 挑战赛介绍 在本节中我们将描述评估设计我们面临的挑战任务。在此之前我们将描述需求收集我们进行的过程以及考虑到进入我们的最终设计。 这部分内容见“DCASE挑战赛原始提案文件详细信息” 需求获取 如上所述在这个挑战中考虑的任务涉及以前的实验研究中探索的任务在某种程度上与之前的评估运动中探讨的那些有关。因此有一系列文献从中吸取潜在的任务设计。然而重要的是任务设计是通过一段社区讨论开发的主要通过公共电子邮件列表。这对于确保设计与当前研究具有广泛的相关性并且不会不公平地惩罚潜在参与者。后者的一个例子是选择事件检测的评估措施有关哪些评估措施最合适的问题以及框架评估中适当的粒度级别等问题。正是这个讨论导致决定报告三个不同的事件检测评估措施见第III-C3节。讨论的其他问题包括注释数据格式合成序列的性质和其他现有数据集的使用。 我们的目的是设计挑战性的任务以反映与日常音频环境相关的有用的通用推论与广泛的机器听觉应用程序相关。 我们的重点是除了语音和音乐的日常声音因为后者已经被深入研究。 我们也希望设计可以提高性能的任务而不必过分依赖其他处理组件如高质量源分离或ASR。我们决定使用与城市和办公环境相关的数据单独设计挑战任务用于场景分类和事件检测和分类。 机器听觉的许多应用涉及在诸如移动电话或机器人的固定硬件设置中体具体的处理。 这与诸如音频归档分析的应用不同其中系统必须鲁棒以便通过麦克风的变化和整个数据集的预处理引起的信号修改[36]。 对于具体的机器听力麦克风频率响应等方面将是常数因素而不是随机因素。 我们选择使用固定配置的录音设备来设计我们的任务。 一个相关的问题是现有数据是否可以用于我们的评估还是创建新的数据集是至关重要的。以前的研究使用了相对较小的数据集;此外其中一些不公开。另外诸如Freesound这样的在线档案也能保存大量的声音数据。然而录音条件录音质量和文件格式差异很大[6][37]因此不适用于我们用一致的音频前端运行评估系统的实验目标。因此制作新的录音是重要的。这给了我们各种各样的优势以及允许我们控制声音类型平衡的条件这也意味着我们能够创建所有参与者看不到的私人测试数据以确保没有意外的过度使用细节的任务数据。相反这意味着我们可以在自由的开放内容许可证下发布公共数据作为研究界的资源甚至超出了我们的直接关注点。 考虑到日常的声音环境是复音 - 多个声音事件可以同时发生 - 具有不同程度的密度并且考虑到通用音频源分离仍然是一个困难的问题重要的是设计事件检测任务使得我们可以探索复调对事件检测系统的影响。这样的系统可能被设计成具有简化的单声道假设;源分离用于进行多重单声道分析;或用全和弦推理。几乎没有数据可用来表明这些不同的策略如何随着事件密度的变化而发挥作用。为了对事件密度进行实验控制我们选择了两种并行方法来创建事件检测音频数据。一方面我们在受控环境中录制了脚本化单声道事件序列。另一方面我们对各种事件进行了现场录音并将这些以及环境背景记录合成为具有参数控制复音的合成混合。我们在第III-C节进一步描述这些方法。 2012年12月我们对潜在参与者进行了一项调查以表征他们首选的软件平台。这表明大多数参与者希望使用MatlabPythonR或C/C来创建他们的提交。但是所有这些框架在多个操作系统中都有多个版本可能难以确保在一个系统上运行的代码在另一个系统上正常运行。为了最小化这些问题的风险我们创建并发布了一个参与者可以在开发过程中使用的Linux虚拟机并且它也是用于运行提交评估的环境。为此我们使用了所有常见操作系统上运行的VirtualBox软件以及基于Xubuntu 12.10 Linux或者这个链接的磁盘映像。通过将公共数据集添加到主文件夹中还可以通过安装PythonR和C/C以及每个环境的一些常见的音频处理工具箱。所得到的磁盘映像可从我们的研究库在线获取.3由于软件许可限制我们无法将Matlab包括在磁盘映像中因此我们分别处理了基于Matlab的虚拟机提交的内容。 我们接下来描述场景分类任务的最终设计和数据收集以及事件检测任务。 场景分类任务SC 音频场景分类可视为单标签分类任务见第二部分。 替代设计是可能的例如分级标签[38]无监督的音频场景聚类或多标签“自动标记”[39]。 然而单标签分类是现有文献中在声场识别中最常见的设计[14] - [17][10]也适用于明确的评估措施。 因此我们将SC任务设计为训练/测试分类任务与以前的音频分类评估类似设计[33]。 我们在预先选定的场景类型列表中创建了数据集代表了伦敦地区室内/室外场景的平衡巴士公交办公室露天市场公园安静街餐厅超市管道和管道。 对伦敦地区的限制是参与者所熟知的务实选择。 我们确保在伦敦各地的中心和外部地点进行抽样以便在实际限制的情况下最大限度地提高广泛性。 为使参与者进一步探索机器识别是否可以从人类听众可用的立体声信息中获益[7第5章]我们使用Soundman OKM II入耳式麦克风录制双声道立体声格式。 对于每个场景类型三个不同的录音师DGDSEB在几个月2012年夏季和秋季中访问了大伦敦的各种场所并且在每个场景中录制了几分钟的音频。 我们确保录音中没有系统的变化与场景类型相关所有录音都是在中等天气条件下进行的每天每周和每年的时间不同每个录音师记录每个场景类型。 然后我们审查了录像选择了30秒的片段这些片段没有移动电话干扰或麦克风处理噪声等问题总共约占记录持续时间的50并将这些片段整理成两个单独的数据集一个用于公开发布 和一个私人集合来评估提交。30秒的持续时间与本主题的其他数据集相当被认为足够长原则上包含足够的信息来区分类。段被存储为30秒WAV文件16位立体声44.1 kHz文件名中给出了场景标签。 每个数据集包含10个场景类型的10个示例每个数据集共有50分钟的音频。 公共数据集在知识共享CC-BY许可下在线发布。 对于场景分类SC任务系统用5层分层交叉验证进行评估。我们的数据集被构造为包含类标签的平衡因此分类准确性是一个适当的评估指标[40]。计算每种算法的原始分类识别精度和标准差以及混淆矩阵以便更详细地检查算法性能。 1场景分类基准系统对音频分类的“bag-offrames”MFCCGMM方法参见第二部分相对简单并且由于它所引起的假设被诟病[41]。 然而它广泛适用于各种音频分类任务。 Aucouturier和Pachet [10]特别声称该方法足以识别城市音乐但不能用于和弦音乐由于音乐中的时间结构的重要性。已广泛应用于其他识别任务中的场景分类作为进一步修改的基础[17]。 因此该模型是“场景分类”任务的理想基准。 以前已经为Matlab提供了框架模型的代码。然而为了最大的重现性我们希望以广泛使用的编程语言提供简单易读的代码。 Python语言被广泛使用可在所有常见平台上免费使用并且着重于强调生成可被其他人读取的代码。 因此我们创建了一个体现分类工作流的Python脚本可以在开放源代码许可下公开提供并且旨在简化易用性[42]。 事件检测任务 (OL, OS) 记录数据集OL合成数据集OS度量标准 上面的相关信息可以在《DCASE挑战赛原始提案文件详细信息》中看到 挑战组织 挑战组织的全部时间表见表一。时间表中包括的一些项目对于外部观察员来说将是显而易见的。 然而我们认为值得强调的时间表和工作量有一些方面如下所列。 DCASE挑战组织的时间轴。时间轴被划分为主要阶段重要事件被突出显示下表是时间安排表Table1 提交系统 总体而言11个系统提交到场景分类SC任务7个系统提交到办公室OL事件检测任务3个系统提交到办公室合成OS事件检测任务。 允许每个系统的变体增加了一些系统的总数。 场景分类任务的提交系统列于表2以及每个系统的简短说明。引用的是扩展摘要提供关于每个提交的进一步的技术细节。场景分类的方法在教程文章[64]中进一步讨论而在第V-A节中我们将在考虑哪些方法导致强大的性能时扩展场景分类方法的某些方面。 事件检测提交任务的系统列于表3以及每个系统的简短说明。引用的是扩展的摘要提供关于每个提交的进一步的技术细节。图1显示了提交算法采用的处理链。 主要处理节点是考虑各种实现的特征计算和分类。 可选地可以预先处理音频数据以减少可以平滑背景噪声的影响以及分类器给出的决策以减少事件之间的不真实的过渡。 场景识别提交系统Table2 事件检测提交系统Table3 下面描述了每个事件检测提交的系统设计 1CPSCPS提交遵循一种结合分割特征提取和分类的方案。 首先提取各种基于频率和时间的特征。 音频流随后使用基于能量的特征的语音分割器进行分段。 然后使用广义似然比检验分类器将每个段分配给一个类。 2DHVDHV提交是为OL和OS任务创建的。 它遵循使用具有多维特比通道的HMM的生成分类方案。 首先将MFCC作为特征提取并用作连续密度HMM的输入每个状态对应于事件类包括背景噪声。 通过执行维特比算法的连续通过来实现复音检测。 3GVVGVV提交使用基于字典的模型使用NMF。 首先使用来自训练集称为样本的样本使用梅尔幅度谱图作为时间 - 频率表示来创建词典。 输入光谱图使用Kullback-Leibler分歧使用NMF投影到词典上。 使用包含每个事件的单个状态的HMM对所得到的事件概率估计进行后处理。 4NVMNVM提交遵循两步分类方案。在第一步将捕获信号的时间频谱或自相关属性的各种各样的音频特征馈送到两个分类器两层HMM和随机森林分类器。然后使用另一个HMM来组合预测。 5NR2NR2提交遵循用支持向量机SVM实现的区分性分类方案。馈送分类器使用原始信号或噪声减少的MFCC计算的MFCC。然后将来自分类版本的决策合并并平滑以减少短暂的转换。 6SCSSCS提交遵循具有2层HMM解码的生成分类方案。分类器采用二维Gabor特征时间/频率允许敲击事件被良好地建模。在特征计算之前使用估计噪声功率谱密度并在频域中去除它的噪声抑制方案来增强音频信号。 7VVKVVK提交遵循具有GMM解码的生成分类方案。首先对每类事件和背景的GMM模型进行了MFCC训练。接下来重新估计事件模型以减少背景框架对模型可能性的影响。在解码时使用移动平均滤波器对似然值进行平滑并被阈值以产生预测。 基线第III-C节给出了基线系统的详细描述。 比赛结果场景分类的结果 图2显示了场景分类任务提交的系统的整体性能。基准系统达到55的准确度。大多数系统都能够改进尽管我们的重要性测试能够显示出比基线最大的四个系统的显着改进。结果表明该任务的难度级别是适当的领先的系统能够在基准线上显着改善但对于任何提交的系统来说任务并不是微不足道的。此外错误栏的大小表明五个折叠中的性能大致一致表明数据集不是过分异质的。然而统计测试没有显示各种系统之间的显着差异由图2中的盒子的大重叠所描绘这意味着较大的数据集可能使系统的细粒度排序更加细化。这篇SC任务的结果在教程文章[64]中进一步分析。因此我们在这里简要讨论SC任务成果中反映的技术状态从而使我们能够在下一节中进一步扩展OL/OS任务的结果。 大多数提交的系统使用有识别性的训练许多强大的执行者使用SVM作为最终的分类器。此外大多数领先的结果是由那些在分类特征中捕获中期时间信息的人获得的。五个最高评分系统中有四个做到了这一点罗马等人 [56]捕获时间重复和使用“复发定量分析”相似性captured temporal repetition and similarity using “recurrence quantification analysis”; Rakotomamonjy和Gasso [55]使用图像处理的梯度特征HOG; 盖革等人[48]随着时间的推移线性回归提取特征; Chum等[46]训练了一个HMM。这些都是时间演化的通用统计模型其拟合参数然后可以用作分类的特征。 从CASA的角度来看值得注意的是没有一个提交的系统使用任何类型的每个音频场景分解成听觉流。我们建议这不是由于分解音频场景的固有困难因为自动分类不需要这种预处理的“听力质量”输出。相反似乎很可能设计一种利用结构化场景分析输出的分类工作流程其分析工作可以是例如标记间隔集而不是时间序列统计。两个提交使用事件检测作为预处理的一部分这确实产生了音频场景的结构解析[51][52]。那些作者然后使用事件检测的密度/强度的摘要统计作为特征。我们建议进一步完善和发展这一战略可能是未来工作的一个富有成效的领域也许可以通过更复杂的时间性总结统计数据如上文所述。 另外值得注意的是有更具感知动机的特征——听觉频谱图[54]和耳蜗图[49]的提交系统没有得到最好的结果。[51]的无监督功能学习也没有。音频功能设计的各种方式 - 感知声学统计学 - 各有其优点。基于目前的评估我们只注意到更复杂的音频特征并没有比简单特征产生决定性的优势。 也就是说听觉感知特征和复杂的特征对于音频场景分类的性能并没有很明显的提升。 我们从SC提交的池中测试了一个简单的多数投票分类器通过将音频记录分配给其他方法最常返回的标签来构建。这得到了强劲的效果在图中显示为“MV”77的准确性略好于领先的个人提交。鉴于其简单性该元分类器的强大性能是特别显着的所有系统都以相等的权重组合。它表明对于大约77的声音一些算法做出了正确的决策使得不正确分类的算法并不都符合一个特定的错误标签。这允许将决策组合成相对鲁棒的元分类器。 注意我们没有测试MV和其他结果之间的比较的重要性因为MV输出不是独立于单个提交的输出。更复杂的元分类可能会进一步扩展这种性能。 综合混乱矩阵用于场景分类所有提交。行是真理列是推断出标签。值以百分比表示四舍五入到最接近整数tableIV 表IV显示了场景标签的混淆矩阵confusion matrix作为所有提交的所有混淆矩阵之和的圆百分比。混乱主要集中在分享诸如公园/安静的街道和地铁/地铁站一些声学特性的类别。我们的标签包含五个室内和五个户外位置两种类型的算法难度相似。 时间检测OL/OS结果略思考与建议 在总结之前我们希望从上述结果和我们管理DCASE挑战的经验中得出一些反思并就未来的评估挑战提出一些建议。 我们的挑战来自IEEE AASP协调的一系列挑战例如与遥远和有回声的语音相关的挑战。 我们的挑战赛设计涉及参赛者提交代码组织者对私有数据集执行此处应该是组织组使用参赛者提交的代码使用私有数据集对系统进行性能测试。这种设计与MIREX音乐音频挑战[33]相同因为主持人必须花时间来运行提交资源才会产生资源成本。它还需要保留一些私有数据这些私有数据无法立即在社区中开放。然而它具有如下优点确保参与者不会超过测试数据并确保结果在经验验证所提交的软件可由第三方运行的意义上可重现。 通过Kaggle网站运行如2013年SABIOD机器侦听挑战类似挑战赛提供一个相对有趣的观点。这些挑战以动物声音的自动分类为中心。在这种情况下交互模式不是提交代码而是提交系统输出。此外参赛者可以迭代地修改其代码并提交更新的输出以验证数据集的结果形式获得反馈。这确实存在过度适应挑战细节的风险并且具有较少的直接再现性尽管获奖作品需要由开源人士和主持人确认。相对于DCASESABIOD挑战似乎鼓励更多来自独立机器学习专业人员的特别参与这可能是由于在线系统可能产生的即时反馈循环。DCASE和SABIOD挑战代表的工作流程各有其自身的优点和缺点我们期待着进一步完善公共评估方法。 我们列举了运行DCASE挑战所涉及的步骤特别是强调了承担这些挑战的资源影响。数据集收集和注释是员工时间的主要要求。这个挑战没有任何项目明确提供资金如果没有大型研究组提供的资源参见致谢就不可能。 这包括工作人员和博士生作为核心组织者数据注释者帮助代码和虚拟机等问题的程序员以及代码和数据托管设施等基础设施。 在第三节D中我们描述了我们采取的各种步骤以确保挑战能够顺利运行例如发布形式任务规范基准代码和虚拟机。 这样做减少了但并不意味着消除了所接收的代码提交运行和排除故障所需的时间。 从这种经验出发的一个明确的建议是对提交的代码进行正式测试将在提交时运行将有很大的帮助。 这可以以自动化单元测试的形式应用或者更简单地由挑战组织者使用公共数据运行提交并确认获得的结果与提交者在其自己的系统上获得的结果相匹配。 社区参与对于成功应对这一挑战至关重要特别是讨论任务规范也是谈判后勤提交和讨论最终结果。 IEEE AASP技术委员会和IEEE WASPAA 2013大会委员会的支持帮助我们组建了这个社区。 结论 随着DCASE挑战我们旨在为日常音频制定一套通用机器聆听任务以便对基础技术进行基准测试激励进一步的工作并在语音和音乐领域的机器聆听中发展研究团体。挑战结果说明我们为此设计的任务具有适当的困难程度对于任何提交的系统任何任务都不是微不足道的并且通过一系列的分数可以比较系统的优缺点。来自不同研究组的强大参与程度表明这些任务与目前的研究相关。 对于场景分类SC任务领先系统的结果显着高于基准线与人类听众的平均结果相当。许多最强系统使用的策略是使用捕获关于声场的中等规模时间信息capture medium-scale temporal information的特征表征。然而除了最高评分系统之外还有改进的余地; 我们展示了这样一个简单的多数表决会话分类器可以聚合提交的系统说明音频中还存在可以在将来推动更强的性能的信息。 在未来几轮中改进SC任务的最佳方式是通过更大的数据集大小来得出关于系统性能差异意义的更为明确的结论。 对于事件检测OL/OS任务领先的系统实现了相对较强的性能尽管有很大的改进。这在复调OS任务中尤其明显表明音频场景中的复音仍然是机器聆听系统的关键难题并且在该领域需要更多的开发。然而对结果的分类分析也表明即使在单声道OL任务中一些事件类型也比其他事件类型更难以检测表明一个系统检测到广泛的声音类型的能力也是一个关键的挑战。进一步的社区对评估指标及其与实际需求的关系的关注可以改进未来的事件检测挑战。评估系统的性能与场景中的复音水平之间的相关性也可能是有价值的。 关于围绕这个研究课题形成的社区我们受到很强的参与程度的鼓舞以及各组织决定将提交的系统作为开放源代码发布。这些与我们发布的资源开源基准系统;开放数据集;虚拟机磁盘映像为希望在这一领域工作的其他人提供了丰富的资源开发的数据集下载地址。社区已经设定了一个基准建立了领先的技术 能够从日常的声音场景中提取大量的语义细节但在未来有明显的改善空间。 致谢 作者要感谢IEEE AASP技术委员会认可和支持这项工作以及所有挑战参与者 - 不仅是为了提交意见而且他们的社区参与塑造挑战以及他们在IEEE WASPAA 2013上的演讲。他们也将 感谢IEEE WASPAA 2013大会委员会组织特别会议的支持。 文献来源D. Stowell, D. Giannoulis, E. Benetos, M. Lagrange and M. D. Plumbley, Detection and Classification of Audio Scenes and Events. IEEE Transactions on Multimedia 17(10), 1733-1746, 2015.