当前位置：首页 > news >正文

中国建设银行网站类型深圳建站服务公司

news 2025/11/15 22:51:56

中国建设银行网站类型,深圳建站服务公司,移动端开发需要什么技术,傻瓜wordpress本文是根据DCASE2013挑战赛的提案文件#xff0c;加上个人的理解做了相应的翻译#xff0c;可能有不对的地方#xff0c;在之后的会慢慢改善。背景在过去的十年里#xff0c;人们对在代码公布和公共评估中提出方法的语音和音频处理社区的兴趣越来越浓厚。公共评估可以作为… 本文是根据DCASE2013挑战赛的提案文件加上个人的理解做了相应的翻译可能有不对的地方在之后的会慢慢改善。背景　　在过去的十年里人们对在代码公布和公共评估中提出方法的语音和音频处理社区的兴趣越来越浓厚。公共评估可以作为提出方法性能的参考点也可以用于性能提升的研究。例如盲源分离和自动音乐音译已经定义它们已经建立了自己的性能指标并且每一个都执行公共评估详见用于信号分离的SiSEC评估的第一个和用于音乐信息检索的MIREX竞赛的第二个。然而对于研究计算听觉场景分析(CASA)领域的研究人员来说特别是包含非语音和非音乐和探测音频事件的声学场景建模和识别的任务在这个领域还没有一个统一的国际挑战赛。因此我们建议组织一个对声学事件的检测和分类系统的性能评估的挑战赛。这挑战将帮助这个研究社区在更好地定义具体的任务,向前迈进一步也将为研究人员提供激励让他们积极从事这一领域的研究。最后它将有助于阐明目前存在于该任务中的争议并为实现部分任务的系统开发提供参考点。　　我们应该提到的是目前我们提出的最接近的挑战是集中于视听在录像的多模态事件检测的TRECVID多媒体事件检测详见TRECVID 2011 MED Evaluation track。有研究人员只使用来自TRECVID挑战的音频来评估他们的系统为音频挑战而明确开发的数据集将提供一个更好的评估框架因为它在音频方面的变化要大得多。另外将会产生能够满足音频分析系统对一个更全面评估的需求并且可能会得到更广泛的应用和成为一个标准的数据集。　　我们还应该注意到被提出的一个公共评估——音频分割和扬声器二值化(详见Albayzin 2010音频分割和讲者二化评估任务)是建议。这个提出的评估任务包括将一个广播新闻音频文档分割成几个特定的内容课程:音乐演讲和音乐/噪音背景音乐或其他。因此这是一个很解决明确任务的它与当前的提议没有重叠。　　最后一个与本次提议的挑战赛有关的公开评估是在2006年和2007年进行的是CHIL项目资助的CLEAR评估。关于音频、视频或多模式和事件检测的几个任务被踢出这些是一个“声音事件检测和分类”的评估。这些数据集是在几个交互式研讨会上记录下来的并包含与研讨会相关的事件(演讲、掌声、椅子移动等)。从为评估而创建的数据集来看FBK-Irst声学事件数据库(CHIL“隔离会议室声学事件的FBK-Irst数据库”欧洲语言资源协会)已经广泛应用事件检测文献中但是, 前面提到的数据集只包含不重叠的事件。CLEAR评估尽管在当时很有前景和创新性但是并没有建立一个针对这类任务公认的评估挑战主要是因为这些数据集仅限于特定类型的事件和声音场景。这些评估随着CHIL项目的结束已经停止了。挑战赛介绍　　在计算听觉场景分析(CASA)中有两个密切相关的任务是声学场景分类和在一个场景中检测声音事件。涉及第一个任务的系统的目标是表征或是 “标记”音频录制的环境但是旨在检测声音事件的系统尝试去将音频分割成音频段这个音频段能够表示在每个事件有起止时间和需要将它与其他重叠事件分开的特定事件类别的单个事件的。　　提出挑战赛是为检测在单声道录音中对声学场景和事件进行分类构建一组特定的子挑战集。我们的目标是聚焦于CASA开发系统的科学社区鼓励分享想法和改进这种艺术的状态可能会推动系统的发展从而达到接近于人类感知的性能。　　第一个挑战赛将解决音频场景识别问题第二个挑战赛解决识别单个声音事件的问题声场景。两个截然不同的实验将用于声音事件识别一个用于没有重复声音的简单的声学场景中而另一些场景使用有复调的复杂场景。在日常情境中大多数的声音都多源的所以复音场景会更有趣但也更具挑战性。评估数据数据集　　总共有4个数据集一个用于场景分类3个用于事件检测。第一个为现场分类(SC)挑战将包括30秒的各种声音场景。数据集将由两个相同比例的部分组成一个部分有10个场景每个场景(类)有10个音频记录组成总计每个部分的100个录音。其中一个部分将发送给参赛者用于建立并研究他们的性能。他们的系统和其他的系统将被保密用于训练/测试场景的分类任务。场景是: 　　第二个数据集将包含三个子集(一个培训、一个开发和一个测试数据集)。培训 set1将包含每个类的单个事件的实例化。开发(验证)和测试数据集表示为office live(OL)将包含大约1分钟的所有日常音频事件的大约1分钟录音。办公环境(不同尺寸和吸引人的房间房间里不同的人不同的人噪音水平)。这些录音的音频事件将被注释它们将包括: 　　将会发布有两种不同的注释它们分别来自不同的人和都检查一致性和错误。特别是在长软尾巴的情况下在一些事件的偏移量上人类不可能提取出一个有意义和准确的偏移点这通常是主观的注释器的观点即那个事件的偏移量原文Especially in the case of long soft tails in the offset of some events it ishumanly impossible to extract a meaningful and accurate offset point and it usually comes down to the subjectiveopinion of the annotator where the offset for that event is. 。因此包含多个注释将有助于通过允许在复杂的测试过程的中进行一个小的权衡来概括系统评估。欢迎参与者同时使用这两种这两种都是平均值或者两者之一。测试计划是两个都执行。这训练集将包括每个类别有24个不同的录音然后是他们在秒上的起始和偏移的注释。开发集将包括来自办公室环境的一系列事件的3份记录。这些记录还将伴随事件的起始和偏移量的注释。第三个将不会发布的数据集将录制所有办公环境中的声音事件不将这个用于开发集。　　第三个数据集将包含由IRCAM的分析-合成团队提供的人工排序的声音即所谓办公室合成(Office SyntheticOS)。OS任务的数据将由三个如前一个任务一样的子集组成。那训练数据集将由单个事件的音频记录组成并且将与现实任务相同。开发和测试数据集将包括由个人排序记录建立的人工场景事件(用于培训数据集的不同记录)和通过C4DM提供的背景记录。由于这些数据被QMUL(伦敦玛丽女王大学)记录下来因此可以确保机密性。这个子任务的目的是研究测试算法面对不同层次的复杂性时比如事件背景能量比单个事件的重叠程度等时的反应。使用这个数据集的好处是这样的实验比使用真实的录音更容易控制和更真实。除此之外, 即使是复音混合在不同的声音之间也有很多重叠的地方地表真值ground truth是最精确的。我们期望系统在这个数据集里表现得更好但是它可以帮助我们基于“增大化现实”技术测量系统性能。　　第4个也是最后一个数据集将包含由IRCAM的分析-合成团队提供的人工排序的声音被称为世界合成(WS)。训练集将包括一系列广泛的音频记录。来自FreeSound数据库预定义事件集合中广泛的不同事件的音频记录。与在OS任务中一样开发和测试数据集将根据相同类型的不同记录构建事件(也从FreeSound数据库中获取)。在这个任务中没有确保机密性因为我们需要确保参赛者不使用用于构建测试集的FS样例来训练和开发他们的系统。因为是用于构建测试集的示例的Freesound id将被提供给参赛者。这个子任务的目的是研究在面对更多样化的事件时测试算法的行为背景。待测的的事件类别将包括海洋场景:波浪、鸟、水花、汽艇、雾角脚步声(沙子碎石)孩子们玩耍风吹和航行的声音。森林场景:风吹树叶沙沙作响脚步声(人类动物)鸟叫声昆虫哺乳动物叫声狩猎声音树枝折断。注意:挑战的所有数据集将在一个知识共享(CC BY)许可下发布。录音设备　　伦敦玛丽皇后大学数字音乐中心Centre for Digital Music at Queen Mary University of London收集环境音频数据专门用于挑战。录音设备包括两种设置。第一种是高质量的声场麦克风系统——SPS422B模式SPS422B Microphone System能够清晰地捕捉4声道环绕声音如果需要的话也可以在以后的状态中映射到立体声或单声道。第二种是一套音效师双耳麦克风Soundman binaural microphonesOKM II模型SoundMan, Binaural Microphone system是专门制造以致于他们可以模仿了一对耳朵的可穿戴的耳机。该系统的可移植性和精妙之处在于用户不会因为录制吸引的环境中人们的注意。因此我们可以畅通无阻地获取日常的录音。此外, 录音的声音与人类听觉系统的声音非常相似在被与头相关的传输功能(HRTF)过滤后设备被记录下来。因此, 所得到的数据还携带了关于声音的双耳信息这些声音可以作为线索声音事件和场景检测从音频或简单的被完全忽略通过将两个通道加在一起获得单声道录音。　　第一个任务(声音场景分类)的声音文件用双耳麦克风记录下来以下规格:PCM、44100 Hz、16位、双通道(CD质量)。声音文件的规范另一项任务是用声场麦克风系统录制的是双声道立体声(混合从4通道b格式)44100 Hz24位。b格式也会和立体声一起发布版本但是挑战将会以立体声而不是b格式运行。挑战的参与者将会混合记录的灵活性。　　最后要注意的是在训练和测试中录音水平都是保持不变的录音和所有任务(在不控制录音条件的情况下)。度量场景识别　　对于对声音场景进行分类每个运行单个文件的输出只包含类标签。作为在MIREX训练/测试任务中将计算的指标将是原始分类(标识) 准确性每个类的规格化的分类精度标准偏差和一个混乱矩阵提交。对于这个测试/测试任务将使用5倍的交叉验证来评估参与算法。事件检测　　对于事件检测将进行三种类型的评估。基于框架的基于事件的和类的基于事件的评价。我们相信这两种方法可以对各种不同的方法进行全面的评估系统基于事件的评估捕获整个事件检测的准确性以及基于框架的评估提供更详细的细节每一系统的准确性。　　每个运行的输出将是一个文件该文件应该包含启动、偏移和由一个选项卡分隔的事件ID按时间顺序排列: 　　基于框架的评估将使用10 ms步骤进行。基于框架的主要度量标准评估将是基于帧的声音事件错误率的版本AEER (D I S)/N · 100。此处N是用于检测特定帧的事件数量时D是删除(丢失事件)的数量I 是插入的数量(额外的事件)S是事件替换的数量定义为Smin{D,I}。帧级别的度量在记录的持续时间内是平均的。　　可以使用精度、回忆和f-度量(p-r-f)来给出额外的度量标准。通过表示为re和在给定的10ms框架中基本事实的数量估计和正确的事件前面提到的度量定义为:Pre c/e, Rec c/r,F (2 · Pre · Rec)/(Pre Rec)。对于基于只有起点的基于事件的评估每个事件被认为在100毫秒内被正确地检测到。宽容窗口。对于基于起点-偏移事件的评估如果发生在内部则每个事件都被正确地检测到。 100ms的容忍窗口和它的偏移量在地面真相事件的50%范围内事件的持续时间。在基于框架的任务中对于仅有起点和起点-偏移事件检测任务的AEER和p-r-f指标可以相应地定义。还应该注意的是重复的事件将会是认为是假警报。　　最后为了确保重复的事件发生还将进行类基于事件的基于事件的评估。不控制算法的准确性。该算法的输出将与基于事件的评估相同但是在AEER和p-r-f指标将分别在一个类中单独计算阶段。记录和将是一个记录的平均accoss。例如阶级智慧的f度量被定义为:F sum(Fk/K)Fk表示计算的f-度量考虑到对类k的检测事件。网站　　目前,我们正在举办一个网页的任务,。网页包含了对挑战和一些样本录音的简要描述。在在不久的将来鉴于任务使它进入下一个步骤我们将会对指标进行进一步的详细介绍数据集和整体评估任务是为了促进小组和研究人员之间的讨论表达他们对参与挑战的兴趣并帮助更好地定义任务的某些方面。　　这个挑战赛还包括一个专门的邮件列表来促进讨论联系组　　在过去的几年里许多研究领域的研究人员已经取得了联系和通知。对于他们提出的挑战他们中的大多数已经表达了对参与的兴趣。如果有的话, 这是为了收集来自不同群体和研究人员的兴趣的最初表达来参与这些挑战讨论以及评估的全部或部分。在讨论挑战和呼吁的过程中参与我们鼓励研究人员表达他们在所有的方面对这一挑战的兴趣并共同努力。时间计划表　　拟议挑战的时间表如下 12012年6月对相关邮件列表AUDITORYIEEE SPS NewsletterIEEE AASP会员和关联公司机器收听的公开呼吁进行参与和讨论。挑战网站将相应更新。 22012年8月鼓励参与者在有关挑战规范的讨论中作出贡献的截止日期将为任何与挑战有关的讨论创建一个邮寄名单。 32013年3月提交代码的截止日期。代码可以由挑战组织者或参与者本身运行。该代码应附有最多3页的工作描述以IEEE双列会议格式模板将上传到挑战网站。 42013年5月WASPAA提交截止日期13.鼓励与挑战有关的小说作者的作者向研讨会提交定期报告。 52013年10月3页面的描述将与评估结果一起公布。作者被邀请提交相机准备版本的说明反映了评估结果。在WASPAA 13期间每次提交的作品将由参与者在其中一个常规海报会议期间提交。在同一研讨会上也将进行20分钟的口头介绍和具体挑战的讨论。我们已经联系了WASPAA 2013年的主席他们已经同意分配一个时间段来展示这个挑战赛和它的结果。由于研讨会的时间表还没有确定所以我们必须在以后的日子里确定会议的确切形式。 62013年11月邀请选定的参与者在IEEE TASLP / JSTSP关于AASP挑战的特刊中为挑战提交小作品。挑战组织者还将撰写关于挑战和当前趋势的概述文章本概述文章也可能是信号处理杂志提交的一部分以提高可见性。参考文献[1] D.L. Wang and G. J. Brown (Eds), “Computational auditory scene analysis: Principles, algorithms and applications,” IEEE Press/WileyInterscience, 2006. [2] MIREX Campaign [3] SiSEC Evaluation [4] TRECVID 2011 MED Evaluation track [5] Albayzin 2010 Audio Segmentation and Speaker Diarization Evaluation Task [6] J.J. Aucouturier, B. Defreville, and F. Pachet, “The bag-of-frames approach to audio pattern recognition: a sufficient model for urban soundscapes but not for polyphonic music,” Journal of the Acoustical Society of America, Vol. 122, No. 2, pp. 881-891, 2007. [7] CHIL, “FBK-Irst database of isolated meeting-room acoustic events,” European Language Resources Association [8] CLEAR Evaluation [9] Corey I. Cheng, and Gregory H. Wakefield, “Introduction to Head-Related Transfer Functions (HRTFs): Representations of HRTFs in Time, Frequency, and Space,” Journal Audio Eng Soc, Vol 49, No 4, 2001 April.[10] SPS422B Microphone System[11] SoundMan, Binaural Microphone system 本文来源文件来源http://c4dm.eecs.qmul.ac.uk/sceneseventschallenge/AASP_CASA.pdf 作者DCASE2013的组织者(5个) Dimitrios Giannoulis † 机构Centre for Digital Music, Queen Mary University of London, Mile End Rd., London E1 4NS, UK邮箱dimitrioseecs.qmul.ac.ukEmmanouil Benetos § 机构Department of Computer Science, City University London, Northampton Square, London EC1V 0HB, UK邮箱emmanouil.benetos.1city.ac.ukDan Stowell † 机构Centre for Digital Music, Queen Mary University of London, Mile End Rd., London E1 4NS, UK邮箱danseecs.qmul.ac.ukMathias Rossignol ‡ 机构Sound Analysis/Synthesis Team, IRCAM, 1 place Igor stravinsky, 75004, Paris, France邮箱mathias.rossignolgmail.comMathieu Lagrange ‡ 机构Sound Analysis/Synthesis Team, IRCAM, 1 place Igor stravinsky, 75004, Paris, France邮箱mathieu.lagrangeircam.frMark Plumbley † 机构Centre for Digital Music, Queen Mary University of London, Mile End Rd., London E1 4NS, UK邮箱markpeecs.qmul.ac.uk

查看全文

http://www.zqtcl.cn/news/30788/