江西手机版建站系统开发,成立公司需要什么条件,有百度推广的网站,网站建设整体情况介绍论文《AUDIO LARGE LANGUAGE MODELS CAN BE DESCRIPTIVE SPEECH QUALITY EVALUATORS》学习 推动多模态代理从能听到懂好坏的进化
摘要#xff1a;
. 研究背景与问题
核心内容#xff1a;现有音频大语言模型缺乏对输入语音质量的感知能力#xff…论文《AUDIO LARGE LANGUAGE MODELS CAN BE DESCRIPTIVE SPEECH QUALITY EVALUATORS》学习 推动多模态代理从能听到懂好坏的进化
摘要
. 研究背景与问题
核心内容现有音频大语言模型缺乏对输入语音质量的感知能力因为语音质量评估需要多任务训练但 缺乏合适的数据集。举例说明假设一个语音助手接收到一段包含背景噪音的用户指令如咖啡厅嘈杂环境下的语音现有音频LLMs可能无法判断这段语音的质量问题如信噪比低导致后续任务如转写或理解出现错误。
.创新数据集的构建
核心内容作者构建了首个基于自然语言的语音质量评估语料库包含人类真实评分、多维分析和质量退化原因的标注支持A/B对比测试。
.方法创新ALLD对齐框架
核心内容提出结合LLM蒸馏的对齐方法ALLD指导音频LLM从原始语音中提取信息并生成有意义的响应。示例假设输入一段有回声的会议录音ALLD框架会让音频LLM完成以下任务 - 特征提取识别回声的时域特征和频域特征。 - 质量评估生成自然语言描述如此段语音存在明显的会议室回声影响对话清晰度。 - 对比分析在A/B测试中比较两段录音生成结论样本B的回声抑制效果优于样本A。
.实验结果优势
核心内容ALLD在MOS预测误差MSE0.17、A/B测试准确率98.6%和生成质量BLEU分数25.8/30.2上超越现有模型。示例 A/B测试当比较两段压缩率不同的语音128kbps vs. 64kbps时ALLD能准确判断高码率语音质量更优。生成质量针对一段低质量语音ALLD生成描述此语音存在周期性电流噪音建议检查录音设备接地而传统模型仅输出质量较差。 引言
语音质量评估的重要性
MOS作为关键指标在现代通信网络中平均意见得分MOS是评估语音质量的重要指标。它通过收集大量人类听众的主观评分来确定语音的质量水平。现有方法的局限性许多深度神经网络致力于将预测平均MOS作为回归任务来完成。然而主观评分存在显著差异现有数据集中的标注也显示出不可忽视的方差这使得仅预测一个数值MOS过于简单无法深入了解质量估计的潜在原因。
提出新方法的动机
学习人类的评价方式鉴于现有方法的不足作者们希望教会LLMs像人类一样评估语音质量提供描述性分析和合理的判断。自动化评估的应用价值这种理解能力具有重要意义可用于自动化评估现代生成系统的性能例如文本转语音或语音编辑模型。例子: 输入一段含电流噪音的语音LLM输出“此语音MOS评分为2.3。主要问题为高频电流噪音强度-20dB覆盖了30%的语音频段。建议检查录音设备接地情况。”优势 自动化诊断直接定位质量问题的技术原因支持生成系统优化例如TTS模型可根据反馈调整降噪模块。
与学术研究趋势的契合
理解和生成任务的统一将理解和生成任务整合到一个基于Transformer的模型中已成为学术研究的显著趋势。从这个角度来看一个了解输入质量的模型变得越来越重要因为它有可能使模型作为一个智能体进入自我改进的循环。 理解分析生成语音的质量问题如“合成语音存在机械感”生成根据分析调整参数重新生成如增加韵律多样性闭环优化迭代直至质量达标。现有数据集的不足
缺乏自然语言描述现有的人类语音质量数据集仅包含数值评分没有包括任何基于自然语言的描述或分析。这种不足限制了对语音质量更深入的理解和评估。Existing human speech quality datasets consist solely of numerical scores, and do not include any natural language-based descriptions or analyses.
新数据集的构建
引入新数据集作者们首次填补了这一空白引入了一个新的数据集该数据集基于真实的人类评分包含自然语言描述。(In this work, we first bridge this gap by introducing a new dataset comprising natural language descriptions generated based on authentic human ratings of multidimensional speech quality assessment corpus )数据集的构成具体来说对于每个语音样本他们利用语料库中的元信息提示LLMs根据多维语音质量评估语料库生成与其多维特征一致的分析包括推理过程和最终的总体MOS评分。例子每一个子维度都分析到位: 输入数据原始语音 元信息如“清晰度4分噪声等级3分失真原因设备压缩”。 提示设计通过示例demonstrations指导LLM生成结构化分析例如“请根据以下元信息生成描述清晰度4/5噪声等级3/5失真原因设备压缩。要求先分析子维度再总结MOS。” 输出结果“此语音清晰度较高(评分高部分维度)但存在中等强度背景噪声(评分低部分维度)如风扇声。主要质量问题是设备压缩导致的轻微失真。综合评分MOS3.2。”
示例与A/B测试数据集 分析例如一段语音可能被描述为“这段语音有非常轻微的失真没有背景噪音。然而存在明显的不连续性显著影响了其感知质量。综合所有因素总体MOS评分仅为2.4。” A/B测试数据集此外还构建了一个A/B测试数据集采用类似的策略。他们选取两段语音片段要求LLM对它们在特定子维度上的优缺点进行描述性比较最终得出一个有充分理由的偏好判断如图2所示。 从语料库中选取两段语音A和B要求LLM基于子维度对比生成判断而非简单选择“更好”。语音AMOS3.5元信息标注“噪声抑制强但语音自然度低”语音BMOS3.2元信息标注“噪声残留明显但语音流畅自然”。LLM生成对比语音A的噪声抑制效果更优噪音强度-25dB vs. -18dB但语音B的自然度更高自然度评分4.2 vs. 3.1。若优先考虑通话清晰度推荐选择A若注重听感舒适度建议选择B。意义训练模型理解质量权衡trade-off模拟人类复杂的决策过程。ALLD
教师模型(LLM)
“元信息(Meta Info.) ”是由人类听者为成对语音样本标注的多维评级。传统的大型语言模型LLM作为教师模型( π r e f \pi_{ref} πref)用于生成高质量的文本响应 y t y_t yt。输入: P r o m p t M e t a I n f o . Prompt Meta Info. PromptMetaInfo.输出 y t y_t yt
学生模型(Audio LLM)
目标是训练一个专门用于音频任务的 LLMAudioLLM它需要学习从音频输入 x a x_a xa 和指令Instruction中生成与教师模型类似的文本响应 y a y_a ya输入 语音信号 x a 指令 I n s t r u c t i o n 语音信号x_a 指令Instruction 语音信号xa指令Instruction输出 y a y_a ya
蒸馏过程Distillation)
通过最小化损失函数 L A L L D L_{ALLD} LALLD使Audio LLM的输出 y a y_a ya尽可能接近专家LLM的输出 y t y_t yt。
训练示例 示例1Exp1评估单段语音的质量。 输入语音一段语音信号。专家LLM输出Res1这段语音有轻微失真但没有背景噪音。然而存在明显的不连续性显著影响了其感知质量。综合所有因素总体MOS评分仅为2.4。目标通过蒸馏使Audio LLM能够生成类似的自然语言描述和质量评估。示例2Exp2对两段语音进行A/B测试。 输入语音两段语音信号。专家LLM输出Res2语音A的噪音水平比语音B稍低因此我认为语音A的质量更好。目标通过蒸馏使Audio LLM能够对两段语音进行比较分析它们在特定子维度上的优缺点并给出有理由的偏好判断。实验过程
蒸馏训练 通过ALLD策略将专家LLM的输出包含详细自然语言描述和评分作为参考训练Audio LLM。在训练过程中使用蒸馏使Audio LLM的输出尽可能接近专家LLM的输出。 任务执行在训练好的Audio LLM上进行两个主要任务的测试
MOS预测任务评估单段语音的质量预测其MOS值。A/B测试任务比较两段语音的质量进行描述性分析并给出偏好判断。
实验结果
MOS预测结果实验结果显示ALLD在MOS预测任务上达到了0.17的均方误差这表明Audio LLM能够非常准确地预测语音的总体质量评分。A/B测试结果在A/B测试任务上ALLD达到了98.6%的准确率说明Audio LLM能够非常可靠地比较两段语音的质量并给出合理的偏好判断。
传统方法语音 → 回归模型 → MOS数值如3.7分
本文方案语音 → 音频LLM → 数值 描述性分析如“MOS3.7因背景风声导致清晰度下降” →未来 自我优化指令如“启用降风噪模块” BACKGROUND
音频大语言模型Audio LLMs的分类
音频LLMs根据声学表示形式可分为两类
(1) 离散化表示模型
方法使用音频编解码器audio codec将原始语音离散化为符号序列如token扩展LLM的词表以支持跨模态交互。示例 模型如VALL-EZhang et al., 2023将语音编码为离散tokenLLM直接处理这些token生成语音或文本。应用场景语音合成TTS中生成音色一致的语音但可能丢失声学细节如细微的背景噪声。 局限性离散化可能损失连续声学特征如频谱连续性影响质量评估任务的细粒度分析。
(2) 连续表示模型
方法使用预训练编码器如ASR模型或自监督模型处理原始波形通过模态适配器adapter将连续特征与LLM的文本嵌入对齐。示例 模型如SpeechLLaMAChu et al., 2024使用WavLM编码器提取语音特征适配器将其映射至LLM输入空间。优势保留声学细节如噪声频谱、失真波形适合需要精细特征的质量评估任务。 本文选择作者采用此类模型见图2架构因可训练编码器能有效提取质量相关特征如信噪比、频谱平坦度。 语音质量的多维描述
四个核心维度
Noisiness噪声水平 定义背景噪声的强度与干扰程度。示例咖啡厅环境噪声信噪比15dB导致语音MOS下降至3.0。 Coloration音色失真 定义语音频谱的异常变化如回声、共振峰偏移。示例电话语音因带宽限制300Hz-3.4kHz导致高频丢失MOS降至2.5。 Discontinuity不连续性 定义语音中断或跳变如网络抖动导致的丢包。示例视频会议中0.5秒的静音导致MOS1.8。 Loudness响度 定义语音整体音量水平虽与其他维度非完全正交但显著影响感知。示例过低的响度-30dB使听众需反复调高音量MOS2.2。
维度与MOS的相关性分析
基于NISQA数据集2.5k样本的统计结果见图1
ColorationPearson系数0.82最高说明音色失真对MOS影响最大。 示例一段语音因设备压缩导致频谱畸变Coloration评分1.5MOS仅2.0。 Loudness系数0.81接近Coloration表明合理响度是基础需求。Noisiness系数0.78背景噪声直接影响清晰度。Discontinuity系数0.75语音断裂严重损害用户体验。 技术意义总结
音频LLM分类选择 → 连续表示模型更适合质量评估任务保留声学细节
质量维度分析 → Coloration和Loudness是MOS预测的关键因素指导特征提取设计应用启示
在语音增强算法中优先优化Coloration如抑制回声可显著提升MOS设计质量评估模型时需针对性提取频谱平坦度、信噪比等特征。 示例多维质量评估流程
输入语音一段含风扇噪声和轻微失真的录音。特征提取 Noisiness风扇噪声信噪比20dB评分2/5Coloration设备压缩导致高频失真评分1.5/5Discontinuity无中断评分5/5Loudness正常-16dB评分4/5。 MOS预测 线性加权 0.82 × 1.5 0.81 × 4 0.78 × 2 0.75 × 5 ≈ 3.1 0.82 \times 1.5 0.81 \times 4 0.78 \times 2 0.75 \times 5 ≈ 3.1 0.82×1.50.81×40.78×20.75×5≈3.1实际MOS3.2接近预测值。 生成描述 “此语音MOS3.2。主要问题为高频失真设备压缩导致和中度背景风扇噪声。建议启用降噪算法并调整编码参数。” 总结图示
音频LLM类型选择 → 连续编码器提取细节特征 → 多维质量分析 → Coloration/Loudness主导MOS → 指导模型优化此背景分析为后续数据集构建与ALLD方法设计提供了理论基础和技术路线。 METHODOLOGY
DATASET GNERATION
. MOS预测生成描述性训练语料库
核心方法 利用大语言模型LLMs的推理能力将语音质量元信息如噪声、失真、不连续性等转化为自然语言描述构建训练数据集。
具体流程
输入元信息每个语音样本的标注数据包括 mos整体评分、noi噪声、dis不连续性、col音色失真、loud响度。 示例xt {mos2.4, noi3, dis1, col4, loud2} 任务提示设计 定义每个维度的含义如“col表示音色失真”要求LLM突出关键影响因素并解释其对MOS的影响。 示例提示 “请根据以下质量维度生成描述噪声评分3/5音色失真评分4/5。要求分析主要问题最后给出MOS2.4。” 上下文学习优化 人工编写3-5个典型示例作为演示demonstrations指导LLM生成结构化响应。 示例输出 “此语音噪声水平中等如风扇声但音色失真严重高频缺失。尽管无中断问题失真导致整体MOS仅为2.4。”
实际挑战与解决
问题即使70B参数的开源LLM如LLaMA-2也难以精确遵循复杂指令如忽略关键维度。解决方案加入人工编写的示例显著提升生成质量。 示例改进 未优化前“MOS2.4质量较差。”优化后“MOS2.4。主要问题为音色失真评分4/5高频段严重衰减疑似设备压缩导致。噪声水平中等评分3/5。” 2. A/B测试模拟人类对比判断
任务目标 训练音频LLM比较两段语音A/B样本基于子维度差异生成可解释的偏好判断。
实现步骤
输入数据两段语音的元信息如A的noi2、B的noi4。任务提示要求模型先对比各维度再综合判断优劣。 示例提示 “请比较语音A噪声2/5音色失真3/5和语音B噪声4/5音色失真1/5分析后选择更优者。”生成响应 “语音A噪声更低评分2 vs. 4但语音B音色更自然失真1 vs. 3。若优先考虑清晰度选A若注重听感真实选B。”
应用场景
TTS系统选型比较两种合成语音模型指出“系统A的韵律更自然但系统B的发音准确度更高”。降噪算法优化对比新旧算法结论“新算法在噪声抑制上提升15%但引入轻微失真”。 3. 合成词检测SWD词级细粒度分析
任务定义 要求音频LLM定位语音中哪些单词是人工合成的如编辑或生成的内容。
技术挑战
传统任务局限欺骗检测Spoof Detection仅判断整段语音是否合成无法定位具体位置。SWD创新需精确识别合成词如“apple”为生成其余为真实录音。
实现方法
输入数据混合真实与合成词的语音如“I ate an [synthetic] apple”。任务提示 “请分析以下语音指出哪些词是合成的。示例’The [synthetic] sky is blue.’ → 合成词sky”生成响应 “检测到’apple’为合成词其频谱连续性异常与上下文能量不匹配。”
实际意义
对抗深度伪造识别高级语音编辑工具如VoiceCraft生成的片段。内容审核定位媒体中的篡改部分如虚假新闻中篡改的敏感词。 技术总结
MOS预测 → 生成可解释描述Why
A/B测试 → 提供权衡判断Which
SWD任务 → 定位合成内容Where 数据生成流程 给定包含元数据 {mos, noi, col, dis, loud} 的元组LLaMA-3.1 70B 的生成模板如下
提示模板 我将提供一组用于语音质量评估的元信息包含5个维度评分1-5分所有维度分值越高越好。 1mos整体质量。1极差2较差3一般4良好5极佳。 2noi音频噪声水平反映背景噪声或其他非语音干扰对质量的影响。1严重噪声2较明显噪声3中等噪声4较轻微噪声5完全无噪声。 3col语音自然音色的改变由失真或非预期修改导致。1严重失真2显著失真3中度失真4轻微失真5无失真。 4dis音频不连续性反映播放时是否存在中断、卡顿或不连贯。1严重不连续2显著不连续3中度不连续4轻微不连续5完全连贯。 5loud音频感知音量或响度。1极低2显著偏低3轻柔但可理解4清晰响亮5完美响度。 请根据维度2至5的评分生成描述性评估分析其对整体质量的影响并在末尾给出MOS评分。 示例 输入{示例数据点} 输出{定制化响应} ··· 当前输入{当前数据点}。请仅输出评估结果 参数设置
首次生成使用LLaMA-3.1默认推理参数温度1.0top_p1.0。二次生成调整温度参数temperature1.1并设置top_p0.9以增加生成多样性。 A/B测试
提示模板设计 A/B测试的提示引言部分与MOS预测一致。在介绍子维度后提示内容调整为 请根据两段语音的MOS评分MOS高者胜出从维度2至5中灵活选择1-3个差异显著的方面通常评分差≥0.5基于这些差异进行对比分析最终给出合理偏好判断。 结果提取 使用以下模板通过LLaMA-3.1-70B从音频LLM的生成结果中提取最终答案 “根据上下文请判断SpeechA与SpeechB中更优者。仅输出‘[SpeechA]’或‘[SpeechB]’无需分析。” 计算准确率 通过该模板从音频LLM生成结果和真实标注中提取更优语音SpeechA/SpeechB判断一致性以计算最终准确率。 两阶段策略的必要性 由于LLaMA-3.1-70B无法直接生成简洁答案无论提示如何设计需通过两阶段生成分析→提取答案确保结果可靠性。 ALIGNMENT WITH LLM DISTILLATION
与llm蒸馏对齐
1. 上下文学习ICL的局限性
问题背景 研究者首先探索了无需梯度更新的上下文学习ICL是否能让音频LLM感知语音质量。例如通过提示模板要求模型判断语音的噪声水平“clean”或“noisy”。
实验设置
提示模板示例 “请评估以下语音的噪声水平预测‘clean’或‘noisy’。示例[audio1]为noisy[audio2]为clean。请判断[audio3]”尝试变量 不同提示格式、示例数量、质量子维度如noisiness、coloration及多种开源音频LLM。
实验结果
失败原因 普遍幻觉Hallucination模型倾向于生成与输入无关的随机判断如将清晰语音误判为“noisy”。指令遵循能力退化音频任务的监督微调SFT损害了LLM原有的推理和指令理解能力如无法正确解析多维度分析指令。
示例说明 输入一段轻微背景噪声的语音实际评分noi4模型可能错误输出“noisy”而忽略其他维度如col5对整体质量的影响。 2. ALLD方法的核心设计
目标通过蒸馏对齐音频LLM与专家LLM的输出提升生成质量与评估准确性。
架构与公式 输入与响应 音频输入 x a x_a xa原始语音信号。音频LLM ( π θ \pi_\theta πθ )生成响应 y a y_a ya。专家LLM ( π ref \pi_{\text{ref}} πref) 基于元信息 x t x_t xt 生成参考响应 y t y_t yt。 对齐目标 最大化奖励函数 r ϕ ( x , y ) r_\phi(x, y) rϕ(x,y)同时约束音频LLM输出分布与专家LLM的KL散度 max π θ E ( x a , x t ) ∼ D , y ∼ π θ ( y ∣ x a ) [ r ϕ ( x a , y ) ] − β D KL ( π θ ( y ∣ x a ) ∥ π ref ( y ∣ x t ) ) \max_{\pi_\theta} \mathbb{E}_{(x_a, x_t) \sim D, y \sim \pi_\theta(y|x_a)} [r_\phi(x_a, y)] - \beta D_{\text{KL}}(\pi_\theta(y|x_a) \| \pi_{\text{ref}}(y|x_t)) πθmaxE(xa,xt)∼D,y∼πθ(y∣xa)[rϕ(xa,y)]−βDKL(πθ(y∣xa)∥πref(y∣xt)) 奖励函数通过DPODirect Preference Optimization隐式建模偏好 y t y_t yt 优于 y a y_a ya。KL散度约束防止音频LLM偏离专家LLM的知识分布。 偏好优化数据集 构建对比数据 D { x a ( i ) , x t ( i ) , y a ( i ) , y t ( i ) } D \{x^{(i)}_a, x^{(i)}_t, y^{(i)}_a, y^{(i)}_t\} D{xa(i),xt(i),ya(i),yt(i)}优化目标改写为 L ALLD ( π θ ; π ref ) − E ( x , y a , y t ) ∼ D [ log σ ( β log π θ ( y t ∣ x ) π ref ( y t ∣ x ) − β log π θ ( y a ∣ x ) π ref ( y a ∣ x ) ) ] \mathcal{L}_{\text{ALLD}}(\pi_\theta; \pi_{\text{ref}}) -\mathbb{E}_{(x, y_a, y_t) \sim D} \left[ \log \sigma \left( \beta \log \frac{\pi_\theta(y_t|x)}{\pi_{\text{ref}}(y_t|x)} - \beta \log \frac{\pi_\theta(y_a|x)}{\pi_{\text{ref}}(y_a|x)} \right) \right] LALLD(πθ;πref)−E(x,ya,yt)∼D[logσ(βlogπref(yt∣x)πθ(yt∣x)−βlogπref(ya∣x)πθ(ya∣x))] x a 和 x t 被统一表示为 x 因为它们携带等价信息 x t 嵌入在音频 x a 中 ) x_a和x_t被统一表示为x因为它们携带等价信息x_t嵌入在音频x_a中) xa和xt被统一表示为x因为它们携带等价信息xt嵌入在音频xa中)
与主流RLHF的区别
参考模型角色 主流RLHF π ref \pi_{\text{ref}} πref 是冻结的初始模型防止突变。ALLD π ref \pi_{\text{ref}} πref是专家LLM如Qwen-7B提供标记级蒸馏指导。 知识来源 ALLD利用专家LLM生成的描述 y t y_t yt作为高质量参考而非人工标注的偏好。
公式详解从零理解ALLD方法的核心设计
1. 基本符号与概念
在深入公式前先明确核心符号含义 π θ \pi_\theta πθ待训练的音频LLM学生模型参数为 θ \theta θ。 π ref \pi_{\text{ref}} πref专家LLM教师模型生成高质量参考响应。 x a x_a xa原始音频输入如一段含噪声的语音。 x t x_t xt与 x a x_a xa对应的元信息如噪声评分、失真评分等。 y a y_a ya音频LLM生成的响应如“MOS3.0噪声明显”。 y t y_t yt专家LLM生成的参考响应如“MOS3.0噪声评分4/5因风扇声干扰”。 D D D训练数据集包含多组 ( x a , x t , y a , y t ) (x_a, x_t, y_a, y_t) (xa,xt,ya,yt)。 β \beta β平衡参数控制KL散度的权重越大越倾向于保持与参考模型一致。
2. 目标函数解析
公式1 max π θ E ( x a , x t ) ∼ D , y ∼ π θ ( y ∣ x a ) [ r ϕ ( x a , y ) ] − β D KL ( π θ ( y ∣ x a ) ∥ π ref ( y ∣ x t ) ) \max_{\pi_\theta} \mathbb{E}_{(x_a, x_t) \sim D, y \sim \pi_\theta(y|x_a)} [r_\phi(x_a, y)] - \beta D_{\text{KL}}(\pi_\theta(y|x_a) \| \pi_{\text{ref}}(y|x_t)) πθmaxE(xa,xt)∼D,y∼πθ(y∣xa)[rϕ(xa,y)]−βDKL(πθ(y∣xa)∥πref(y∣xt))
分步解释 第一部分最大化奖励期望 E [ r ϕ ( x a , y ) ] \mathbb{E}[r_\phi(x_a, y)] E[rϕ(xa,y)]对音频LLM生成的响应 y y y计算奖励的期望值。奖励函数 r ϕ ( x , y ) r_\phi(x, y) rϕ(x,y)衡量响应 y y y的质量如与参考响应 y t y_t yt的匹配程度。目标让音频LLM生成高奖励的响应即与专家响应一致。 示例 若音频LLM生成 y a y_a ya“MOS3.0噪声明显”而专家响应 y t y_t yt“MOS3.0噪声评分4/5”则 r ϕ ( x a , y a ) r_\phi(x_a, y_a) rϕ(xa,ya)可能为0.8接近参考。 第二部分最小化KL散度 D KL ( π θ ∥ π ref ) D_{\text{KL}}(\pi_\theta \| \pi_{\text{ref}}) DKL(πθ∥πref)衡量音频LLM与专家LLM输出分布的差异。KL散度定义 D KL ( P ∥ Q ) ∑ P ( y ) log P ( y ) Q ( y ) D_{\text{KL}}(P \| Q) \sum P(y) \log \frac{P(y)}{Q(y)} DKL(P∥Q)∑P(y)logQ(y)P(y) 值越小表示 P P P音频LLM与 Q Q Q专家LLM的输出分布越接近。目标防止音频LLM过度偏离专家模型的知识如生成不合理描述。 示例 若专家模型对某语音生成“MOS3.0”的概率为90%而音频LLM生成“MOS3.0”的概率为50%则KL散度较大需通过优化降低差异。 平衡参数 β \beta β β \beta β越大优化过程越倾向于保持与专家模型一致可能牺牲奖励 β \beta β越小越注重奖励最大化可能生成更自由但不稳定的响应。 3. 损失函数解析基于DPO
公式2 L ALLD − E ( x , y a , y t ) ∼ D [ log σ ( β log π θ ( y t ∣ x ) π ref ( y t ∣ x ) − β log π θ ( y a ∣ x ) π ref ( y a ∣ x ) ) ] \mathcal{L}_{\text{ALLD}} -\mathbb{E}_{(x, y_a, y_t) \sim D} \left[ \log \sigma \left( \beta \log \frac{\pi_\theta(y_t|x)}{\pi_{\text{ref}}(y_t|x)} - \beta \log \frac{\pi_\theta(y_a|x)}{\pi_{\text{ref}}(y_a|x)} \right) \right] LALLD−E(x,ya,yt)∼D[logσ(βlogπref(yt∣x)πθ(yt∣x)−βlogπref(ya∣x)πθ(ya∣x))]
分步解释 核心思想直接优化偏好偏好 y t y_t yt优于 y a y_a ya无需显式训练奖励模型。 对数比值项 log π θ ( y t ∣ x ) π ref ( y t ∣ x ) \log \frac{\pi_\theta(y_t|x)}{\pi_{\text{ref}}(y_t|x)} logπref(yt∣x)πθ(yt∣x)音频LLM生成 y t y_t yt的概率相对于专家LLM的对数比值。 log π θ ( y a ∣ x ) π ref ( y a ∣ x ) \log \frac{\pi_\theta(y_a|x)}{\pi_{\text{ref}}(y_a|x)} logπref(ya∣x)πθ(ya∣x)音频LLM生成 y a y_a ya的概率相对于专家LLM的对数比值。差值 β ( 比值 t − 比值 a ) \beta (\text{比值}_t - \text{比值}_a) β(比值t−比值a)放大两者差异。 直观意义 若音频LLM生成 y t y_t yt的概率比专家LLM高且生成 y a y_a ya的概率比专家LLM低则差值为正损失减小。 Sigmoid函数 σ \sigma σ 将差值映射到(0,1)区间表示 y t y_t yt优于 y a y_a ya的概率。 σ ( z ) 1 1 e − z \sigma(z) \frac{1}{1e^{-z}} σ(z)1e−z1当 z z z越大 σ ( z ) \sigma(z) σ(z)越接近1。 损失函数 最大化 log σ ( ⋅ ) \log \sigma(\cdot) logσ(⋅)等价于最大化 y t y_t yt优于 y a y_a ya的概率。负号表示最小化负对数概率即最大化原始概率。
示例计算 假设 π ref ( y t ∣ x ) 0.9 \pi_{\text{ref}}(y_t|x) 0.9 πref(yt∣x)0.9 π ref ( y a ∣ x ) 0.1 \pi_{\text{ref}}(y_a|x) 0.1 πref(ya∣x)0.1专家认为 y t y_t yt更优。 π θ ( y t ∣ x ) 0.6 \pi_\theta(y_t|x) 0.6 πθ(yt∣x)0.6 π θ ( y a ∣ x ) 0.4 \pi_\theta(y_a|x) 0.4 πθ(ya∣x)0.4音频LLM有待优化。 β 1 \beta1 β1。
则 比值 t log 0.6 0.9 ≈ − 0.405 , 比值 a log 0.4 0.1 ≈ 1.386 差值 − 0.405 − 1.386 − 1.791 σ ( − 1.791 ) ≈ 0.143 L − log ( 0.143 ) ≈ 1.95 \text{比值}_t \log \frac{0.6}{0.9} \approx -0.405, \quad \text{比值}_a \log \frac{0.4}{0.1} \approx 1.386 \\ 差值 -0.405 - 1.386 -1.791 \\ \sigma(-1.791) \approx 0.143 \\ \mathcal{L} -\log(0.143) \approx 1.95 比值tlog0.90.6≈−0.405,比值alog0.10.4≈1.386差值−0.405−1.386−1.791σ(−1.791)≈0.143L−log(0.143)≈1.95 优化过程会调整 π θ \pi_\theta πθ使得 π θ ( y t ∣ x ) \pi_\theta(y_t|x) πθ(yt∣x)增加 π θ ( y a ∣ x ) \pi_\theta(y_a|x) πθ(ya∣x)减少从而降低损失。 4. 与主流RLHF的区别
参考模型角色 主流RLHF π ref \pi_{\text{ref}} πref是初始模型的冻结副本仅用于防止优化过程中模型“突变”如生成乱码。目标函数示例 max π θ E [ r ( y ) ] − β D KL ( π θ ∥ π init ) \max_{\pi_\theta} \mathbb{E}[r(y)] - \beta D_{\text{KL}}(\pi_\theta \| \pi_{\text{init}}) πθmaxE[r(y)]−βDKL(πθ∥πinit) 其中 π init \pi_{\text{init}} πinit为初始模型。 ALLD π ref \pi_{\text{ref}} πref是专家LLM如Qwen-7B作为知识来源提供高质量参考。目标函数 max π θ E [ r ( y ) ] − β D KL ( π θ ∥ π ref ) \max_{\pi_\theta} \mathbb{E}[r(y)] - \beta D_{\text{KL}}(\pi_\theta \| \pi_{\text{ref}}) πθmaxE[r(y)]−βDKL(πθ∥πref) 通过KL散度约束使音频LLM学习专家LLM的输出分布。
知识来源
RLHF依赖人工标注的偏好数据如标注员选择 y t y_t yt优于 y a y_a ya。ALLD直接利用专家LLM生成的 y t y_t yt作为高质量参考无需人工标注。 5. 实例说明ALLD训练流程
步骤1数据准备
收集语音样本 x a x_a xa及其元信息 x t x_t xt如MOS3.0, noi4, col2。使用专家LLM生成参考响应 y t y_t yt如“MOS3.0噪声轻微但音色失真”。音频LLM生成初始响应 y a y_a ya如“MOS3.0质量一般”。
步骤2构建偏好数据集
对比数据 D D D包含 ( x a , x t , y a , y t ) (x_a, x_t, y_a, y_t) (xa,xt,ya,yt)标记 y t y_t yt优于 y a y_a ya。
步骤3计算损失
对每个样本计算公式2中的损失调整 π θ \pi_\theta πθ参数使损失最小化。
步骤4迭代优化
多轮训练后音频LLM生成的响应逐渐接近专家LLM如从“质量一般”变为“噪声轻微但音色失真MOS3.0”。 总结
ALLD公式核心
1. 最大化奖励鼓励生成与专家一致的响应。
2. 最小化KL散度保持输出分布与专家模型接近。
3. DPO优化直接利用专家响应作为偏好避免人工标注。效果音频LLM学会从语音中提取质量特征并生成人类可理解的描述推动语音评估从“黑箱评分”到“透明分析”的跨越。 3. 训练策略与优化 专家LLM选择 使用较小的LLM如Qwen-7B作为 π ref \pi_{\text{ref}} πref降低计算成本。保持分词器Tokenizer一致性确保蒸馏可行性。 预热微调Warm-up SFT 必要性音频LLM ( π θ \pi_\theta πθ) 缺乏零样本生成能力需在子集 D D D 上预训练。示例 输入含失真的语音模型初步学习生成“存在设备压缩导致的失真”等描述。 单次采样优化 为简化流程仅采样一次 y a y_a ya 进行偏好优化。迭代潜力理论上可通过多次采样-优化循环逐步逼近 y t y_t yt。 4. 实际效果与优势
实验结果
生成质量提升BLEU分数提高至25.8/30.2证明语言能力退化问题被有效缓解。评估精度MOS预测误差MSE0.17与A/B测试准确率98.6%显著优于传统回归模型。
示例对比
传统模型输出“MOS2.0质量差”。ALLD模型输出“MOS2.1。主要问题为高频电流噪音中心频率8kHz强度-18dB建议检查设备屏蔽”。
应用场景
自优化语音生成TTS系统根据ALLD反馈调整降噪模块参数。实时质量监控在视频会议中检测网络抖动导致的语音断裂提示用户重连。 技术总结
ALLD核心价值
1. 跨模态对齐将声学特征映射为可解释文本。
2. 语言能力修复通过标记级蒸馏抑制预训练中的退化。
3. 高效优化结合DPO与KL约束平衡生成多样性与准确性。此方法为音频LLM赋予“自我诊断-优化”能力推动其从被动处理工具进化为主动感知的智能代理。
EXPERIMENTAL RESULT
数据集
1. NISQA数据集概述
数据规模包含超过97,000条人类评分涵盖多个维度如MOS、噪声、失真等。评分维度 整体MOS平均意见得分1-5分。子维度评分 Noisiness噪声水平1严重噪声5完全干净。Coloration音色失真1严重失真5无失真。Discontinuity不连续性1严重中断5完全连贯。Loudness响度1极低5完美响度。
原文引用 “We used the NISQA (Mittag et al., 2021) that contains more than 97,000 human ratings for each of the individual dimensions as well as the overall MOS.”
详细示例
输入一段含噪声的语音如咖啡厅环境下的录音。评分 MOS3.0整体评分。噪声评分4/5背景噪声明显。失真评分2/5轻微失真。不连续性评分5/5语音连贯。响度评分3/5音量适中。 2. 训练集构建
生成工具使用LLaMA3.1-70B-Instruct模型生成20,000条训练样本。任务分配 MOS预测任务10,000条样本。A/B测试任务10,000条样本。 数据来源基于NISQA TRAIN SIM子集2,322名说话者。
原文引用 “To formulate the training set for ALLD, we utilize the LLaMA3.1-70B-Instruct model to generate a total of 20k training examples for MOS prediction (10k) and A/B test (10k), which includes 2,322 speakers based on the largest subset NISQA TRAIN SIM.”
详细示例 MOS预测任务 输入一段含噪声的语音。输出 MOS3.0。噪声评分4/5。失真评分2/5。不连续性评分5/5。响度评分3/5。 生成过程 输入音频特征到LLaMA3.1-70B-Instruct模型。模型生成自然语言描述“此语音MOS评分为3.0。噪声水平较高评分4/5但语音连贯性良好评分5/5。建议检查录音设备是否存在失真问题。” A/B测试任务 输入两段语音A噪声明显B失真明显。输出 “语音A的噪声更明显评分4/5 vs. 2/5但语音B的失真更严重评分1/5 vs. 4/5。综合推荐语音A。” 生成过程 输入两段语音的特征到LLaMA3.1-70B-Instruct模型。模型生成对比分析“语音A的噪声抑制效果较差但语音B的失真问题更严重。建议优先选择语音A。” 3. 测试集构建
域内测试集NISQA TRAIN SIM子集938名说话者5,000条样本。域外测试集 NISQA VAL LIVE真实场景语音如电话录音、会议录音。NISQA TEST FOR外语语音如非母语者的英语录音。NISQA TEST P501特定领域语音如医疗、教育场景的录音。
原文引用 “Meanwhile, NISQA TRAIN SIM with 938 speakers are constructed as a 5k in-domain test set for these two tasks. Additionally, the NISQA VAL LIVE, NISQA Test FOR, and NISQA TEST P501 are used for out-of-domain evaluation, containing unseen speech samples from various domains, as summarized in Table 2.”
详细示例 域内测试集 输入一段含噪声的语音与训练集同分布。输出MOS3.0噪声评分4/5。 域外测试集 NISQA VAL LIVE 输入一段电话录音含网络抖动。输出MOS2.5不连续性评分3/5。 NISQA TEST FOR 输入一段非母语者的英语录音含口音。输出MOS3.2音色失真评分2/5。 NISQA TEST P501 输入一段医疗场景的录音含专业术语。输出MOS3.5响度评分4/5。 SWD任务数据集
数据来源LibriSpeech语音合成与编辑任务常用数据集。任务目标检测语音中哪些词是合成的如“apple”为生成词。
原文引用 “For SWD tasks, we utilize LibriSpeech for data generation, with further details provided in Appendix D.”
详细示例
输入一段语音“I ate an [synthetic] apple.”输出 检测到“apple”为合成词因其频谱连续性异常。生成描述“检测到‘apple’为合成词建议检查语音编辑工具。” 模型与基线
1. MOS预测基线模型
CNN-SA-AP
特点NISQA数据集上的SOTA回归模型仅预测MOS分数无分析能力。架构基于卷积神经网络CNN与自注意力机制Self-Attention。输入原始语音波形。输出MOS分数1-5分。
原文引用 “For MOS prediction, regression models CNN-SA-AP (Mittag et al., 2021) […] are employed as baseline that only estimate the score without analysis. The former is the SOTA on the NISQA dataset.”
详细示例
输入一段含噪声的语音。输出MOS3.5。 Wav2vec2
特点自监督学习模型广泛用于语音质量评估。架构基于Transformer的语音特征提取器。输入原始语音波形。输出MOS分数1-5分。
原文引用 “Wav2vec2 (Baevski et al., 2020) […] are widely used self-supervised learning models for MOS estimation.”
详细示例
输入一段含失真的语音。输出MOS3.2。 WavLM
特点改进的自监督模型提取更丰富的语音特征。架构基于Transformer的多任务学习模型。输入原始语音波形。输出MOS分数1-5分。
原文引用 “WavLM (Chen et al., 2022) […] are widely used self-supervised learning models for MOS estimation.”
详细示例
输入一段含背景音乐的语音。输出MOS3.4。 2. 音频LLM模型
SALMONN
特点通过双编码器提取更多声学信息使用Q-former连接LLM集成LoRA。架构 双编码器分别提取语音与文本特征。Q-former将声学特征映射到LLM输入空间。LoRA低秩适应Low-Rank Adaptation提升模型微调效率。 输入原始语音波形。输出自然语言描述如“MOS3.0噪声评分4/5”。
原文引用 “SALMONN (Tang et al., 2023) can extract more acoustic information via bi-encoders, and connect them to LLMs via a Q-former, with LoRA integrated.”
详细示例
输入一段含回声的语音。输出“MOS3.0噪声评分4/5因会议室回声干扰。” Qwen-Audio
特点编码器可训练LLM部分冻结。架构 编码器可训练的语音特征提取器。LLM冻结的大型语言模型。 输入原始语音波形。输出自然语言描述如“MOS3.0质量一般”。
原文引用 “Qwen-Audio (Chu et al., 2023) makes the encoder trainable while freezing the entire LLM.”
详细示例
输入一段含电流噪音的语音。输出“MOS3.0质量一般。” Qwen2-Audio
特点编码器与LLM端到端训练。架构 编码器可训练的语音特征提取器。LLM可训练的大型语言模型。 输入原始语音波形。输出自然语言描述如“MOS3.0噪声评分4/5建议启用降噪功能”。
原文引用 “In contrast, Qwen2-Audio (Chu et al., 2024) enables full end-to-end training of both the encoder and the LLM.”
详细示例
输入一段含风声的语音。输出“MOS3.0噪声评分4/5建议启用降噪功能。” 要点
1. MOS预测基线模型- CNN-SA-APNISQA数据集上的SOTA回归模型。- Wav2vec2自监督学习模型广泛用于语音质量评估。- WavLM改进的自监督模型提取更丰富的语音特征。
2. 音频LLM模型- SALMONN双编码器 Q-former LoRA提取更多声学信息。- Qwen-Audio编码器可训练LLM冻结。- Qwen2-Audio编码器与LLM端到端训练。训练细节
1. 参数高效微调Parameter-Efficient Finetuning
IA3
特点通过少量参数调整提升模型性能。应用所有线性层。原理在模型的线性层中引入可学习的缩放参数减少训练参数量。
原文引用 “Besides full parameter finetuning, we also adopt parameter-efficient finetuning for these audio LLMs including IA3 (Liu et al., 2022) (apply to all linear layers).”
详细示例
输入一段含噪声的语音。输出MOS3.0噪声评分4/5。优化效果通过IA3微调模型在噪声评分上的预测精度提升10%。 LoRA
特点低秩适应Low-Rank Adaptation提升模型微调效率。应用编码器与LLM的查询queries、键keys、值values矩阵。参数秩为16的低秩矩阵。
原文引用 “LoRA (Hu et al., 2021). LoRA matrix adds all queries, keys, and values into the encoder and LLM with a rank of 16.”
详细示例
输入一段含失真的语音。输出“MOS3.0失真评分2/5。”优化效果通过LoRA微调模型在失真评分上的预测精度提升15%。 2. ALLD训练设置 β \beta β值
设置 β 0.4 \beta0.4 β0.4用于增强蒸馏效果。作用控制KL散度约束的强度 β \beta β越大模型输出越接近专家LLM。
原文引用 “For ALLD, β is set as 0.4 to enhance the distillation.”
详细示例
输入一段含噪声的语音。输出 β 0.4 \beta0.4 β0.4时模型生成“MOS3.0噪声评分4/5”。 β 0.1 \beta0.1 β0.1时模型生成“MOS3.0质量一般”。 学习率
设置学习率5e-6。作用控制模型参数更新的步长较小的学习率有助于稳定训练。
原文引用 “The learning rate is set as 5e-6.”
详细示例
输入一段含背景音乐的语音。输出 学习率5e-6时模型生成“MOS3.0噪声评分4/5”。学习率1e-5时模型生成“MOS3.0质量一般”。 预热微调Warm-up Finetuning
操作使用一半训练样本进行初步训练。目的提升模型初始能力避免直接优化偏好数据时的不稳定性。
原文引用 “Half of the training examples are used for warm-up finetuning.”
详细示例
输入一段含噪声的语音。输出 预热微调前模型生成“MOS3.0”。预热微调后模型生成“MOS3.0噪声评分4/5”。 采样优化
操作在整个训练集上采样构建对比数据集 D D D。目的通过偏好优化DPO调整模型生成分布。
原文引用 “Then perform sampling on the whole training set to construct a comparison dataset D.”
详细示例
输入一段含噪声的语音。采样过程 生成初始响应 y a y_a ya“MOS3.0”。对比参考响应 y t y_t yt“MOS3.0噪声评分4/5”。优化损失调整模型参数。 要点
1. 参数高效微调- IA3应用于所有线性层减少训练参数量。- LoRA应用于编码器与LLM的查询、键、值矩阵秩为16。
2. ALLD训练设置- β0.4增强蒸馏效果。- 学习率5e-6稳定训练过程。- 预热微调使用一半训练样本提升初始能力。- 采样优化构建对比数据集D通过DPO调整生成分布。评估指标
1. MOS数值预测任务
线性相关系数LCC
定义衡量预测MOS与真实MOS的线性关系取值范围为[-1, 1]。公式 LCC Cov ( Y pred , Y true ) σ Y pred σ Y true \text{LCC} \frac{\text{Cov}(Y_{\text{pred}}, Y_{\text{true}})}{\sigma_{Y_{\text{pred}}} \sigma_{Y_{\text{true}}}} LCCσYpredσYtrueCov(Ypred,Ytrue) 其中 Cov \text{Cov} Cov为协方差 σ \sigma σ为标准差。意义LCC越接近1表示预测值与真实值的线性关系越强。
原文引用 “For MOS numerical prediction, we employ linear correlation coefficient (LCC).”
详细示例
真实MOS[3.0, 4.0, 2.5]预测MOS[3.1, 3.9, 2.6]LCC计算 协方差 Cov ( Y pred , Y true ) 0.15 \text{Cov}(Y_{\text{pred}}, Y_{\text{true}}) 0.15 Cov(Ypred,Ytrue)0.15标准差 σ Y pred 0.25 \sigma_{Y_{\text{pred}}} 0.25 σYpred0.25 σ Y true 0.5 \sigma_{Y_{\text{true}}} 0.5 σYtrue0.5LCC 0.15 0.25 × 0.5 1.2 \frac{0.15}{0.25 \times 0.5} 1.2 0.25×0.50.151.2标准化后为0.96 Spearman等级相关系数SRCC
定义衡量预测MOS与真实MOS的单调关系取值范围为[-1, 1]。公式 SRCC 1 − 6 ∑ d i 2 n ( n 2 − 1 ) \text{SRCC} 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} SRCC1−n(n2−1)6∑di2 其中 d i d_i di为预测值与真实值的等级差 n n n为样本数。意义SRCC越接近1表示预测值与真实值的单调关系越强。
原文引用 “Spearman’s rank correlation coefficient (SRCC).”
详细示例
真实MOS[3.0, 4.0, 2.5]等级[2, 3, 1]预测MOS[3.1, 3.9, 2.6]等级[2, 3, 1]SRCC计算 等级差 d i d_i di[0, 0, 0]SRCC 1 − 6 × 0 3 × ( 9 − 1 ) 1 1 - \frac{6 \times 0}{3 \times (9 - 1)} 1 1−3×(9−1)6×01 均方误差MSE
定义衡量预测MOS与真实MOS的误差值越小越好。公式 MSE 1 n ∑ i 1 n ( Y pred ( i ) − Y true ( i ) ) 2 \text{MSE} \frac{1}{n} \sum_{i1}^n (Y_{\text{pred}}^{(i)} - Y_{\text{true}}^{(i)})^2 MSEn1i1∑n(Ypred(i)−Ytrue(i))2意义MSE越小表示预测误差越小。
原文引用 “Mean square error (MSE) as evaluation metrics.”
详细示例
真实MOS[3.0, 4.0, 2.5]预测MOS[3.1, 3.9, 2.6]MSE计算 MSE ( 3.1 − 3.0 ) 2 ( 3.9 − 4.0 ) 2 ( 2.6 − 2.5 ) 2 3 0.01 0.01 0.01 3 0.01 \frac{(3.1-3.0)^2 (3.9-4.0)^2 (2.6-2.5)^2}{3} \frac{0.01 0.01 0.01}{3} 0.01 3(3.1−3.0)2(3.9−4.0)2(2.6−2.5)230.010.010.010.01 2. 描述性分析任务
BLEU分数
定义衡量生成响应与参考响应的语言质量取值范围为[0, 1]。公式基于n-gram重叠率与长度惩罚因子。意义BLEU越高表示生成响应与参考响应越匹配。
原文引用 “BLEU score is used to measure the quality of descriptive analysis.”
详细示例
参考响应“MOS3.0噪声评分4/5。”生成响应“MOS3.0噪声水平较高。”BLEU计算 1-gram重叠率3/4 0.752-gram重叠率2/3 0.67BLEU 0.71加权平均 3. A/B测试任务
准确率Acc
定义衡量模型判断的准确性计算公式为 Acc 正确判断数 总判断数 \text{Acc} \frac{\text{正确判断数}}{\text{总判断数}} Acc总判断数正确判断数意义Acc越高表示模型判断越准确。
原文引用 “For A/B test, in addition to BLEU, we count the accuracy (Acc) to evaluate whether the model provides correct judgement.”
详细示例
输入两段语音A噪声明显B失真明显。模型判断“语音A噪声更明显推荐语音A。”真实偏好语音A更优。Acc计算 正确判断数1总判断数1Acc 100%
LLaMA-3.1模型提取结果
作用从自然语言响应中提取偏好判断如“SpeechA”或“SpeechB”。指令提示“根据上下文判断SpeechA或SpeechB更优。仅输出‘[SpeechA]’或‘[SpeechB]’。”
原文引用 “Since the response is natural language, we further employ a 70B LLaMA-3.1 model to extract the result for Acc calculation. More details of instruction prompt are in Appendix B.”
详细示例
输入“语音A噪声更明显但语音B失真更严重推荐语音A。”提取结果“[SpeechA]” 4. SWD任务
准确率Acc
定义衡量模型检测合成词的准确性计算公式为 Acc 正确检测数 总检测数 \text{Acc} \frac{\text{正确检测数}}{\text{总检测数}} Acc总检测数正确检测数意义Acc越高表示模型检测能力越强。
原文引用 “Accuracy is also used for SWD evaluation.”
详细示例
输入一段语音“I ate an [synthetic] apple.”模型检测“apple”真实标签“apple”Acc计算 正确检测数1总检测数1Acc 100% 要点
1. MOS数值预测- LCC衡量线性关系越接近1越好。- SRCC衡量单调关系越接近1越好。- MSE衡量误差越小越好。
2. 描述性分析- BLEU衡量语言质量越高越好。
3. A/B测试- Acc衡量判断准确性越高越好。- LLaMA-3.1提取自然语言响应中的偏好判断。
4. SWD任务- Acc衡量检测准确性越高越好。RESULT ON MOS PREDICTION 音频大语言模型如ALLD 2×既能保持高预测性能又能生成高质量描述验证了其作为“描述性语音质量评估器”的潜力。 “2×”表示通过修改上下文学习示例和在LLM推理过程中调整温度τ生成了两次训练集总共20k样本 传统回归模型如Wav2vec2虽预测性能优秀但无法提供描述性输出适用场景受限 未见过的语音域
LIVE包括电话和Skype录音。FOR法医语音数据集。P501来自P.501标准的附录C文件。
模型比较
Wav2vec2最佳回归模型仅提供MOS值预测。ALLD音频大语言模型提供MOS值预测和描述性响应。
性能指标变化 LCC和SRCCALLD模型在FOR和P501数据集上表现更好或相近。 MSEALLD模型在所有数据集上的MSE均低于或等于Wav2vec2表明其预测更准确。 BLEUALLD模型在所有数据集上均有BLEU得分且在LIVE和P501数据集上得分更高表明其描述性响应质量更高。
域不匹配下的性能提升
尽管额外的训练样本没有引入更多的标注MOS值但ALLD模型在MSE和BLEU指标上表现更好这可能是因为描述性分析的多样性增强了模型的泛化能力 原文结论:
在这项研究中我们的目标是让音频大语言模型LLMs能够感知并评估语音质量且能提供详细的描述。
为此我们引入了一个多维度分析的语音评估语料库该语料库基于真实的人工标注分数由LLMs生成。
我们还提出了ALLD这是一种旨在提升音频LLM输出质量的token-level蒸馏方法。
实验结果表明ALLD在MOS预测和A/B测试任务上相较于传统回归模型
在LCC、SRCC和MSE指标上均有更优表现同时生成的描述性响应BLEU得分为25.8。
我们的方法是迈向能够理解真实世界听觉感知的智能模型的重要一步。