响应式网站制作教程,重庆seo顾问,WordPress图床源码,wordpress 发送请求近年来#xff0c;以空天飞行器、高超声速飞行器等 ̈1 为典型代表的宽域飞行器蓬勃发展#xff0c;如图1所示#xff0c;其 不仅对高端装备制造、空间信息以及太空经济等领 域产生辐射带动作用#xff0c;进一步提升了中国在航空航 天领域的自主创新能力#xff0c;同时也…近年来以空天飞行器、高超声速飞行器等 ̈1 为典型代表的宽域飞行器蓬勃发展如图1所示其 不仅对高端装备制造、空间信息以及太空经济等领 域产生辐射带动作用进一步提升了中国在航空航 天领域的自主创新能力同时也催生出新质作战能 力带来战争模式的巨变成为维护国家安全的战略 重器‘2。。 由于宽域飞行器所覆盖的空域范围从几千米到 上百千米马赫数从0跨越至25甚至更高外形多 收稿日期20230224 修回日期2023—03—10 采用大升力体及复杂翼舵构型飞行器动力系统与 机体高度融合设计内外流场耦合特性显著如图2 所示严酷气动加热会引发结构弹性变形进一步加 剧气动热结构控制的耦合使动力学特性更为复 杂同时由于目前地面风洞难以准确模拟高马赫飞 行环境使得控制系统所依赖的气动参数存在较大 的天地差异旧1。因此该类飞行器具有显著的强耦 合、强非线性、强时变特征难以建立较为准确的数 学模型描述对控制系统设计提出了很多新问题与 新挑战需要持续开展控制新理论与新方法的研究 探索。 万方数据 第4期 魏毅寅等人工智能技术在宽域飞行器控制中的应用 531 图1典型宽域飞行器 Fig1 Typical wide-field vehicles (a)复杂外流场 图2复杂内外流耦合特性 Fig2 Coupling of intemal and extemal flow fields 近年来随着人工智能技术的发展和广泛应用 深度神经网络展现出良好的对多维复杂特征的泛化 表达能力使得以深度学习为代表的智能技术在图 像处理、语音识别等领域得到了成功的应用HJ因 此开展人工智能技术在飞行控制中的应用研究有 望为解决宽域飞行器高品质控制问题提供新的技术 途径。 1宽域飞行器控制技术研究现状及局限性分析 为了增强控制系统对宽域飞行器复杂特性 (强耦合、强非线性、强时变、大不确定性)的适应 能力提升控制品质国内的研究学者开展了广泛 深人的探索和研究主要采用的技术途径可以分 为两种。 第一种途径是从增强系统鲁棒性着手利用增 益调度等措施确保系统稳定裕度提升对被控对象 模型不确定性的容忍度。 基于经典控制理论的PID控制方法不依赖被 控对象的精确动力学模型易于实现且利用幅值裕 度和相位裕度可量化评估控制器鲁棒性能是目前 工程中应用最为广泛的控制方法。为增强控制系统 对复杂特性的适应能力会根据飞行器在不同任务 特征点的特性利用可观测参数对PID控制增益进 行实时调度p1。 基于现代控制理论的鲁棒控制方法其核心思 想是将模型不确定视为对系统标称条件的扰动在 保留系统精确建模部分稳定性的同时保留一定的 稳定裕度从而保证当系统存在模型不确定和外部 扰动的情况下整个系统的稳定∞J。 第二种途径是从提升系统自适应性着手利用 实时状态观测与估计辨识出被控对象关键特性提 高对飞行器模型的认知度。 白抗扰控制方法主要以PID控制构型为基础 对于具有大不确定性和复杂非线性等特性的飞行 器考虑到飞行过程中所受的外界干扰等影响采用 扩张状态观测器对被控对象的状态和干扰进行观 测通过状态误差反馈对不确定干扰因素进行补 偿从而实现抑制干扰和精确跟踪指令【8 J。 非线性动态逆控制方法的核心为通过非线性动 态逆来消除系统中存在的非线性从而实现系统的 “伪线性化”在此基础上可以采用其他线性化和非 线性化方法设计系统控制器实现对非线性系统的 控制。针对被控对象存在的模型不确定性和外界干 扰可以利用状态观测对模型进行辨识补偿再利用 非线性动态逆方法获得理想的控制品质 ̈0|。 上述两种途径能够在一定程度上提高控制系统对 复杂特性的适应能力但是随着宽域飞行器任务剖面 万方数据 532 宇航学报 第44卷 更加多样飞行空域速域跨度更广外形特性更为复 杂现有的控制方法逐渐暴露出一定的应用局限陛。 1)对于利用飞行特征参数进行增益调度的途 径针对特性复杂度较高的宽域飞行器可能对应同 一飞行特征点动力学特性存在较大范围的变化且 表征该变化的特性参数为隐性不可观测因此会导 致无法对控制增益进行有效的调度 ̈1|。以某一飞 行特征点为例当在该特征点气动压心存在较大范 围的不确定性时虽然控制参数能够保证在基准状 态下性能稳定但是由于压心变化特性不可观测控 制参数无法跟随该状态变化做出及时调整导致控 制参数与飞行器特性不匹配从而出现稳定裕度下 降、控制失稳的现象。两种状态下的定点时域响应 情况如图3所示。 图3定点状态下时域响应对比 Fig3 Comparison of step responses 2)对于利用实时状态观测和补偿来提升对模 型认知度的途径由于采用的状态观测器自身也需 要依靠基础的被控对象模型建立状态方程和观测方 程但是当被控对象模型复杂度过高难以直观采用 状态空间进行数学表达因此建立状态观测器所使 用的模型相对真实模型存在偏差进而影响其状态 估计与辨识的精度大大削弱观测补偿效果甚至可 能失效。 2人工智能技术在宽域飞行器控制中的应用研究 随着近年人工智能技术的飞跃发展以机器学 习算法为代表的智能算法研究引领了第三次人工智 能浪潮其中深度神经网络由于具备映射能力好、学 习能力强、适应性广、纯数据驱动等优点在图像识 别、自然语言处理、健康医疗等任务中得到非常广泛 而成功的应用。作为机器学习中的重要组成分支 强化学习针对马尔可夫决策问题通过与被控对象 的不断交互和迭代学习生成可供全局决策的最优 策略可用于解决智能决策问题。而进一步将深度 神经网络与强化学习相结合形成深度强化学习更 适合解决复杂且难以建模的应用场景问题围棋 AlphaZero使用的就是深度强化学习算法。 针对前述分析的现有控制方法在宽域飞行器控 制中可能存在的局限性本文重点从两种技术途径 出发就人工智能技术在飞行控制中的应用开展研 究。第一种是基于智能特征辨识的控制方法即利 用深度神经网络辨识飞行器隐性关键特征实现控 制增益的精准调度提升对不确定性的自适应能力 第二种是基于深度强化学习的控制方法利用深度 神经网络建立神经网络动力学对飞行动力学的映射 表达以指令信号和实时状态为神经网络输入以执 行机构控制信号为神经网络输出实现“端对端”控 制弱化对飞行器复杂动力学建模的依赖。以下结 合典型示例对两种途径的研究情况进行介绍。 21基于智能特征辨识的控制方法 仍以前述气动压心存在不确定性的情况为例 当在相同飞行状态(相同的高度、速度、姿态)下飞 行器气动压心可能存在较大范围变化时由于压心 变化为隐性特征不可观测因此会造成控制增益无 法根据实际特性做出及时调整从而导致控制性能 恶化严重时可能出现失控的情况。为此考虑利用 深度神经网络的泛化特征拟合能力构建智能观测 器对表征气动压心变化的动力系数进行辨识并利 用辨识结果进行增益调度以提升对飞行器特性的 大范围变化的适应能力。辨识原理如图4所示。 万方数据 第4期 魏毅寅等人工智能技术在宽域飞行器控制中的应用 533 图4基于智能特性辨识的控制方法原理图 Fig4 Schematic diagram of the control method based on intelligent characteristic identification 根据飞行动力学n2|基于系数冻结和小扰动线 性化处理可以得到飞行器纵向短周期扰动运动 方程 了d2AO。22学。24△d幽1厂2 022—矿024触讹25酗 警弘。△a怕她 q’ A毋A0-I-Ad 式中△毋A0△dA8分别是俯仰角、弹道倾角、 攻角和升降舵舵偏角的扰动偏量oII是动力系数 Mzg。12 miz022 2丁2可 蟛 573qslm2 2丁2—r 职。 573qslm2 (2) 2了2—r — PP P-t-573qsc 。2百2——忑厂一 产 573qsc8 035 2丽2—矿 式中o为阻尼动力系数口。为静稳定动力系数。笛 为操纵动力系数口。为法向力动力系数口弘为舵面 动力系数。因为口M能够表征飞行器气动压心变化 的情况因此将其作为神经网络辨识输出。 参数辨识网络设计为包含BatchNormal层的残 差网络如图5所示。 特征输入 网络输出 网一巨到一 网一巨到一 图5参数辨识网络结构 Fig5 Structure of the parameter identification network 通过对口M理论计算公式和气动参数影响因素 进行分析确定。拼辨识网络的输入如表1所示。 表1辨识网络输入特征参数 Table 1 Input characteristic parameters of the identification network 利用六自由度弹道仿真数据构建训练和测试样 本对网络参数进行训练将通过测试集测试的参数 辨识网络移植人六自由度弹道仿真中静不稳定度 辨识结果如图6所示辨识误差不大于10。仿真 结果表明所设计的辨识网络能够实现较好的静稳定 度辨识性能根据辨识结果实时调整控制参数可有 效提高现有控制方法对不确定度的适应能力。 22基于深度强化学习的控制方法 基于深度强化学习的智能控制方法是直接将深 度神经网络作为控制器利用控制网络与训练环境 的交互产生训练数据并按照设计的评价准则逐步 改善网络的控制性能最后学习到满足精度需求的 控制器。 万方数据 534 宇航学报 第44卷 时问s a)a24预测结果 图6参数辨识结果 Fig6 Results of parameter identification 基于深度强化学习的智能控制方法分为地面训 练阶段和线上部署阶段两个环节。控制系统原理如 图7所示。 工作原理为策略网络以系统状态s为输人生成 控制动作口强化学习训练环境输入控制动作口后 进行动力学解算并向策略网络反馈系统当前状态 s、当前控制动作o、奖励值r和下一时刻状态S一评 估网络以系统状态Is为输入预测状态值口(s)。分 别利用行动值q(sn)与理论状态值Yi更新策略网 络参数和评估网络参数直至收敛获得满足精度要 求的控制网络参数。 E行控制th0 图7基于深度强化学习的智能控制原理图 Fig7 Schematic diagram of the intelligent control method based on deep reinforcement learning 基于端到端架构的智能控制器根据飞行状态 直接产生控制信号不同的控制网络直接影响控制 器训练速度和控制精度。本文设计了一种卷积神经 网络控制网络结构如图8所示。 输入特f『f 5 9 Fig8 ● 撕愀l” 堑?511qf。’渺输⋯ 图8深度卷积神经网络结构图 Structure of deep convolutional neural network 在设计奖励值函数时要充分考虑控制网络所产 生控制信号的分布情况。设计的奖励函数如下 R。一sat(』旦专}』丛。A) 耻一t(岩oA) RIR。R。R6 肛l16p2180肛320 Al05A2025A3025 、√j一 万方数据 第4期 魏毅寅等人工智能技术在宽域飞行器控制中的应用 535 式中sat(o6c)为饱和函数(对变量。进行范围判 断b为函数输出下界C为函数输出上界)a。为攻 角指令仗为实际攻角∞为俯仰角速度嚣为t时 刻俯仰舵偏角piA为权重系数地对相关奖励 函数参数进行归一化处理提高算法收敛速度选值 需要根据具体使用的参数物理意义确定A i为不同 奖励部分的权重参数用于平衡系统响应的稳定性 能和快速性能需要根据具体控制问题的性能需求 进行设计R。代表了由攻角偏差计算得到的奖励 值R。为弹体角速度产生的奖励值R。为综合考虑 连续5个时刻控制信号偏差的奖励值控制信号偏 差越小奖励值越大R。为控制器与训练环境进行 一次交互所得奖励值。 设计攻角指令利用深度神经网络控制器实现 对攻角指令跟踪训练中攻角指令在4。8。之间随 机取值测试时选择4。一12。之间的指令进行仿真 结果如图9所示。 图9角控制结果 Fig9 Results of angle of attack control 可以看到神经网络控制器很好地跟踪了控制指 令在控制器训练中训练数据虽然仅仅覆盖到4。 攻角指令和8。攻角指令之间但当给人训练数据范 围之外的12。攻角指令时神经网络控制器仍能够 很好地实现控制指令跟踪跟踪误差小于5。仿 真结果表明神经网络控制器可以实现飞行器姿态 稳定控制且具有一定的泛化性能。 3未来持续研究方向展望 人工智能技术与宽域飞行器控制技术相融合具 有显著的学术和应用前景但是在探索之路上还应 保持清醒的认识不能过度神话人工智能技术的能 力应重点围绕经典动力学、飞行控制技术与人工智 能技术的创新性结合面向未来真正的转化应用持 续探索推进。以下结合目前的研究进展提出几点 未来需要进一步深入研究的方向展望。 1)加强智能动力学建模技术研究 宽域飞行器控制最大的难题在于其复杂动力学 特性的模型表达。目前进行探索的人工智能与飞行 控制的结合途径更多关注的是控制本身而对动力 学部分关注比较少。由于飞行动力学具有比较成熟 的模型基本形式和解析表达式这些先验信息的充 分利用可有效降低问题的复杂性和学习样本的需求 量因此在动力学建模中融合人工智能技术相对控 制技术融合具有更加明显的优势更加易于人工智 能算法学习的实现 ̈5|。若在此方向可以结合飞行 动力学取得突破则更加有望在实际飞行器中得到 应用。 2)加深在线“自学习”技术研究 人工智能当前仍处于计算智能阶段在地面利 用样本数据对所构建的网络进行训练和测试其中 样本数据能覆盖所认知的不确定范围之后再移植 至飞行器进行在线应用 ̈6|。训练好的神经网络只 在训练集和测试集范围内具有可靠的表现无范围 外的推演能力。若飞行中遇到超出不确定认知范围 的情况其控制特性将难以得到保证。因此探索能 够在线实时进行网络参数学习调整的“自学习”技 术的可行性是进一步提高飞行控制适应能力的有 效途径。 3)加快智能技术基础能力建设 智能化技术应用的硬件基础是嵌入式芯片核 心是智能算法因此需要开展能够支撑神经网络高 动态实时计算的自主可控智能芯片构建自主可控 万方数据 536 宇航学报 第44卷近年来以空天飞行器、高超声速飞行器等 ̈1 为典型代表的宽域飞行器蓬勃发展如图1所示其 不仅对高端装备制造、空间信息以及太空经济等领 域产生辐射带动作用进一步提升了中国在航空航 天领域的自主创新能力同时也催生出新质作战能 力带来战争模式的巨变成为维护国家安全的战略 重器‘2。。 由于宽域飞行器所覆盖的空域范围从几千米到 上百千米马赫数从0跨越至25甚至更高外形多 收稿日期20230224 修回日期2023—03—10 采用大升力体及复杂翼舵构型飞行器动力系统与 机体高度融合设计内外流场耦合特性显著如图2 所示严酷气动加热会引发结构弹性变形进一步加 剧气动热结构控制的耦合使动力学特性更为复 杂同时由于目前地面风洞难以准确模拟高马赫飞 行环境使得控制系统所依赖的气动参数存在较大 的天地差异旧1。因此该类飞行器具有显著的强耦 合、强非线性、强时变特征难以建立较为准确的数 学模型描述对控制系统设计提出了很多新问题与 新挑战需要持续开展控制新理论与新方法的研究 探索。 万方数据 第4期 魏毅寅等人工智能技术在宽域飞行器控制中的应用 531 图1典型宽域飞行器 Fig1 Typical wide-field vehicles (a)复杂外流场 图2复杂内外流耦合特性 Fig2 Coupling of intemal and extemal flow fields 近年来随着人工智能技术的发展和广泛应用 深度神经网络展现出良好的对多维复杂特征的泛化 表达能力使得以深度学习为代表的智能技术在图 像处理、语音识别等领域得到了成功的应用HJ因 此开展人工智能技术在飞行控制中的应用研究有 望为解决宽域飞行器高品质控制问题提供新的技术 途径。 1宽域飞行器控制技术研究现状及局限性分析 为了增强控制系统对宽域飞行器复杂特性 (强耦合、强非线性、强时变、大不确定性)的适应 能力提升控制品质国内的研究学者开展了广泛 深人的探索和研究主要采用的技术途径可以分 为两种。 第一种途径是从增强系统鲁棒性着手利用增 益调度等措施确保系统稳定裕度提升对被控对象 模型不确定性的容忍度。 基于经典控制理论的PID控制方法不依赖被 控对象的精确动力学模型易于实现且利用幅值裕 度和相位裕度可量化评估控制器鲁棒性能是目前 工程中应用最为广泛的控制方法。为增强控制系统 对复杂特性的适应能力会根据飞行器在不同任务 特征点的特性利用可观测参数对PID控制增益进 行实时调度p1。 基于现代控制理论的鲁棒控制方法其核心思 想是将模型不确定视为对系统标称条件的扰动在 保留系统精确建模部分稳定性的同时保留一定的 稳定裕度从而保证当系统存在模型不确定和外部 扰动的情况下整个系统的稳定∞J。 第二种途径是从提升系统自适应性着手利用 实时状态观测与估计辨识出被控对象关键特性提 高对飞行器模型的认知度。 白抗扰控制方法主要以PID控制构型为基础 对于具有大不确定性和复杂非线性等特性的飞行 器考虑到飞行过程中所受的外界干扰等影响采用 扩张状态观测器对被控对象的状态和干扰进行观 测通过状态误差反馈对不确定干扰因素进行补 偿从而实现抑制干扰和精确跟踪指令【8 J。 非线性动态逆控制方法的核心为通过非线性动 态逆来消除系统中存在的非线性从而实现系统的 “伪线性化”在此基础上可以采用其他线性化和非 线性化方法设计系统控制器实现对非线性系统的 控制。针对被控对象存在的模型不确定性和外界干 扰可以利用状态观测对模型进行辨识补偿再利用 非线性动态逆方法获得理想的控制品质 ̈0|。 上述两种途径能够在一定程度上提高控制系统对 复杂特性的适应能力但是随着宽域飞行器任务剖面 万方数据 532 宇航学报 第44卷 更加多样飞行空域速域跨度更广外形特性更为复 杂现有的控制方法逐渐暴露出一定的应用局限陛。 1)对于利用飞行特征参数进行增益调度的途 径针对特性复杂度较高的宽域飞行器可能对应同 一飞行特征点动力学特性存在较大范围的变化且 表征该变化的特性参数为隐性不可观测因此会导 致无法对控制增益进行有效的调度 ̈1|。以某一飞 行特征点为例当在该特征点气动压心存在较大范 围的不确定性时虽然控制参数能够保证在基准状 态下性能稳定但是由于压心变化特性不可观测控 制参数无法跟随该状态变化做出及时调整导致控 制参数与飞行器特性不匹配从而出现稳定裕度下 降、控制失稳的现象。两种状态下的定点时域响应 情况如图3所示。 图3定点状态下时域响应对比 Fig3 Comparison of step responses 2)对于利用实时状态观测和补偿来提升对模 型认知度的途径由于采用的状态观测器自身也需 要依靠基础的被控对象模型建立状态方程和观测方 程但是当被控对象模型复杂度过高难以直观采用 状态空间进行数学表达因此建立状态观测器所使 用的模型相对真实模型存在偏差进而影响其状态 估计与辨识的精度大大削弱观测补偿效果甚至可 能失效。 2人工智能技术在宽域飞行器控制中的应用研究 随着近年人工智能技术的飞跃发展以机器学 习算法为代表的智能算法研究引领了第三次人工智 能浪潮其中深度神经网络由于具备映射能力好、学 习能力强、适应性广、纯数据驱动等优点在图像识 别、自然语言处理、健康医疗等任务中得到非常广泛 而成功的应用。作为机器学习中的重要组成分支 强化学习针对马尔可夫决策问题通过与被控对象 的不断交互和迭代学习生成可供全局决策的最优 策略可用于解决智能决策问题。而进一步将深度 神经网络与强化学习相结合形成深度强化学习更 适合解决复杂且难以建模的应用场景问题围棋 AlphaZero使用的就是深度强化学习算法。 针对前述分析的现有控制方法在宽域飞行器控 制中可能存在的局限性本文重点从两种技术途径 出发就人工智能技术在飞行控制中的应用开展研 究。第一种是基于智能特征辨识的控制方法即利 用深度神经网络辨识飞行器隐性关键特征实现控 制增益的精准调度提升对不确定性的自适应能力 第二种是基于深度强化学习的控制方法利用深度 神经网络建立神经网络动力学对飞行动力学的映射 表达以指令信号和实时状态为神经网络输入以执 行机构控制信号为神经网络输出实现“端对端”控 制弱化对飞行器复杂动力学建模的依赖。以下结 合典型示例对两种途径的研究情况进行介绍。 21基于智能特征辨识的控制方法 仍以前述气动压心存在不确定性的情况为例 当在相同飞行状态(相同的高度、速度、姿态)下飞 行器气动压心可能存在较大范围变化时由于压心 变化为隐性特征不可观测因此会造成控制增益无 法根据实际特性做出及时调整从而导致控制性能 恶化严重时可能出现失控的情况。为此考虑利用 深度神经网络的泛化特征拟合能力构建智能观测 器对表征气动压心变化的动力系数进行辨识并利 用辨识结果进行增益调度以提升对飞行器特性的 大范围变化的适应能力。辨识原理如图4所示。 万方数据 第4期 魏毅寅等人工智能技术在宽域飞行器控制中的应用 533 图4基于智能特性辨识的控制方法原理图 Fig4 Schematic diagram of the control method based on intelligent characteristic identification 根据飞行动力学n2|基于系数冻结和小扰动线 性化处理可以得到飞行器纵向短周期扰动运动 方程 了d2AO。22学。24△d幽1厂2 022—矿024触讹25酗 警弘。△a怕她 q’ A毋A0-I-Ad 式中△毋A0△dA8分别是俯仰角、弹道倾角、 攻角和升降舵舵偏角的扰动偏量oII是动力系数 Mzg。12 miz022 2丁2可 蟛 573qslm2 2丁2—r 职。 573qslm2 (2) 2了2—r — PP P-t-573qsc 。2百2——忑厂一 产 573qsc8 035 2丽2—矿 式中o为阻尼动力系数口。为静稳定动力系数。笛 为操纵动力系数口。为法向力动力系数口弘为舵面 动力系数。因为口M能够表征飞行器气动压心变化 的情况因此将其作为神经网络辨识输出。 参数辨识网络设计为包含BatchNormal层的残 差网络如图5所示。 特征输入 网络输出 网一巨到一 网一巨到一 图5参数辨识网络结构 Fig5 Structure of the parameter identification network 通过对口M理论计算公式和气动参数影响因素 进行分析确定。拼辨识网络的输入如表1所示。 表1辨识网络输入特征参数 Table 1 Input characteristic parameters of the identification network 利用六自由度弹道仿真数据构建训练和测试样 本对网络参数进行训练将通过测试集测试的参数 辨识网络移植人六自由度弹道仿真中静不稳定度 辨识结果如图6所示辨识误差不大于10。仿真 结果表明所设计的辨识网络能够实现较好的静稳定 度辨识性能根据辨识结果实时调整控制参数可有 效提高现有控制方法对不确定度的适应能力。 22基于深度强化学习的控制方法 基于深度强化学习的智能控制方法是直接将深 度神经网络作为控制器利用控制网络与训练环境 的交互产生训练数据并按照设计的评价准则逐步 改善网络的控制性能最后学习到满足精度需求的 控制器。 万方数据 534 宇航学报 第44卷 时问s a)a24预测结果 图6参数辨识结果 Fig6 Results of parameter identification 基于深度强化学习的智能控制方法分为地面训 练阶段和线上部署阶段两个环节。控制系统原理如 图7所示。 工作原理为策略网络以系统状态s为输人生成 控制动作口强化学习训练环境输入控制动作口后 进行动力学解算并向策略网络反馈系统当前状态 s、当前控制动作o、奖励值r和下一时刻状态S一评 估网络以系统状态Is为输入预测状态值口(s)。分 别利用行动值q(sn)与理论状态值Yi更新策略网 络参数和评估网络参数直至收敛获得满足精度要 求的控制网络参数。 E行控制th0 图7基于深度强化学习的智能控制原理图 Fig7 Schematic diagram of the intelligent control method based on deep reinforcement learning 基于端到端架构的智能控制器根据飞行状态 直接产生控制信号不同的控制网络直接影响控制 器训练速度和控制精度。本文设计了一种卷积神经 网络控制网络结构如图8所示。 输入特f『f 5 9 Fig8 ● 撕愀l” 堑?511qf。’渺输⋯ 图8深度卷积神经网络结构图 Structure of deep convolutional neural network 在设计奖励值函数时要充分考虑控制网络所产 生控制信号的分布情况。设计的奖励函数如下 R。一sat(』旦专}』丛。A) 耻一t(岩oA) RIR。R。R6 肛l16p2180肛320 Al05A2025A3025 、√j一 万方数据 第4期 魏毅寅等人工智能技术在宽域飞行器控制中的应用 535 式中sat(o6c)为饱和函数(对变量。进行范围判 断b为函数输出下界C为函数输出上界)a。为攻 角指令仗为实际攻角∞为俯仰角速度嚣为t时 刻俯仰舵偏角piA为权重系数地对相关奖励 函数参数进行归一化处理提高算法收敛速度选值 需要根据具体使用的参数物理意义确定A i为不同 奖励部分的权重参数用于平衡系统响应的稳定性 能和快速性能需要根据具体控制问题的性能需求 进行设计R。代表了由攻角偏差计算得到的奖励 值R。为弹体角速度产生的奖励值R。为综合考虑 连续5个时刻控制信号偏差的奖励值控制信号偏 差越小奖励值越大R。为控制器与训练环境进行 一次交互所得奖励值。 设计攻角指令利用深度神经网络控制器实现 对攻角指令跟踪训练中攻角指令在4。8。之间随 机取值测试时选择4。一12。之间的指令进行仿真 结果如图9所示。 图9角控制结果 Fig9 Results of angle of attack control 可以看到神经网络控制器很好地跟踪了控制指 令在控制器训练中训练数据虽然仅仅覆盖到4。 攻角指令和8。攻角指令之间但当给人训练数据范 围之外的12。攻角指令时神经网络控制器仍能够 很好地实现控制指令跟踪跟踪误差小于5。仿 真结果表明神经网络控制器可以实现飞行器姿态 稳定控制且具有一定的泛化性能。 3未来持续研究方向展望 人工智能技术与宽域飞行器控制技术相融合具 有显著的学术和应用前景但是在探索之路上还应 保持清醒的认识不能过度神话人工智能技术的能 力应重点围绕经典动力学、飞行控制技术与人工智 能技术的创新性结合面向未来真正的转化应用持 续探索推进。以下结合目前的研究进展提出几点 未来需要进一步深入研究的方向展望。 1)加强智能动力学建模技术研究 宽域飞行器控制最大的难题在于其复杂动力学 特性的模型表达。目前进行探索的人工智能与飞行 控制的结合途径更多关注的是控制本身而对动力 学部分关注比较少。由于飞行动力学具有比较成熟 的模型基本形式和解析表达式这些先验信息的充 分利用可有效降低问题的复杂性和学习样本的需求 量因此在动力学建模中融合人工智能技术相对控 制技术融合具有更加明显的优势更加易于人工智 能算法学习的实现 ̈5|。若在此方向可以结合飞行 动力学取得突破则更加有望在实际飞行器中得到 应用。 2)加深在线“自学习”技术研究 人工智能当前仍处于计算智能阶段在地面利 用样本数据对所构建的网络进行训练和测试其中 样本数据能覆盖所认知的不确定范围之后再移植 至飞行器进行在线应用 ̈6|。训练好的神经网络只 在训练集和测试集范围内具有可靠的表现无范围 外的推演能力。若飞行中遇到超出不确定认知范围 的情况其控制特性将难以得到保证。因此探索能 够在线实时进行网络参数学习调整的“自学习”技 术的可行性是进一步提高飞行控制适应能力的有 效途径。 3)加快智能技术基础能力建设 智能化技术应用的硬件基础是嵌入式芯片核 心是智能算法因此需要开展能够支撑神经网络高 动态实时计算的自主可控智能芯片构建自主可控 万方数据 536 宇航学报 第44卷