《弹道学报》
1 引言
2 弹道模型建立与求解
2.1 无控弹道方程组
2.2 弹道优化方法
3 强化学习及Q-learning算法
3.1 强化学习
3.2 Q-learning算法介绍
3.3 Q表更新方法
3.4 基于Q-learning算法的简控弹道方程组
4 仿真校验
5 结论
文章摘要:为提升弹道优化效率,缩短作战响应时间,提出了一种基于Q-learning算法的简控弹道优化方法。首先在竖直平面内以3自由度(DOF)只受重力和空气阻力的质点弹丸为研究对象,建立无控弹道方程组作为参考模型并用龙格库塔法求解。在此基础上分别以最远飞行距离和最大落点速度为目标,以加速度指令直接控制输出,建立有控弹道优化模型。在设定初速度与出射角的情况下,在弹丸的外弹道飞行过程利用Q-learning算法输出控制指令,通过强化学习迭代计算实现弹道优化目标。仿真模拟结果证明,在强化学习控制下的导弹射程比无控时明显增加,表明所提出的优化设计方法可有效优化弹道,且效率高。
文章关键词:
论文分类号:TJ76
上一篇:武器工业与军事技术论文_弹道导弹目标识别方法
下一篇:没有了