本报告围绕逆向强化学习(IRL)奖励迁移难题与视觉语言大模型空间推理缺陷展开研究。在IRL部分,通过将奖励视为向量并利用奇异值分解分析矩阵γP−I的奇异值,发现除零奇异值(对应断开状态)外,小非零奇异值(动态瓶颈)是迁移的主要障碍;基于随机矩阵理论,在状态维度趋向无穷的大维框架下,这些小奇异值以高概率消失,确保奖励可识别性,进而提出混合框架PPO-AIRL+SAC,结合PPO在源环境的稳定奖励恢复与SAC在目标环境的高效策略再训练,实验验证其奖励迁移性能优势。在视觉语言大模型部分,针对其在物体相对方位与三维结构等空间推理任务的缺陷,借鉴认知神经科学“双流假说”,通过注意力分析与token干预定位到模型内部空间处理“背流”缺失的结构性问题,通过显式塑造类“背流”信息通路,有效增强了模型的空间推理能力。