CM2026:P000110

随机矩阵视角下的逆向强化学习（IRL）奖励迁移问题与视觉语言大模型空间推理缺陷

*张阳春 (上海大学)

本报告围绕逆向强化学习（IRL）奖励迁移难题与视觉语言大模型空间推理缺陷展开研究。在IRL部分，通过将奖励视为向量并利用奇异值分解分析矩阵γP−I的奇异值，发现除零奇异值（对应断开状态）外，小非零奇异值（动态瓶颈）是迁移的主要障碍；基于随机矩阵理论，在状态维度趋向无穷的大维框架下，这些小奇异值以高概率消失，确保奖励可识别性，进而提出混合框架PPO-AIRL+SAC，结合PPO在源环境的稳定奖励恢复与SAC在目标环境的高效策略再训练，实验验证其奖励迁移性能优势。在视觉语言大模型部分，针对其在物体相对方位与三维结构等空间推理任务的缺陷，借鉴认知神经科学“双流假说”，通过注意力分析与token干预定位到模型内部空间处理“背流”缺失的结构性问题，通过显式塑造类“背流”信息通路，有效增强了模型的空间推理能力。

本报告围绕逆向强化学习（IRL）奖励迁移难题与视觉语言大模型空间推理缺陷展开研究。在IRL部分，通过将奖励视为向量并利用奇异值分解分析矩阵γP−I的奇异值，发现除零奇异值（对应断开状态）外，小非零奇异值（动态瓶颈）是迁移的主要障碍；基于随机矩阵理论，在状态维度趋向无穷的大维框架下，这些小奇异值以高概率消失，确保奖励可识别性，进而提出混合框架PPO-AIRL+SAC，结合PPO在源环境的稳定奖励恢复与SAC在目标环境的高效策略再训练，实验验证其奖励迁移性能优势。在视觉语言大模型部分，针对其在物体相对方位与三维结构等空间推理任务的缺陷，借鉴认知神经科学“双流假说”，通过注意力分析与token干预定位到模型内部空间处理“背流”缺失的结构性问题，通过显式塑造类“背流”信息通路，有效增强了模型的空间推理能力。

第十六届中国数学会计算机数学大会

随机矩阵视角下的逆向强化学习（IRL）奖励迁移问题与视觉语言大模型空间推理缺陷