#迭代学习控制 | L.D.J 的私家工坊

Academics

没有标准答案，靠试错+反馈学习。迭代学习控制的二维时间视角、D/P/PD/PID 型学习律与收敛性 |I-PΓ|<1 推导；强化学习的 MDP、贝尔曼方程、Q-Learning 走房间、DQN、Actor-Critic 与 PPO/SAC/TD-MPC 算法谱系

2026年6月29日

#迭代学习控制 (1 post)