Academics
行为主义:迭代学习控制与强化学习
没有标准答案,靠试错+反馈学习。迭代学习控制的二维时间视角、D/P/PD/PID 型学习律与收敛性 |I-PΓ|<1 推导;强化学习的 MDP、贝尔曼方程、Q-Learning 走房间、DQN、Actor-Critic 与 PPO/SAC/TD-MPC 算法谱系
没有标准答案,靠试错+反馈学习。迭代学习控制的二维时间视角、D/P/PD/PID 型学习律与收敛性 |I-PΓ|<1 推导;强化学习的 MDP、贝尔曼方程、Q-Learning 走房间、DQN、Actor-Critic 与 PPO/SAC/TD-MPC 算法谱系