b32490ae0372b1159ec03db460c0dc7c40d7b667
修复 replay buffer 中 log_probs 的维度错误,从 (buffer_size, action_dim) 改为 buffer_size 修正训练时状态张量格式,从 (N, H, W, C) 转换为 (N, C, H, W) 更新 collect_rollout 返回观测值并修正 log_prob 计算 添加项目配置文件和训练曲线生成脚本
Description
No description provided
Languages
Jupyter Notebook
52.3%
Python
33.9%
TeX
13.8%