fb09e66d09
- 将原始单环境训练代码重构为模块化结构,添加向量化环境支持以提高数据采集效率 - 实现完整的PPO训练流水线,包括共享CNN的Actor-Critic网络、向量化经验回放缓冲和GAE优势估计 - 添加训练脚本(train_vec.py)、评估脚本(evaluate.py)和SB3基线对比脚本(train_sb3_baseline.py) - 提供详细的文档和开发日志,包含问题解决记录和实验分析 - 移除旧版项目文件,统一项目结构到CW1_id_name目录下
11 lines
250 B
Plaintext
11 lines
250 B
Plaintext
gymnasium[box2d]>=0.29
|
|
numpy
|
|
torch>=2.0
|
|
opencv-python
|
|
matplotlib
|
|
tensorboard
|
|
imageio
|
|
imageio-ffmpeg
|
|
tqdm
|
|
stable-baselines3
|