Files

T

Serendipity e8b51240f9 feat: 添加DQN强化学习项目框架和核心实现

实现完整的DQN算法框架，用于Atari Space Invaders游戏训练。包括：
- QNetwork和DuelingQNetwork神经网络架构
- 经验回放缓冲区（标准和优先级版本）
- DQN智能体实现ε-greedy策略和Double DQN
- 环境包装器（灰度化、调整大小、帧堆叠等）
- 训练器、评估脚本和图表生成工具
- 详细的项目文档和依赖配置

2026-05-01 10:01:12 +08:00

docs

feat: 添加GPU检测与自动回退逻辑并移除冗余文档

2026-04-30 15:04:29 +08:00

logs/tensorboard

docs: 添加课程资料与更新作业要求文档

2026-05-01 09:47:09 +08:00

models

feat: 添加并行训练脚本和奖励塑形以改进PPO性能

2026-05-01 09:26:39 +08:00

src

feat: 添加DQN强化学习项目框架和核心实现

2026-05-01 10:01:12 +08:00

tex

docs: 添加强化学习项目报告及相关文件

2026-04-30 22:59:14 +08:00

CW1_1234560.pdf

docs: 添加强化学习项目报告及相关文件

2026-04-30 22:59:14 +08:00

CW1_1234560.zip

docs: 添加强化学习项目报告及相关文件

2026-04-30 22:59:14 +08:00

generate_plots.py

fix(ppo): 修正日志概率维度与状态张量格式

2026-04-30 20:30:40 +08:00

pyproject.toml

fix(ppo): 修正日志概率维度与状态张量格式

2026-04-30 20:30:40 +08:00

README.md

feat: 添加强化学习项目报告及重构课程作业报告代码结构

2026-04-30 16:54:41 +08:00

requirements.txt

chore: 更新项目文档、依赖和训练脚本

2026-05-01 09:26:23 +08:00

TASK_PROGRESS.md

chore: 更新项目文档、依赖和训练脚本

2026-05-01 09:26:23 +08:00

train_improved.py

chore: 更新项目文档、依赖和训练脚本

2026-05-01 09:26:23 +08:00

train_parallel_improved.py

feat: 添加并行训练脚本和奖励塑形以改进PPO性能

2026-05-01 09:26:39 +08:00

train.py

fix(ppo): 修正日志概率维度与状态张量格式

2026-04-30 20:30:40 +08:00

training_curves.png

fix(ppo): 修正日志概率维度与状态张量格式

2026-04-30 20:30:40 +08:00

uv.lock

docs: 添加强化学习项目报告及相关文件

2026-04-30 22:59:14 +08:00

README.md

PPO for CarRacing-v3

From-scratch PPO implementation for CarRacing-v3. No Stable-Baselines or other RL libraries used.

Setup

conda activate my_env
uv pip install -r requirements.txt

Train

python train.py --steps 500000

Evaluate

python src/evaluate.py --model models/ppo_carracing_final.pt --episodes 10

TensorBoard

tensorboard --logdir logs/tensorboard

Project Structure

src/
├── network.py       # Actor (Gaussian policy) and Critic (Value) networks
├── replay_buffer.py  # Rollout buffer with GAE computation
├── trainer.py        # PPO update with clipped surrogate objective
├── utils.py          # Environment wrappers (grayscale, resize, frame stack)
└── evaluate.py       # Evaluation script
train.py              # Main training entry point
models/               # Saved checkpoints
logs/tensorboard/     # TensorBoard logs

Hyperparameters

Parameter	Value
Learning rate	3e-4
Gamma	0.99
GAE lambda	0.95
Clip epsilon	0.2
PPO epochs	4
Mini-batch size	64
Rollout steps	2048
Entropy coefficient	0.01
Value coefficient	0.5
Max gradient norm	0.5