PedagogyRL-Experiments - a OpenLearnLM Collection

OpenLearnLM 's Collections

PedagogyRL-Experiments

PedagogyRL-Experiments

updated 19 days ago

OpenLearnLM/deepseek_qwen3_8b_pedagogical_think_reward_grpo_step_300

8B • Updated Jul 9, 2025 • 15
OpenLearnLM/deepseek_qwen3_8b_pedagogical_think_noreward_grpo_step_300

8B • Updated Jul 9, 2025 • 20
OpenLearnLM/deepseek_qwen3_8b_think_noreward_grpo_step_300

8B • Updated Jul 9, 2025 • 22
OpenLearnLM/deepseek_qwen3_8b_think_reward_grpo_step_300

8B • Updated Jul 9, 2025 • 49
OpenLearnLM/qwen2.5_7b_nothink_noreward_grpo_step_300

8B • Updated 19 days ago • 45