hzx's picture

hzx

hzxllll

·

AI & ML interests

None yet

Recent Activity

upvoted a paper about 5 hours ago

Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models

commented on a paper 5 days ago

Does Your Reasoning Model Implicitly Know When to Stop Thinking?

upvoted a paper 5 days ago

MMGenBench: Fully Automatically Evaluating LMMs from the Text-to-Image Generation Perspective

View all activity

Organizations

None yet

upvoted a paper about 5 hours ago

Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models

Paper • 2508.10751 • Published Aug 14, 2025 • 29

commented a paper 5 days ago

Does Your Reasoning Model Implicitly Know When to Stop Thinking?

Paper • 2602.08354 • Published 19 days ago • 211 •

upvoted a paper 5 days ago

MMGenBench: Fully Automatically Evaluating LMMs from the Text-to-Image Generation Perspective

Paper • 2411.14062 • Published Nov 21, 2024 • 1

authored 3 papers 5 days ago

MMGenBench: Fully Automatically Evaluating LMMs from the Text-to-Image Generation Perspective

Paper • 2411.14062 • Published Nov 21, 2024 • 1

Weak-Driven Learning: How Weak Agents make Strong Agents Stronger

Paper • 2602.08222 • Published 19 days ago • 272

Does Your Reasoning Model Implicitly Know When to Stop Thinking?

Paper • 2602.08354 • Published 19 days ago • 211

upvoted a paper 5 days ago

Does Your Reasoning Model Implicitly Know When to Stop Thinking?

Paper • 2602.08354 • Published 19 days ago • 211

upvoted 3 papers 16 days ago

Reinforcement Learning via Self-Distillation

Paper • 2601.20802 • Published about 1 month ago • 40

Your Group-Relative Advantage Is Biased

Paper • 2601.08521 • Published Jan 13 • 155

Weak-Driven Learning: How Weak Agents make Strong Agents Stronger

Paper • 2602.08222 • Published 19 days ago • 272

upvoted 2 papers 25 days ago

Adaptive Batch-Wise Sample Scheduling for Direct Preference Optimization

Paper • 2506.17252 • Published Jun 8, 2025 • 2

Agentic Reasoning for Large Language Models

Paper • 2601.12538 • Published Jan 18 • 198

authored 2 papers 26 days ago

Real-Time Aligned Reward Model beyond Semantics

Paper • 2601.22664 • Published 29 days ago • 13

Adaptive Batch-Wise Sample Scheduling for Direct Preference Optimization

Paper • 2506.17252 • Published Jun 8, 2025 • 2

upvoted 2 papers 26 days ago

Real-Time Aligned Reward Model beyond Semantics

Paper • 2601.22664 • Published 29 days ago • 13

TTCS: Test-Time Curriculum Synthesis for Self-Evolving

Paper • 2601.22628 • Published 29 days ago • 35

liked a dataset over 1 year ago

LanguageBind/MoE-LLaVA

Preview • Updated Mar 7, 2025 • 252 • 12