new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Jul 17

Submitted by

xtma

LongStraw: Long-Context RL Beyond 2M Tokens under a Fixed GPU Budget

mindlab-research

Submitted by

lmwang

VideoChat3: Fully Open Video MLLM for Efficient and Generalist Video Understanding

MCG-NJU

Multimedia Computing Group-Nanjing University

Submitted by

Jinyang23

SEED: Self-Evolving On-Policy Distillation for Agentic Reinforcement Learning

·
11 authors

Submitted by

taesiri

SearchOS-V1: Towards Robust Open-Domain Information-Seeking Agent Collaboration

antgroup

Submitted by

LIQIIIII

BadWAM: When World-Action Models Dream Right but Act Wrong

·
3 authors

Submitted by

DogNeverSleep

KeyFrame-Compass: Towards Comprehensive Evaluation of Keyframe-Conditioned Video Generation

KlingTeam

Submitted by

DogNeverSleep

MultiRef-Compass: Towards Comprehensive Evaluation of Multi-Reference-to-Audio-Video Generation

KlingTeam

Submitted by

maverickrzw

UniVR: Thinking in Visual Space for Unified Visual Reasoning

ByteDance

Submitted by

kpzhang996

From Pixels to States: Rethinking Interactive World Models as Game Engines

AlayaLab

Submitted by

lmquan

Concurrent Image Understanding and Generation: Self-Correcting Coupled Markov Jump Processes

google

Submitted by

c7w

Spectral Rewiring for Exploration, Purification, and Model Merging

·
8 authors

Submitted by

hhyhrhy

RxBrain: Embodied Cognition Foundation Model with Joint Language-Visual Reasoning and Imagination

·
30 authors

Submitted by

lhhuang

Video = World + Event Stream

Wan-AI

Submitted by

Ray121381

Demystifying On-Policy Distillation: Roles, Pathologies, and Regulations

·
7 authors

Submitted by

taesiri

RoboTTT: Context Scaling for Robot Policies

nvidia

Submitted by

taesiri

MeanFlowNFT: Bringing Forward-Process RL to Average-Velocity Generators

Tencent-Hunyuan

Tencent Hunyuan

Submitted by

yifAI

DeepLoop: Depth Scaling for Looped Transformers

math-ai

Submitted by

taesiri

WanSong v1.0 Technical Report

Wan-AI

Submitted by

Corbenic

Smarter and Cheaper at Once: Byte-Exact KV-Cache Grafting Turns a Frozen Small Model into a Verified-Knowledge Flywheel

Corbenci

Submitted by

Lanxingxuan

VIABench: A Comprehensive Video Benchmark Collected from Blind Individuals for Visual Impairment Assistance

NJU

Nanjing University

Submitted by

patrikwolf

Partition, Prompt, Aggregate: Statistical Self-Consistency in Language Models

·
4 authors

Submitted by

saadejazz

SUFLECA: Scaling Up Feature Learning for CAD-to-image Alignment

·
5 authors

Submitted by

zzhongyj

AsySplat: Efficient Asymmetric 3D Gaussian Splatting for Long-Sequence Scene Modeling

Submitted by

pbansal

Token Time Continuous Diffusion for Language Modeling

UTEXAS

University of Texas at Austin

Submitted by

Franck-Dernoncourt

GRASP: GRanularity-Aware Search Policy for Agentic RAG

·
7 authors

Submitted by

Yuan-avs

Chat2Scenic: An Iterative RAG-Based Framework for Scenario Generation in Autonomous Driving

TUM-AVS

TUM - Professorship of Autonomous Vehicle Systems

Submitted by

TTTXXX01

Rethinking the Evaluation of Harness Evolution for Agents

University of Washington

Submitted by

Mark7121983123

Hierarchical Denoising For Multi-Step Visual Reasoning

·
12 authors

Submitted by

rezaebrahimi

On Locality and Length Generalization in Visual Reasoning

qualcomm