Yutaka Matsuo

The University of Tokyo

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Multimodal Models (2)Speech & Audio (1)Reasoning & Chain-of-Thought (1)RLHF & Preference Learning (1)

Frequent co-authors

Yusuke Iwasawa (4)Irene Li (2)Shota Takashiro (2)Soichiro Nishimori (2)

Papers (4)

Jun 7, 2026

4d ago·also Independent, Rochester

SMC-ITA: Sequential Monte Carlo Inference-Time Alignment for Video-to-Audio Generation

SMC-ITA achieves a remarkable 55.67% reduction in audio-video desynchronization, setting a new standard for inference-time alignment in video-to-audio generation.

Haoyu Zhang, Yuta Oshima, Xingjian Du +4

Multimodal Models Speech & Audio

Jun 4, 2026

1w ago

On Advantage Estimates for Max@K Policy Gradients

Centering advantages in policy gradients can drastically reduce variance and improve performance in reinforcement learning tasks.

Shota Takashiro, Soichiro Nishimori, Paavo Parmas +6

Reasoning & Chain-of-Thought RLHF & Preference Learning

1w ago

OrderGrad: Optimizing Beyond the Mean with Order-Statistic Policy Gradient Estimation

OrderGrad transforms policy-gradient optimization by enabling precise control over distributional properties, allowing for risk-averse and exploratory learning in real-world applications.

Paavo Parmas, Yongmin Kim, Kohsei Matsutani +5

Training Efficiency & Optimization

May 21, 2026

3w ago·also Hohai, Kyoto, Tencent AI, UMich +3

JMed48k: A Multi-Profession Japanese Medical Licensing Benchmark for Vision-Language Model Evaluation

Medical-specific vision-language models surprisingly underutilize visual information in Japanese medical licensing exams, often performing well even when images are removed, highlighting a critical gap in their multimodal reasoning capabilities.

Yue Xun, Junyu Liu, Qian Niu +10

Computer Vision Eval Frameworks & Benchmarks Multimodal Models

Search

Yutaka Matsuo

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (4)