Yutaka Matsuo

Forget Transformers; this new recurrent architecture learns more stable representations and generalizes better out-of-distribution by interleaving fast latent updates with slower, self-organizing observation processing.

Shota Takashiro, Masanori Koyama, Takeru Miyato +3

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Speech & Audio

Mar 31, 2026

Fumihiko Tsuchiya +5Mar 31, 2026·also UTokyo

EC-Bench: Enumeration and Counting Benchmark for Ultra-Long Videos

Current multimodal LLMs struggle to count objects and ground evidence in videos longer than 30 minutes, achieving only ~25% accuracy compared to human performance on a new benchmark.

Fumihiko Tsuchiya, Taiki Miyanishi, Mahiro Ukai +3

Computer Vision Eval Frameworks & Benchmarks

Mar 17, 2026

Mar 17, 2026·also Stanford HAI, Yale

Omanic: Towards Step-wise Evaluation of Multi-hop Reasoning in Large Language Models

LLMs' chain-of-thought reasoning often falls apart due to factual incompleteness, with errors compounding across multiple hops, as revealed by a new multi-hop QA dataset.

Xiaojie Gu, Sherry T. Tong, Aosong Feng +7

Eval Frameworks & Benchmarks Natural Language Processing Reasoning & Chain-of-Thought

Feb 26, 2026

Residual Koopman Spectral Profiling for Predicting and Preventing Transformer Training Instability

Predict transformer training failures *before* you even start training, with 99.5% accuracy, using just a single forward pass.

Bum Jun Kim, Bum Jun Kim, Shohei Taniguchi +5

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Feb 26, 2026·also Kyoto

ClinDet-Bench: Beyond Abstention, Evaluating Judgment Determinability of LLMs in Clinical Decision-Making

LLMs that ace medical exams still fumble basic clinical judgment, prematurely deciding cases or abstaining unnecessarily when information is incomplete, revealing a critical gap in their real-world applicability.

Yusuke Watanabe, Yohei Kobashi, Yohei Kobashi +6

Eval Frameworks & Benchmarks Natural Language Processing Reasoning & Chain-of-Thought

Search

Yutaka Matsuo

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (7)