Hidetoshi Shimodaira

Research focus

Eval Frameworks & Benchmarks (2)Natural Language Processing (2)Reasoning & Chain-of-Thought (1)RLHF & Preference Learning (1)Interpretability & Mechanistic Interp (1)

Frequent co-authors

Momose Oyama (2)H. Shimodaira (2)Yihua Zhu (1)Qianying Liu (1)

Papers (3)

May 26, 2026

May 26, 2026·also NII, Shanghai Innovation, UTokyo

Reasoning Depth and Environment Complexity: A Controlled Study of RLVR Data Allocation across Logical Reasoning Tasks

RL models trained with verifiable rewards exhibit a surprising deductive-over-abductive reasoning asymmetry, even in controlled environments, suggesting a fundamental challenge in current RLVR approaches.

Yihua Zhu, Qianying Liu, Jiaxin Wang +3

Eval Frameworks & Benchmarks Reasoning & Chain-of-Thought RLHF & Preference Learning

Mar 19, 2026

Language Model Maps for Prompt-Response Distributions via Log-Likelihood Vectors

Forget comparing models with benchmarks – mapping them by prompt-response likelihoods reveals hidden relationships between architecture, training data, and even how prompts compose.

Yusuke Takase, Yusuke Takase, Momose Oyama +3

Eval Frameworks & Benchmarks Interpretability & Mechanistic Interp Natural Language Processing+1

Mar 17, 2026

Domain Mixture Design via Log-Likelihood Differences for Aligning Language Models with a Target Model

Forget expensive distillation – aligning language models can be as simple as carefully choosing the right mix of pretraining data based on log-likelihood differences.

Ryo Kishino, Riku Shiomi, Hiroaki Yamagiwa +3

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Search

Hidetoshi Shimodaira

Research focus

Frequent co-authors

Papers (3)