Mark J. F. Gales

Papers on Lattice

Total citations

Topics

Research focus

Eval Frameworks & Benchmarks (1)Natural Language Processing (1)

Frequent co-authors

Mengjie Qian (1)Mengjie Qian (1)Mark Gales (1)Kate Knill (1)

Papers (1)

Feb 18, 2026

Mengjie Qian +5Feb 18, 2026

Who can we trust? LLM-as-a-jury for Comparative Assessment

LLMs aren't equally reliable as NLG evaluators, but a Bradley-Terry extension called BT-sigma can learn judge reliability from pairwise comparisons alone, improving ranking accuracy without human supervision.

Mengjie Qian, Mengjie Qian, Mark Gales +3

Eval Frameworks & Benchmarks Natural Language Processing

Search

Mark J. F. Gales

Research focus

Frequent co-authors

Papers (1)