Shikun Feng

ERNIE Team

Papers on Lattice

Total citations

Topics

Research focus

Computer Vision (2)Multimodal Models (2)Natural Language Processing (1)Eval Frameworks & Benchmarks (1)Architecture Design (Transformers, SSMs, MoE) (1)

Frequent co-authors

Songhe Deng (2)Shuwei He (2)Danxiang Zhu (2)Yishu Lei (2)

Papers (3)

May 26, 2026

ERNIE TeamMay 26, 2026

CodecCap: High-Fidelity Codec-Inspired Residual Modeling for Dense Video Captioning

Keyframe-residual captioning unlocks high-fidelity video-language supervision, surpassing direct VLM captioning in capturing fine-grained visual details.

Zihan Lin, Songhe Deng, Shuwei He +4

Computer Vision Multimodal Models Natural Language Processing

May 25, 2026

Xiang An +24May 25, 2026·also ERNIE Team, Monash, S-Lab, SenseTime +1

LLaVA-OneVision-2: Towards Next-Generation Perceptual Intelligence

LLaVA-OV-2's codec-stream tokenization lets it crush existing video-language models, especially in tasks requiring fine-grained temporal understanding of high-frequency motion.

Xiang An, Yin Xie, Feilong Tang +22

Computer Vision Eval Frameworks & Benchmarks Multimodal Models

Feb 15, 2026

ERNIE TeamFeb 15, 2026·also Baidu

Eureka-Audio: Triggering Audio Intelligence in Compact Language Models

A 1.7B parameter model can now rival much larger audio language models, thanks to a novel architecture and data synthesis pipeline.

Yishu Lei, Jing Hu, Shuwei He +5

Architecture Design (Transformers, SSMs, MoE)Open-Source Models & Weights Speech & Audio

Search

Shikun Feng

Research focus

Frequent co-authors

Papers (3)