Amazon Science

×Computer Vision

8 papers from Amazon Science on Computer Vision

Jul 6, 2026

Semantic Video Communication via Multi-Scale Convolution and Dynamic Routing for Next-Generation Networks

Achieving over 42% recall in semantic video communication could redefine how we transmit meaning in bandwidth-limited networks.

Gengtian Shi, Jinze Yu, Chenhao Wu +5

Computer Vision Multimodal Models Natural Language Processing

Amazon Science1w ago

Bounded-Memory Parallel Image Pulling for Large Container Images

DBPP slashes peak memory usage by up to 25 times during large container image pulls, preventing OOM failures on GPU nodes.

Sri Saran Balaji Vellore Rajakumar, Henry Wang, Ankur Singh +1

Computer Vision Distributed Systems & Hardware

Jul 1, 2026

Amazon Science1w ago·also TAU

TrajLoc: Trajectory-Attention Localization for Multi-Object Motion Control

TrajLoc achieves unprecedented trajectory adherence and visual fidelity in multi-object motion control, outperforming existing methods by isolating object trajectories with Gaussian heatmaps.

Omer Sela, Inbar Huberman-Spiegelglas, Michael Rotman +2

Computer Vision Multimodal Models Robotics & Embodied AI

Jun 30, 2026

Amazon Science1w ago

Planar-SfM: Camera Pose Estimation via Homography Graph Embeddings

Homography-based pose estimates can outperform traditional methods in planar scenes, revealing a new pathway for robust camera pose recovery.

Gabi Pragier, Matan Karklinsky, David Ungarish +1

Computer Vision World Models & Planning

Amazon Science1w ago·also HUJI, Tel-Aviv University

SpheRoPE: Zero-Shot Optimization-Free 360 Panorama Generation with Spherical RoPE

Zero-shot generation of 360 panoramas is now possible without the costly fine-tuning or optimization typically required, unlocking new creative potentials in image synthesis.

Or Hirschorn, Aaron Olender, Eli Alshan +3

Computer Vision Multimodal Models

Apr 6, 2026

Amazon ScienceApr 6, 2026·also Purdue, TU Eindhoven

A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens

Ditch the computational bloat: DeltaWorld slashes parameters by 35x and FLOPs by 2000x while generating more realistic video futures.

Tommie Kerssies, G. Berton, Gabriele Berton +7

Computer Vision Training Efficiency & Optimization World Models & Planning

Feb 17, 2026

Amazon ScienceFeb 17, 2026

Automatic Funny Scene Extraction from Long-form Cinematic Videos

An end-to-end system extracts funny scenes from movies with 87% accuracy, opening new avenues for automated content repurposing.