한림대학교 - OS Lab

realtime avatar


초저지연 인터랙션

실시간 아바타

음성·시각·모션을 결합해 100~300ms 지연 목표의 대화형 아바타를 연구합니다. 불안정한 네트워크 환경에서도 동기·유창성·안정성을 유지합니다.

개요

음성 인식(ASR)·자연어 이해/생성(LLM)·음성 합성(TTS)·표정/립싱크 렌더링을 스트리밍으로 묶어 양방향 대화를 제공합니다. 핵심은 지연 예산 관리지터/패킷손실 대응, 그리고 오디오-비주얼 동기입니다.

파이프라인

Capture

마이크/카메라 캡처 · VAD · 노이즈 억제

AECAGCNS

Encode

Opus/AV1/VP9 · 단편 프레임

20msSVC

Transport

WebRTC · SRTP · ICE/DTLS

ABRJitterBuf

LLM/ASR/TTS

스트리밍 ASR → LLM → TTS/VC

PartialChunk

Lip/Expression

비지메/표정 매핑 · 타임코드

VisemeBlendshape

Render

오디오/비디오 동기 · 보정

AV SyncDrift Fix

초저지연 전략

  • 지연 예산: 캡처/인코드/전송/추론/합성/렌더 각 단계에 ms 단위 목표 설정
  • 스트리밍: Partial ASR·Token-Stream LLM·Chunked TTS로 파이프라이닝
  • Zero-copy·GPU 배치/스케줄링·KV 캐시로 추론 대기시간 최소화
  • Jitter Buffer의 동적 크기·SVC 계층 전환(ABR)로 변동 대응

강건성 & 회복

  • 패킷 손실 은닉(PLC)·FEC/RTX·프레임 스킵 보간
  • DTX(무음 전송 중단)·네트워크 핸드오버 재협상
  • 서버 이중화·세션 재수립(ICE 재시도)·상태 동기화

렌더링 & 동기화

  • 오디오 타임코드 기준 립싱크(Viseme/Blendshape 큐)
  • 클록 드리프트 보정·슬로우/스피드 보정·스냅 동기
  • 자연스러운 휴지부(Idle) 모션·미소/눈 깜박임 합성

평가 (QoE)

  • 지연 Round-trip / First-Token / Mouth-Open-to-Audio
  • 동기 AV Sync 오차(ms), 립싱크 매칭율
  • 유창성 끊김 빈도, Rebuffer 시간, MOS-LQO(참고)
  • 안정성 패킷 손실률/지터, 재연결 시간

스택

WebRTCOpus/AV1/VP9GStreamer PyTorchTensorRT/ONNXFastAPI RedisOpenTelemetryWebAudio/WebGL/Three.js
데모/협업 문의하기
Ultra-low Latency

Realtime Avatar

We build bidirectional avatars targeting 100–300ms E2E latency, maintaining sync, fluency, and stability under challenging networks.

Overview

Streaming ASR → LLM → TTS/VC with lip/expression rendering enables natural, two-way conversations. Key aspects: latency budgeting, jitter/loss handling, and audio–visual sync.

Pipeline

Capture

Mic/Camera · VAD · Noise control

AECAGCNS

Encode

Opus / AV1 / VP9 · short frames

20msSVC

Transport

WebRTC · SRTP · ICE/DTLS

ABRJitterBuf

LLM/ASR/TTS

Streaming ASR → LLM → TTS/VC

PartialChunk

Lip/Expression

Viseme/expression mapping

VisemeBlendshape

Render

AV sync · corrections

AV SyncDrift Fix

Low-Latency Tactics

  • Budgeting for capture/encode/transport/inference/synthesis/render (ms-level)
  • Streaming: partial ASR, token streaming LLM, chunked TTS (pipelining)
  • Zero-copy, GPU batching/scheduling, KV cache to minimize stalls
  • Adaptive jitter buffer and SVC layer switching (ABR)

Robustness & Recovery

  • PLC, FEC/RTX, frame-skip interpolation
  • DTX, network handover renegotiation
  • Server redundancy, session re-establishment (ICE retry), state sync

Rendering & A/V Sync

  • Audio-timecode-driven lip-sync with viseme/blendshape queue
  • Clock drift correction, slow/fast playback trims, snap-to-sync
  • Natural idle motions, blinking, micro-expressions

Evaluation (QoE)

  • Latency round-trip / first-token / mouth-to-audio
  • Sync AV offset (ms), lip-sync match rate
  • Fluency stall frequency, rebuffer time, MOS-like scores
  • Stability loss/jitter, reconnection time

Stack

WebRTCOpus/AV1/VP9GStreamer PyTorchTensorRT/ONNXFastAPI RedisOpenTelemetryWebAudio/WebGL/Three.js
Request Demo / Collaboration