실시간 아바타
음성·시각·모션을 결합해 100~300ms 지연 목표의 대화형 아바타를 연구합니다. 불안정한 네트워크 환경에서도 동기·유창성·안정성을 유지합니다.
개요
음성 인식(ASR)·자연어 이해/생성(LLM)·음성 합성(TTS)·표정/립싱크 렌더링을 스트리밍으로 묶어 양방향 대화를 제공합니다. 핵심은 지연 예산 관리와 지터/패킷손실 대응, 그리고 오디오-비주얼 동기입니다.
파이프라인
Capture
마이크/카메라 캡처 · VAD · 노이즈 억제
Encode
Opus/AV1/VP9 · 단편 프레임
Transport
WebRTC · SRTP · ICE/DTLS
LLM/ASR/TTS
스트리밍 ASR → LLM → TTS/VC
Lip/Expression
비지메/표정 매핑 · 타임코드
Render
오디오/비디오 동기 · 보정
초저지연 전략
- 지연 예산: 캡처/인코드/전송/추론/합성/렌더 각 단계에 ms 단위 목표 설정
- 스트리밍: Partial ASR·Token-Stream LLM·Chunked TTS로 파이프라이닝
- Zero-copy·GPU 배치/스케줄링·KV 캐시로 추론 대기시간 최소화
- Jitter Buffer의 동적 크기·SVC 계층 전환(ABR)로 변동 대응
강건성 & 회복
- 패킷 손실 은닉(PLC)·FEC/RTX·프레임 스킵 보간
- DTX(무음 전송 중단)·네트워크 핸드오버 재협상
- 서버 이중화·세션 재수립(ICE 재시도)·상태 동기화
렌더링 & 동기화
- 오디오 타임코드 기준 립싱크(Viseme/Blendshape 큐)
- 클록 드리프트 보정·슬로우/스피드 보정·스냅 동기
- 자연스러운 휴지부(Idle) 모션·미소/눈 깜박임 합성
평가 (QoE)
- 지연 Round-trip / First-Token / Mouth-Open-to-Audio
- 동기 AV Sync 오차(ms), 립싱크 매칭율
- 유창성 끊김 빈도, Rebuffer 시간, MOS-LQO(참고)
- 안정성 패킷 손실률/지터, 재연결 시간
스택
Realtime Avatar
We build bidirectional avatars targeting 100–300ms E2E latency, maintaining sync, fluency, and stability under challenging networks.
Overview
Streaming ASR → LLM → TTS/VC with lip/expression rendering enables natural, two-way conversations. Key aspects: latency budgeting, jitter/loss handling, and audio–visual sync.
Pipeline
Capture
Mic/Camera · VAD · Noise control
Encode
Opus / AV1 / VP9 · short frames
Transport
WebRTC · SRTP · ICE/DTLS
LLM/ASR/TTS
Streaming ASR → LLM → TTS/VC
Lip/Expression
Viseme/expression mapping
Render
AV sync · corrections
Low-Latency Tactics
- Budgeting for capture/encode/transport/inference/synthesis/render (ms-level)
- Streaming: partial ASR, token streaming LLM, chunked TTS (pipelining)
- Zero-copy, GPU batching/scheduling, KV cache to minimize stalls
- Adaptive jitter buffer and SVC layer switching (ABR)
Robustness & Recovery
- PLC, FEC/RTX, frame-skip interpolation
- DTX, network handover renegotiation
- Server redundancy, session re-establishment (ICE retry), state sync
Rendering & A/V Sync
- Audio-timecode-driven lip-sync with viseme/blendshape queue
- Clock drift correction, slow/fast playback trims, snap-to-sync
- Natural idle motions, blinking, micro-expressions
Evaluation (QoE)
- Latency round-trip / first-token / mouth-to-audio
- Sync AV offset (ms), lip-sync match rate
- Fluency stall frequency, rebuffer time, MOS-like scores
- Stability loss/jitter, reconnection time