운영체제 (Operating Systems)
커널과 런타임에 뿌리를 둔 시스템 연구. 지연을 줄이고 안정성을 높이며, 실제 프로덕션 환경에서 검증 가능한 설계를 목표로 합니다.
개요
운영체제 연구는 스케줄링·메모리·I/O·스토리지·가상화·관측성을 포괄합니다. 본 연구실은 프로파일링과 트레이싱으로 병목을 규명하고, 안전성·복구 시나리오까지 포함한 엔드투엔드 검증을 통해 실사용 환경의 성능 향상을 이끕니다.
낮은 지연
스케줄러·메모리·I/O 경로 최적화로 p99 지연을 낮춥니다.
안정성
페일세이프·리커버리·일관성 보장 설계를 중시합니다.
가시성
eBPF/Perf/Ftrace로 커널 이벤트를 정밀 관찰합니다.
커널·런타임
CFS/RT 스케줄링, NUMA/THP/hugetlb, cgroups/CPU 핀닝, RCU/락 경합 저감을 다룹니다.
- 스케줄러 파라미터·워크로드 특성 맞춤 튜닝
- 페이지 캐시/쓰기플러시 정책, 메모리 파편화 완화
- io_uring, epoll, 비동기 런타임 최적화
I/O·스토리지
NVMe, ZNS, 파일시스템 일관성/저널링, 블록 레이어 튜닝을 연구합니다.
- 큐 심도·IO 스케줄러·멀티큐 블록 레이어 최적화
- fsync/바리어 비용 및 메타데이터 경로 단축
- 데이터 무결성·복구 시간 단축 전략
가상화·컨테이너
KVM/QEMU, 컨테이너 격리, 오버커밋/NUMA 배치, QoS 최적화를 다룹니다.
- Guest/Host 트레이싱으로 VM 병목 귀속
- cgroup 리소스 거버넌스와 워크로드 QoS
- 네트워킹: vhost, virtio, DPDK/AF_XDP(옵션)
관측성·성능
eBPF/Perf/Ftrace/Flamegraph로 시스템 전 계층을 계측합니다.
- k/uprobes, BPF 맵, 커널 이벤트 파이프라인
- p99/p999 tail latency 추적 및 리그레션 감지
- 마이크로벤치·A/B·카나리 기반 실험 설계
실시간·신뢰성
PREEMPT_RT, IRQ 지연, 워치독/복구, 안정성 시험 자동화를 수행합니다.
- 우선순위 역전 회피, IRQ affinity
- 장애 주입 테스트, 재부팅/재마운트 전략
- SLO 기반 가용성·지연 목표 관리
스택
Operating Systems
We build low-latency and reliable kernels/runtimes, validated under production-like conditions with rigorous instrumentation.
Overview
Our OS work spans scheduling, memory, I/O, storage, virtualization, and observability. We hunt bottlenecks via profiling & tracing, and validate with fail-safe and recovery scenarios for real-world robustness.
Low Latency
Optimize scheduler/memory/I/O paths to reduce p99 latency.
Reliability
Design for safety, consistency, and fast recovery.
Visibility
Fine-grained kernel observability via eBPF/Perf/Ftrace.
Kernel & Runtime
CFS/RT scheduling, NUMA/THP/hugetlb, cgroups/CPU pinning, RCU/lock contention mitigation.
- Scheduler parameter tuning for workload characteristics
- Page cache/writeback strategies, fragmentation control
- io_uring, epoll, and async runtime optimization
I/O & Storage
NVMe, ZNS, filesystem consistency/journaling, and block-layer tuning.
- Queue depth, I/O schedulers, multi-queue block layer
- fsync/barrier costs and metadata update path shortening
- Data integrity and reduced recovery time objectives
Virtualization & Containers
KVM/QEMU, container isolation, overcommit/NUMA placement, and QoS.
- Guest/host tracing for VM bottleneck attribution
- cgroup resource governance and workload QoS
- Networking: vhost, virtio, DPDK/AF_XDP (optional)
Observability & Performance
Instrumentation with eBPF/Perf/Ftrace/Flamegraph across the stack.
- k/uprobes, BPF maps, kernel event pipelines
- Tail latency (p99/p999) tracking & regression detection
- Experimentation: microbench, A/B, canary
Real-time & Reliability
PREEMPT_RT, IRQ latency, watchdog/recovery, and automated stability testing.
- Priority inversion avoidance, IRQ affinity
- Fault injection testing, reboot/remount strategies
- SLO-driven availability/latency objectives