대규모 언어모델 (LLM)
경량화·튜닝·안전성·서빙까지, 엔드투엔드 LLM 시스템을 연구합니다. 제한된 자원에서도 품질·지연·비용을 균형 있게 최적화합니다.
개요
본 연구는 지시문 튜닝·도메인 적응, 추론 최적화, 안전성·평가, 데이터·학습 파이프라인을 아우릅니다. 실험 설계와 재현성을 중시하며, 제품화 가능한 형태로 결과를 전이합니다.
정확도 향상
도메인 적응·지시문 튜닝으로 과업별 성능을 끌어올립니다.
효율적 추론
KV 캐시·양자화·스펙큘레이티브 디코딩으로 지연·비용을 절감합니다.
안전성
환각 저감·가이드라인 준수·프롬프트 방어로 신뢰도를 높입니다.
튜닝·적응 (Fine-tuning & Adaptation)
LoRA/QLoRA, PEFT 기반 적응과 DPO/ORPO/RLHF 등 선호최적화를 다룹니다.
- 지시문/대화/체인 데이터 설계 및 커리큘럼
- 지식 편향·환각 저감을 위한 컨텍스트 주입/리라이팅
- 평가-튜닝 루프 자동화 및 모델·데이터 버전닝
추론/서빙 (Inference & Serving)
vLLM/TensorRT-LLM, KV 캐시 관리, 텐서 병렬·파이프라인 병렬을 최적화합니다.
- 스펙큘레이티브 디코딩·프리필 최적화·배치 서빙
- AWQ/GPTQ 등 양자화와 메모리 풋프린트 감소
- 멀티테넌시·SLA 기반 스케줄링 및 비용 모델링
안전성·평가 (Safety & Evaluation)
유해 발화 방지, 개인정보/보안 고려, 환각·근거성(groundedness) 점검을 수행합니다.
- 정책 기반 가드레일·레드팀 프롬프트·탈옥 방어
- 자동 평가(정확도/일관성/근거 인용/지연)
- 휴먼 피드백을 통한 정성 평가와 회귀 테스트
데이터·학습 파이프라인
합성·필터링·중복 제거·PII 마스킹 등 데이터 품질을 관리하고 학습을 자동화합니다.
- 데이터 카탈로그·스키마·계보 추적(Lineage)
- 샘플링 전략·하드 케이스 채집·부트스트래핑
- 실험 추적·승인 워크플로·재현 가능 빌드
스택
Large Language Models (LLM)
We study end-to-end LLM systems across fine-tuning, inference, safety, and data pipelines— balancing quality, latency, and cost under real constraints.
Overview
Our focus spans instruction tuning & domain adaptation, inference optimization, safety & evaluation, and data/training pipelines—with reproducible experiments and product-ready deliverables.
Quality
Boost task performance via instruction tuning and domain adaptation.
Efficiency
Reduce latency/cost using KV cache, quantization, speculative decoding.
Safety
Mitigate hallucination, enforce policy, and defend against jailbreaks.
Tuning & Adaptation
We leverage LoRA/QLoRA, PEFT, and preference optimization (DPO/ORPO/RLHF).
- Instruction/dialog/chain data design with curriculum strategies
- Bias & hallucination mitigation via context injection/rewriting
- Automated eval-tune loop with robust model/data versioning
Inference/Serving
vLLM/TensorRT-LLM, KV cache policies, tensor/pipeline parallelism at scale.
- Speculative decoding, prefill optimizations, dynamic batching
- Quantization (AWQ/GPTQ) and memory footprint reduction
- Multi-tenancy, SLA-aware scheduling, and cost modeling
Safety & Evaluation
Policy guardrails, PII/security considerations, hallucination/grounding checks.
- Red-teaming prompts and jailbreak defense
- Automated metrics (accuracy/consistency/citations/latency)
- Human-in-the-loop qualitative reviews and regression tests
Data & Training Pipeline
Synthesis, filtering, deduplication, PII masking; fully tracked & reproducible training.
- Data catalog, schema design, and lineage
- Hard-case mining, prioritized sampling, bootstrapping
- Experiment tracking, approvals, and reproducible builds