LLM

개요

본 연구는 지시문 튜닝·도메인 적응, 추론 최적화, 안전성·평가, 데이터·학습 파이프라인을 아우릅니다. 실험 설계와 재현성을 중시하며, 제품화 가능한 형태로 결과를 전이합니다.

정확도 향상

도메인 적응·지시문 튜닝으로 과업별 성능을 끌어올립니다.

효율적 추론

KV 캐시·양자화·스펙큘레이티브 디코딩으로 지연·비용을 절감합니다.

안전성

환각 저감·가이드라인 준수·프롬프트 방어로 신뢰도를 높입니다.

튜닝·적응 (Fine-tuning & Adaptation)

LoRA/QLoRA, PEFT 기반 적응과 DPO/ORPO/RLHF 등 선호최적화를 다룹니다.

지시문/대화/체인 데이터 설계 및 커리큘럼
지식 편향·환각 저감을 위한 컨텍스트 주입/리라이팅
평가-튜닝 루프 자동화 및 모델·데이터 버전닝

추론/서빙 (Inference & Serving)

vLLM/TensorRT-LLM, KV 캐시 관리, 텐서 병렬·파이프라인 병렬을 최적화합니다.

스펙큘레이티브 디코딩·프리필 최적화·배치 서빙
AWQ/GPTQ 등 양자화와 메모리 풋프린트 감소
멀티테넌시·SLA 기반 스케줄링 및 비용 모델링

안전성·평가 (Safety & Evaluation)

유해 발화 방지, 개인정보/보안 고려, 환각·근거성(groundedness) 점검을 수행합니다.

정책 기반 가드레일·레드팀 프롬프트·탈옥 방어
자동 평가(정확도/일관성/근거 인용/지연)
휴먼 피드백을 통한 정성 평가와 회귀 테스트

데이터·학습 파이프라인

합성·필터링·중복 제거·PII 마스킹 등 데이터 품질을 관리하고 학습을 자동화합니다.

데이터 카탈로그·스키마·계보 추적(Lineage)
샘플링 전략·하드 케이스 채집·부트스트래핑
실험 추적·승인 워크플로·재현 가능 빌드

스택

PyTorch Hugging Face vLLM TensorRT-LLM bitsandbytes ONNX/Triton Ray MLflow Weights & Biases

Quality

Boost task performance via instruction tuning and domain adaptation.

Efficiency

Reduce latency/cost using KV cache, quantization, speculative decoding.

Safety

Mitigate hallucination, enforce policy, and defend against jailbreaks.

LLM

대규모 언어모델 (LLM)

개요

정확도 향상

효율적 추론

안전성

튜닝·적응 (Fine-tuning & Adaptation)

추론/서빙 (Inference & Serving)

안전성·평가 (Safety & Evaluation)

데이터·학습 파이프라인

스택

Large Language Models (LLM)

Overview

Quality

Efficiency

Safety

Tuning & Adaptation

Inference/Serving

Safety & Evaluation

Data & Training Pipeline

Stack