RAG Playground
공공데이터로 RAG 파이프라인을 단계별로 실험한 학습 프로젝트
공공데이터로 Naive RAG부터 Agentic RAG까지 7단계 파이프라인을 직접 쌓고, NDCG·MRR·P@5로 정량 비교한 학습 프로젝트.
- Naive RAG → BM25 → Hybrid(RRF) → Rerank → HyDE/Multi-Query → Agentic RAG까지 7단계 파이프라인을 단일 저장소에 누적
- Qdrant Cloud server-side inference로 BM25 sparse vector 인덱싱 — 외부 별도 인덱스 불필요
- novita.ai BGE-reranker-v2-m3의 relevance score를 '참고값'이 아닌 신뢰도 지표로 활용해 fallback 경계선 설계
Evaluation Metrics
- 최고 NDCG@5
- 0.82 (HyDE+Rerank)
- 최고 Precision@5
- 0.66 (Rerank)
- Naive 대비 품질 향상
- NDCG +57% (0.52 → 0.82)
- 평가 규모
- 10개 질의 × 7개 모드
- 시리즈 분량
- 블로그 9편 / 약 두 달