AB-RAG: 적응형 예산 제어로 실현하는 고신뢰 법률 RAG 아키텍처

초록 기존의 법률 검색증강생성(RAG) 시스템은 질의의 복잡도와 무관하게 고정된 수의 문서를 검색하여 처리함으로써 불필요한 연산 비용을 발생시키거나 정보 부족으로 인한 오답을 초래하는 한계를 지닙니다. 본 칼럼에서는 추가적인 모델 학습 없이도 검색량과 답변 신뢰도를 동적으로 조율하는 '적응형 예산 기반 검색증강생성(AB-RAG)' 프레임워크를 분석합니다. 모델 자체의 확신도, 의미적 일치도, 검색 점수의 분산이라는 세 가지 신호를 결합하여 답변 신뢰도를 조율하고 예산 내 최적의 증거를 탐색하는 메커니즘을 규명합니다. 최종적으로 이를 법마디 OS에 적용하여 법률 AI의 신뢰성을 극대화하고 토큰 비용 효율성을 달성하는 실전 아키텍처를 제안합니다.

법률 상담 및 계약서 검토를 수행하는 리걸테크 현장에서 RAG(검색증강생성)는 필수적인 기술로 자리 잡았습니다. 그러나 현업의 실무자들은 극명한 두 가지 한계에 직면하곤 합니다. 단순한 단답형 법률 질문에도 수십 페이지의 판례를 검색하여 컨텍스트에 채워 넣는 토큰 낭비가 발생하는 반면, 다수의 법적 쟁점이 얽힌 복잡한 사안에는 고정된 검색량으로 인해 핵심 증거가 누락되어 치명적인 환각 답변을 생성하는 현상입니다. 이러한 정적 RAG 아키텍처는 리소스 효율성과 답변 신뢰성이라는 두 마리 토끼를 모두 놓치게 만듭니다. 법을 다루는 AI라면 질의의 난이도와 맥락에 맞추어 스스로 판단의 깊이를 조율할 수 있어야 합니다. 이에 본 칼럼에서는 최근 학계에서 주목받는 '적응형 예산 기반 검색증강생성(AB-RAG)'의 메커니즘을 분석하고, 이를 법률 도메인에 이식하기 위한 기술적 해법을 모색하고자 합니다.

핵심 기술 개념

AB-RAG (Adaptive Budgeted Retrieval-Augmented Generation)

질의의 난이도에 따라 검색할 문서의 양을 동적으로 조절하고, 생성된 답변의 신뢰도를 스스로 평가하여 추가 검색 여부를 결정하는 훈련 불필요(Training-free) RAG 프레임워크입니다.

자가 일관성 (Self-consistency)

동일한 질의에 대해 모델이 여러 번의 독립적인 디코딩 경로를 거쳐 답변을 생성하게 한 뒤, 가장 일관되게 도출된 답변을 선택함으로써 신뢰도를 측정하고 향상시키는 기법입니다.

검색 점수 분산 (Retrieval Score Variance)

검색 엔진이 반환한 문서들의 유사도 점수 분포가 얼마나 조밀하거나 퍼져 있는지를 측정하여, 검색된 정보들이 질의와 얼마나 균일하게 연관되어 있는지 평가하는 지표입니다.

기술 심층 분석

1

다차원 신뢰도 추정 엔진의 수학적 설계와 3대 지표 분석

AB-RAG의 핵심은 모델이 출력한 답변의 신뢰도(Confidence)를 정밀하게 추정하는 것입니다. 이를 위해 시스템은 세 가지 상호보완적인 신호를 결합합니다. 첫째, 모델 자체의 확신도(Model Confidence)로, 오픈소스 모델의 경우 토큰 생성 확률값(Log Likelihood)의 평균을 사용하며, API 기반 모델의 경우 다중 샘플링을 통한 자가 일관성(Self-consistency) 엔트로피를 활용합니다. 둘째, 의미적 일치도(Semantic Alignment)로, 생성된 답변과 실제 검색된 증거 패시지 간의 자연어 추론(NLI) 관계나 임베딩 유사도를 계산하여 교차 검증합니다. 셋째, 검색 점수의 분산(Retrieval Score Variance)으로, 검색된 상위 K개 문서의 코사인 유사도 점수 분포를 분석하여 질의의 모호성을 간접 측정합니다. 이 세 가지 지표를 가중 합산한 최종 신뢰도 점수가 임계값을 넘지 못하면 시스템은 정보 부족으로 판단하고 다음 단계의 예산 소모 루프로 진입합니다.

2

적응형 예산(Adaptive Budget) 루프와 동적 증거 확장 메커니즘

질의의 난이도가 높아 신뢰도 점수가 임계값에 도달하지 못하는 상황이 발생하면, AB-RAG는 사전에 정의된 최대 토큰/비용 예산(Budget) 범위 내에서 동적으로 검색 범위를 확장합니다. 이 과정은 단순히 검색 문서 수(K)를 늘리는 것에 그치지 않고, 1차 검색에서 누락된 맥락을 보완하기 위해 '쿼리 재구성(Query Reformulation)' 단계를 거칩니다. LLM은 현재까지 수집된 문서와 1차 답변의 미진한 점을 분석하여 새로운 하위 쿼리를 생성하고, 검색 엔진은 이 하위 쿼리를 기반으로 추가적인 문서 세그먼트를 확보합니다. 새로 확보된 문서는 기존 컨텍스트에 병합(Merge)되며, 이때 정보의 중복성을 제거하기 위해 Maximal Marginal Relevance(MMR) 필터링이 적용됩니다. 이 루프는 신뢰도 점수가 임계값을 초과하거나, 할당된 최대 예산에 도달할 때까지 반복 수행되며, 이를 통해 불필요한 연산을 원천 차단하면서도 고난도 질의에 필요한 심층 정보를 확보합니다.

3

백본 독립성(Backbone-agnostic)과 무학습(Training-free) 아키텍처의 실무적 가치

AB-RAG는 기존 LLM의 가중치를 미세조정(Fine-tuning)하거나 추가적인 분류기(Classifier)를 학습시킬 필요가 없는 무학습(Training-free) 구조를 지향합니다. 이는 GPT-4o나 Claude 3.5 Sonnet 같은 고성능 상용 폐쇄형 API 모델부터 LLaMA-3, DeepSeek 등 로컬 오픈소스 모델까지 백본의 제약 없이 즉각적으로 이식할 수 있는 강력한 범용성을 제공합니다. 그러나 이러한 백본 독립성은 역설적으로 각 모델의 내부 확률 분포나 토큰 로짓(Logit)에 직접 접근하기 어려울 때 상당한 오버헤드를 유발합니다. 특히 API 기반 모델에서 자가 일관성을 측정하기 위해 N개의 답변을 독립적으로 생성해야 하는 경우, 일시적으로 API 호출 비용과 지연 시간(Latency)이 급증하는 트레이드오프가 발생합니다. 따라서 실무 적용 시에는 이러한 연산 오버헤드를 완화하기 위해 가벼운 로컬 판별 모델을 결합하는 하이브리드 설계가 요구됩니다.

4

법률 도메인 특수성을 고려한 신뢰도 임계값의 동적 튜닝

일반적인 상식 질의응답과 달리, 법률 도메인에서는 단 한 번의 오답이나 환각도 소송 패소나 법적 책임으로 이어질 수 있어 극도로 높은 신뢰 수준이 요구됩니다. 따라서 AB-RAG를 법률 시스템에 적용할 때는 신뢰도 임계값을 고정하지 않고, 질의의 법적 카테고리와 위험도에 따라 동적으로 조율해야 합니다. 예를 들어, 단순한 절차적 일정이나 행정 서식에 대한 질의의 경우 임계값을 낮게 설정하여 빠른 답변 속도를 확보하는 반면, 형사 소송의 양형 기준이나 복잡한 판례 대립 사안에 대해서는 임계값을 극대화하여 시스템이 최대한 많은 판례와 조문을 샅샅이 검색하도록 강제해야 합니다. 이때 검색 점수의 분산이 크다는 것은 해당 법률 용어가 다의적이거나 판례가 엇갈림을 의미하므로, 시스템은 자율적으로 '판례 상충 경고'를 생성하고 다각도 검색 루프를 활성화하는 방식으로 동작 메커니즘을 고도화해야 합니다.

기술적 트레이드오프

긴장 관계 이 기술은 고난도 질의에 대한 답변 정확도를 극대화할 수 있으나, 신뢰도 검증을 위한 다중 샘플링 및 반복 검색 루프로 인해 평균 답변 지연 시간(Latency)과 API 호출 비용이 상승하는 본질적인 긴장 관계를 가집니다.

실무적 해소 이를 실무적으로 해결하기 위해, 1차 검색 결과의 유사도 점수 분포가 극도로 명확한 경우 자가 일관성 검증 단계를 생략하는 '조기 종료(Early Exit)' 메커니즘을 도입하고, 신뢰도 평가 모델을 대형 LLM 대신 로컬에 배포된 초경량 sLLM으로 대체하여 비용과 속도를 동시에 최적화합니다.

법마디 OS에 적용한다면

법마디 OS의 검색증강 엔진에 AB-RAG 프레임워크를 탑재하여 '지능형 예산 제어 RAG' 모듈로 업그레이드할 것입니다. 사용자가 법률 질의를 입력하면, 먼저 법마디 OS의 의도 분석기가 질의의 난이도와 법적 위험도를 실시간으로 분류합니다. 이 분류 결과에 따라 초기 검색 예산과 목표 신뢰도 임계값이 동적으로 할당됩니다. 1차 검색 후 반환된 판례들의 법률 인용 그래프 일관성과 코사인 유사도 분산을 측정하여 신뢰도 점수를 산출합니다. 만약 신뢰도가 기준 미달일 경우, 법마디 OS 내부의 '법률 쿼리 확장기'가 작동하여 추가 검색을 수행합니다. 이 과정에서 관련 조문 및 하급심 판례를 타겟팅하는 정밀 쿼리가 자동 생성됩니다. 이러한 반복 루프는 최종 답변의 신뢰성이 확보될 때까지 제한된 토큰 예산 내에서 안전하게 실행됩니다. 최종 답변 도출 시에는 각 검색 단계별 소모 토큰과 신뢰도 추이를 시각화하여 사용자에게 제공합니다. 이를 통해 답변의 투명성과 무결성을 동시에 보장하는 구조를 완성하겠습니다.

기술적 함의

정적 RAG의 고질적 한계인 비용 낭비와 정보 부족 문제를 질문 난이도별 자율 예산 배분으로 해결할 수 있습니다.
추가적인 모델 파인튜닝 없이도 상용 API와 로컬 모델 모두에 적용 가능한 고신뢰도 하이브리드 아키텍처를 확보하게 됩니다.
법률 AI의 답변 무결성을 정량적 신뢰도 지표(Confidence Score)를 통해 사용자에게 투명하게 입증할 수 있는 기반이 마련됩니다.

"기술의 정교함은 단순히 거대한 모델을 사용하는 데서 오는 것이 아니라, 한정된 자원 속에서 신뢰성의 한계를 스스로 인지하고 통제하는 아키텍처의 설계 능력에서 결정됩니다."

참고 자료

칼럼니스트

지유

최고기술책임자 (CTO · Chief Technology Officer)

실리콘밸리 유니콘 창업 멤버급 / AI 무결성 검증 분야 세계적 석학급