동적 예산 분배를 통한 리걸 RAG의 비용-신뢰성 최적화

초록 전통적인 검색증강생성(RAG) 시스템은 질문의 난이도와 무관하게 고정된 수의 문서를 검색하여 처리함으로써, 단순 질의에는 불필요한 토큰 비용을 소모하고 복잡한 다중 쟁점 질의에는 정보 부족으로 인한 환각을 유발하는 한계를 지닙니다. 본 칼럼에서는 모델의 추가 학습 없이 동적으로 검색 예산을 조절하고 자가 신뢰도(Confidence)를 평가하는 적응형 예산 기반 RAG(AB-RAG) 프레임워크의 메커니즘을 분석합니다. 모델 자체의 확신도, 생성 답안과 근거 문서 간의 일치도, 그리고 검색 엔진의 점수 분산을 유기적으로 결합하여 신뢰도를 추정하는 다차원 메트릭을 제안합니다. 최종적으로 이를 법률 특화 의사결정 파이프라인에 이식함으로써 고정비용 RAG의 한계를 극복하고 법률 AI의 논리적 무결성과 운영 효율성을 동시에 달성하는 아키텍처를 제시합니다.

실무 법률 상담이나 판례 분석 과정에서 마주하는 질문의 깊이는 천차만별입니다. 예를 들어 '법정 상속분의 산정 방식'과 같이 명문화된 조문 하나로 명쾌하게 답할 수 있는 단순 질의가 있습니다. 반면 '다국적 기업의 영업비밀 침해에 따른 국제 사법상 손해배상 책임'처럼 수많은 판례와 국제 협약, 개별 사실관계를 교차 검증해야 하는 고난도 질의도 공존합니다. 그러나 현재 대다수의 리걸테크 RAG 시스템은 질문의 복잡성에 상관없이 항상 상위 K개의 문서를 일률적으로 검색하여 LLM에 주입하는 정적 아키텍처를 채택하고 있습니다. 이러한 고정형 접근법은 쉬운 질문에 과도한 컨텍스트 토큰을 낭비하여 지연 시간과 API 비용을 급증시킵니다. 동시에 정작 정밀한 탐색이 필요한 복잡한 쟁점에서는 컨텍스트 부족으로 인한 치명적인 환각을 초래하는 결과를 낳습니다. 법률 AI가 실무에서 신뢰를 얻기 위해서는 질문의 난이도를 스스로 인지해야 합니다. 그리고 이에 맞추어 지식 탐색의 깊이와 컴퓨팅 자원을 유연하게 배분하는 적응형 예산 패러다임으로의 전환이 필수적입니다.

핵심 기술 개념

AB-RAG (Adaptive Budgeted Retrieval-Augmented Generation)

질문의 난이도에 따라 검색할 문서의 양과 추론 단계를 동적으로 조절하여, 정해진 비용(예산) 범위 내에서 답변의 품질과 신뢰도를 극대화하는 검색증강생성 프레임워크입니다.

자가 일관성 (Self-consistency)

동일한 입력에 대해 LLM으로부터 복수의 디코딩 경로(Path)를 생성하고, 이들의 의미론적 일치도를 비교하여 모델 스스로가 도출한 답변의 확신도를 정량적으로 평가하는 기법입니다.

검색 점수 분산 (Search Score Variance)

검색 결과로 반환된 문서들의 유사도 점수 분포가 얼마나 조밀하거나 퍼져 있는지를 나타내는 척도로, 검색된 정보의 집중도와 질문과의 부합도를 간접적으로 평가하는 지표입니다.

기술 심층 분석

동적 예산 할당의 핵심: 다차원 신뢰도(Confidence) 추정 메커니즘

AB-RAG의 동작 메커니즘은 생성된 답변의 신뢰도를 실시간으로 정밀 측정하는 것에서 출발합니다. 신뢰도는 단일 지표가 아닌 세 가지 핵심 신호의 결합으로 계산됩니다. 첫째, 백본 모델의 자체 확신도로, API 기반 폐쇄형 모델의 경우 다중 생성 경로 간의 자가 일관성(Self-consistency)을 측정하여 의미적 엔트로피를 산출합니다. 둘째, 생성된 답변과 실제 검색된 원천 근거 문서 간의 자연어 추론(NLI) 기반 일치도(Entailment Score)를 산출하여 답변이 사실에 부합하는지 검증합니다. 셋째, 검색 엔진이 반환한 상위 문서들의 유사도 점수 분산(Variance)을 분석하여, 검색 결과가 특정 논점에 집중되어 있는지 혹은 무의미한 노이즈로 흩어져 있는지 판별합니다. 이 세 가지 신호가 가중합(Weighted Sum)을 통해 단일 신뢰도 점수로 수렴되며, 이 점수가 사전에 설정된 임계값(Threshold)을 넘지 못할 경우 시스템은 즉각 추가 검색 루프를 트리거합니다.

다회전 검색 루프(Multi-Round Retrieval)와 중단 시점의 수학적 결정

초기 검색(Round 1)에서 산출된 신뢰도 점수가 임계값 미만일 경우, 시스템은 검색 예산 범위 내에서 추가 검색을 수행하는 다회전 루프로 진입합니다. 이때 단순히 동일한 쿼리를 재전송하는 것이 아니라, 이전 라운드에서 생성된 임시 답변과 누적된 컨텍스트를 분석하여 '정보 공백(Information Gap)'을 메우기 위한 정교한 하위 쿼리(Sub-query)를 재생성합니다. 매 라운드마다 누적된 문서 집합을 기반으로 답변을 재구성하고 신뢰도를 갱신합니다. 이 반복 루프는 신뢰도가 임계값을 초과하거나, 누적된 검색 비용(토큰 수 및 API 호출 횟수)이 최대 허용 예산에 도달하는 순간 즉시 중단(Early Stopping)됩니다. 이를 통해 불필요한 연산 자원의 낭비를 엄격히 통제하면서도, 고난도 질의에 대해서는 다각도의 판례 분석을 유도하는 동적 조절이 가능해집니다.

폐쇄형 LLM 환경에서의 블랙박스 자가 일관성 역추적 기법

가중치나 로짓(Logits)에 직접 접근할 수 없는 상용 폐쇄형 API LLM을 백본으로 사용할 때, 자가 신뢰도를 측정하는 것은 기술적 난제입니다. AB-RAG는 이를 극복하기 위해 온도(Temperature) 하이퍼파라미터를 조절하여 동일 질문에 대해 복수의 독립적인 답변 후보군을 샘플링하는 방식을 채택합니다. 생성된 답변들의 임베딩 벡터를 추출하여 코사인 유사도 행렬을 구성하고, 이들의 평균 유사도 및 클러스터링 밀도를 분석하여 자가 일관성 점수를 역산합니다. 만약 생성된 답변들이 고도로 일관된 논리를 전개한다면 모델의 확신도가 높은 것으로 판단하고, 반대로 답변들이 서로 모순되거나 파편화되어 있다면 확신도가 낮은 것으로 판정합니다. 이 기법은 모델 내부 파라미터에 의존하지 않으면서도 API 호출 수준에서 신뢰성 있는 불확실성(Uncertainty) 지표를 제공한다는 점에서 실무적 가치가 매우 높습니다.

정보 과부하와 컨텍스트 노이즈 전파의 한계 및 필터링 대안

적응형 검색이 지닌 본질적 한계는 추가 검색 라운드가 진행됨에 따라 컨텍스트 윈도우 내에 무관한 노이즈 문서가 유입될 가능성이 기하급수적으로 증가한다는 점입니다. 법률 문서의 특성상 유사한 법률 용어가 서로 다른 판례에서 완전히 다른 맥락으로 사용되기 때문에, 단순 유사도 기반으로 검색량을 늘리면 오히려 '컨텍스트 드리프트'가 발생하여 모델이 혼란에 빠질 수 있습니다. 이를 해결하기 위해 매 라운드 추가 검색된 문서는 즉시 프롬프트에 주입되는 것이 아니라, '의도 인지형 정보 밀도 필터(Intent-Aware Density Filter)'를 거쳐야 합니다. 이 필터는 질문의 본질적 요건사실(Fact of Claim)과 새로 검색된 문서 간의 직접적인 인과관계를 문장 수준에서 교차 검증하고, 정보 획득량(Information Gain)이 기준치 이하인 문서는 과감히 배제하여 컨텍스트의 순도를 유지합니다.

동적 임계값 설정(Dynamic Thresholding)과 도메인 특화 교정

AB-RAG의 실무적 성공 여부는 검색 중단 여부를 결정하는 임계값을 어떻게 설정하느냐에 달려 있습니다. 모든 법률 분야에 동일한 임계값을 적용할 경우, 정밀성이 극도로 요구되는 형사 소송이나 세법 분야에서는 불충분한 검색으로 오답이 발생하고, 비교적 정형화된 민사 서식 작성에서는 과도한 검색으로 지연 시간이 늘어나는 부작용이 발생합니다. 따라서 법마디 OS는 질의의 도메인 카테고리(예: 조세, 특허, 노동 등)와 사용자의 요구 정밀도 수준에 따라 임계값을 동적으로 교정하는 '도메인 인지형 임계값 엔진'을 도입합니다. 예를 들어 형사 판례 분석 질의의 경우 임계값을 높여 다각도의 판례 검색을 강제하고, 단순 법률 용어 정의 질의는 임계값을 낮추어 즉각적인 단회전 답변 생성을 유도함으로써 시스템 전반의 효율성을 극대화합니다.

기술적 트레이드오프

긴장 관계 검색의 정밀성 및 답변의 신뢰성을 극대화하는 것과, 다중 검색 루프로 인해 발생하는 API 호출 비용 및 사용자 지연 시간(Latency) 간의 팽팽한 긴장 관계가 존재합니다. 임계값을 높이면 환각은 줄어들지만 시스템 운영 비용과 응답 대기 시간이 선형적으로 증가합니다.

실무적 해소 이를 해결하기 위해 1차 검색 결과의 신뢰도가 극도로 낮은 경우에만 다중 회전 검색을 수행하는 이단계(Two-tier) 하이브리드 방식을 설계합니다. 점수 분산이 임계값 근처일 때는 추가 검색 대신 가벼운 로컬 임베딩 재순위화(Reranking)로 연산량을 최소화합니다. 또한, 이전 질의들의 질문 패턴과 검색 깊이를 지능형 캐싱(Caching) 레이어에 기록하여 활용합니다. 이를 통해 유사한 난이도의 질의에 대해서는 추가 검색 루프 없이 최적의 검색 예산을 즉각 할당함으로써 응답 속도를 비약적으로 단축합니다.

법마디 OS에 적용한다면

법마디 OS의 차세대 엔진에 AB-RAG 아키텍처를 이식하기 위해, 우리는 먼저 법률 도메인에 특화된 3대 신뢰도 지표 산출 모듈을 구현합니다. 사용자가 복잡한 사실관계를 입력하면, 1차적으로 법률 특화 ModernBERT 기반 임베딩 모델로 판례를 검색하고 이들의 점수 분산을 계산합니다. 동시에 백본 LLM에 온도 조절을 적용하여 3개의 독립적 초안 답변을 병렬 생성하고, 자가 일관성 검증 모듈을 통해 의미론적 합의 여부를 판단합니다. 만약 합의 점수가 기준 미달일 경우, 시스템은 즉각 추가 쟁점 식별기를 가동하여 누락된 요건사실을 보완하는 하위 쿼리를 생성합니다. 이 하위 쿼리를 바탕으로 2차 검색을 수행하여 정보 공백을 메우는 과정을 거칩니다. 이 과정에서 발생하는 지연 시간을 최소화하기 위해 병렬 비동기 호출을 기본 프로토콜로 채택합니다. 최종 답변 생성 시에는 각 라운드별로 참조된 법률 조항과 판례의 인용 정합성을 교차 검증하는 가드레일을 적용합니다. 결과적으로 법마디 OS는 단순 상담부터 고난도 판례 분석까지 일관되게 신뢰할 수 있는 법률 답변을 최소의 비용으로 도출하게 됩니다.

기술적 함의

고정형 RAG의 한계를 극복하고 질문의 복잡도에 따라 컴퓨팅 자원을 동적으로 배분하는 적응형 아키텍처의 표준을 제시합니다.
모델 재학습 없이도 자가 신뢰도 평가와 다중 검색 루프 제어를 통해 법률 AI의 치명적인 환각 현상을 획기적으로 억제할 수 있습니다.
토큰 비용과 응답 지연 시간의 효율적 통제를 통해 상용 리걸테크 서비스의 지속 가능한 비즈니스 모델 구축에 기여합니다.

"기술의 위대함은 무한한 자원을 소모하는 화려함에 있는 것이 아니라, 한정된 예산 속에서 가장 정밀한 진실을 길어 올리는 영리함에 있습니다."

참고 자료

칼럼니스트

지유

최고기술책임자 (CTO · Chief Technology Officer)

실리콘밸리 유니콘 창업 멤버급 / AI 무결성 검증 분야 세계적 석학급

법마디 OS 무료로 경험하기

본 칼럼은 법마디 OS 기술팀의 관점이며, 특정 제품·기술에 대한 보증이나 법률 자문이 아닙니다.