텍스트 유사도 기반 환각 탐지의 한계를 극복하기 위해, 생성 답변과 증거 간의 국소 증거 그래프를 동적으로 구축하고 구조적 일관성을 측정하여 법률 AI의 신뢰성을 극대화하는 방안을 제안합니다.
초록 본 칼럼에서는 검색 증강 생성(RAG) 시스템에서 발생하는 미세 환각을 차단하기 위한 새로운 패러다임으로 '증거 그래프 일관성(Evidence Graph Consistency, EGC)' 기법을 제안하고 그 학술적 원리를 분석합니다. 기존의 RAG 환각 탐지는 생성 문장과 검색 문서 간의 단순 표면적 유사도 비교에 의존하여, 개별 증거 간의 유기적 모순이나 논리적 단절을 식별하는 데 한계가 있었습니다. 이를 해결하기 위해 생성된 응답의 개별 주장들과 검색된 법률 증거 조각들을 노드로 정의하고, 이들의 논리적 관계를 엣지로 연결하는 국소 증거 그래프(Local Evidence Graph)를 동적으로 구축합니다. 나아가 그래프 내 5가지 구조적 일관성 척도를 도출하여 환각을 정량적으로 진단하고, Llama 및 GPT 계열 등 모델 제품군별로 상이하게 나타나는 구조적 편향을 규명합니다. 최종적으로 이 검증 프레임워크를 법마디 OS의 추론 파이프라인에 이식하여 실무적 신뢰성을 확보하는 아키텍처적 해법을 제시합니다.
법률 AI가 판례를 인용하거나 계약서 조항을 분석할 때, 단 하나의 단어 변형이나 사소한 논리 왜곡도 심각한 법적 리스크를 초래합니다. 현업의 엔지니어들은 이러한 환각(Hallucination) 현상을 억제하기 위해 RAG 시스템을 도입하고 코사인 유사도나 바이오프레임워크 기반의 의미적 유사도 필터를 적극적으로 적용해 왔습니다. 그러나 소송 대리인이 제출한 준비서면을 분석하는 실제 시나리오에서, 기존의 유사도 기반 검증기는 개별 문장 자체는 원문과 매우 유사하지만 전체적인 인과관계가 왜곡된 정교한 거짓말을 잡아내지 못합니다. 이는 텍스트를 평면적인 벡터 공간에 투영하는 방식이 문장 간의 유기적 결합과 논리적 정합성이라는 고차원적 위상을 보존하지 못하기 때문입니다. 법률 문서의 무결성을 확보하기 위해서는 텍스트의 표면적 일치율을 측정하는 단계를 넘어, 생성된 주장과 참조된 증거가 형성하는 다차원적 관계망을 추적해야 합니다. 이에 본고에서는 최근 학계에서 주목받는 '증거 그래프 일관성(EGC)'의 메커니즘을 규명하고, 이를 리걸테크 시스템에 어떻게 내재화할 수 있을지 논증하고자 합니다.
생성된 답변의 개별 주장들과 검색된 증거 문서들을 노드로 설정하고 이들 간의 의미적·논리적 연결성을 엣지로 표현한 국소 그래프를 동적으로 구축하여, 그래프의 위상학적 구조를 통해 환각 여부를 판별하는 기술입니다.
특정 질의에 대해 생성된 응답과 그에 대응하는 검색 증거 조각들만을 대상으로 하여, 텍스트 간의 미시적 인과관계와 정합성을 노드와 엣지의 네트워크 형태로 표현한 부분 그래프입니다.
Llama 계열과 GPT/Mistral 계열 등 대규모 언어 모델의 아키텍처 및 학습 데이터 차이에 따라, 생성하는 환각의 유형과 구조적 정합성 패턴이 서로 다르게 나타나는 현상을 의미합니다.
EGC의 출발점은 생성된 텍스트 답변을 정형화된 그래프 구조로 변환하는 것입니다. 시스템은 LLM이 출력한 법률 답변에서 독립적인 사실적 주장(Claim)들을 원자 단위로 추출하고, RAG를 통해 검색된 원천 증거 문서(Evidence)들을 수집하여 각각을 노드(Node)로 정의합니다. 이후 문장 임베딩 및 자연어 추론(NLI) 모델을 활용하여 각 주장 노드와 증거 노드 간의 함의(Entailment), 모순(Contradiction), 중립(Neutral) 관계를 평가하고 이를 방향성 있는 엣지(Edge)로 연결합니다. 이러한 메커니즘을 통해 평면적인 텍스트는 다차원적인 논리 위상 그래프로 재구성되며, 각 노드가 서로를 어떻게 지지하거나 부정하는지가 시각적·수학적으로 명확해집니다. 다만 이 과정에서 자연어 추론 모델의 자체적인 분류 오류가 엣지 왜곡을 야기할 수 있으므로, 다중 NLI 앙상블 기법이나 엄밀한 임계값 설정을 통해 그래프 구축의 초기 신뢰성을 보정하는 대안적 설계가 필수적입니다.
동적으로 구축된 증거 그래프의 무결성을 평가하기 위해 EGC는 5가지 핵심 구조적 일관성 척도를 계산합니다. 이 척도들은 그래프 내에서 노드 간의 연결 밀도, 순환 경로의 존재 여부, 중심성 지표, 그리고 모순을 나타내는 대립 엣지의 비율 등을 종합적으로 계량화합니다. 예를 들어, 특정 법률적 주장이 다수의 신뢰할 수 있는 판례 증거 노드로부터 강한 함의 엣지를 받고 있으면서 동시에 모순 엣지가 최소화되어 있다면 구조적 일관성 점수는 극대화됩니다. 반대로, 겉보기에는 유려한 문장이지만 증거 노드와의 연결이 고립되어 있거나 상호 모순되는 순환 고리를 형성할 경우 시스템은 이를 즉각 환각으로 판정합니다. 이 메커니즘은 단순 키워드 매칭이 잡아내지 못하는 고차원적 논리 왜곡을 수학적 위상 분석으로 포착하는 데 탁월한 성능을 발휘합니다. 그러나 그래프가 지나치게 복잡해질 경우 연산 복잡도가 지수적으로 증가하므로, 서브그래프 분할 및 국소적 척도 계산을 통한 최적화가 수반되어야 합니다.
EGC 분석을 통해 규명된 매우 흥미로운 사실 중 하나는 모델 제품군에 따라 환각이 발생하는 구조적 패턴이 상이하다는 점입니다. Llama 계열의 오픈소스 모델들은 주로 증거 문서의 세부 수치나 고유명사를 누락하거나 엉뚱한 증거에 연결하는 '구조적 단절형' 환각을 자주 보이는 반면, GPT나 Mistral 계열의 모델들은 존재하지 않는 법적 근거를 정교하게 조작하여 기존 증거와 강제로 연결하는 '구조적 조작형' 환각을 보이는 경향이 있습니다. 이러한 모델 제품군 분리 현상은 각 모델의 사전 학습 코퍼스와 미세조정 방식의 차이에서 기인합니다. 따라서 단일한 검증 알고리즘을 고집하기보다는, 백엔드 LLM의 종류에 맞춰 가중치를 다르게 부여하는 맞춤형 EGC 필터링 아키텍처를 설계해야 합니다. Llama 모델을 사용할 때는 노드의 연결성 유실을 방지하는 누락 탐지에 집중하고, GPT 계열을 사용할 때는 가상의 노드가 무단으로 삽입되는 조작 탐지에 가중치를 두는 바이어스 보정 기법이 필수적입니다.
EGC 기법은 매우 정밀한 환각 탐지 능력을 제공하지만, 실시간 질의응답이 중요한 상용 리걸테크 환경에서는 심각한 레이턴시(Latency) 병목을 유발할 수 있습니다. 생성된 답변의 모든 문장 쌍과 검색된 수십 개의 증거 조각 간의 NLI 관계를 전수 평가하는 것은 O(N x M)의 계산 비용을 요구하며, 이는 사용자 경험을 저해하는 요인이 됩니다. 이러한 한계를 극복하기 위해, 본 연구에서는 모든 문장을 검증하는 대신 정보 획득 가치가 높은 핵심 법률 주장(Core Legal Claims)만을 선택적으로 샘플링하여 그래프를 구성하는 '적응형 노드 프루닝(Adaptive Node Pruning)' 기법을 대안으로 제시합니다. 또한, 이전 턴에서 이미 검증된 판례 노드들과의 관계는 캐싱(Caching) 레이어에 저장하여 재사용함으로써 중복 연산을 최소화합니다. 이와 같은 하이브리드 접근법을 통해, 위상 구조 분석의 정밀함을 유지하면서도 검증 파이프라인의 실시간 처리 속도를 상용화 가능한 수준인 1초 미만으로 단축할 수 있습니다.
긴장 관계 증거 그래프의 세밀도(Granularity)와 검증 연산 비용 간의 대립입니다. 노드와 엣지를 문단 단위로 성기게 구성하면 연산은 빠르나 정교한 미세 환각을 놓치고, 단어 및 개체명 단위로 아주 조밀하게 구성하면 환각 탐지율은 극대화되지만 그래프 구축과 위상 분석에 소요되는 컴퓨팅 자원과 시간이 기하급수적으로 증가합니다.
실무적 해소 이 긴장을 해결하기 위해 '이중 레이어 그래프(Dual-Layer Graph)' 아키텍처를 도입합니다. 1차 레이어에서는 문장 및 문단 수준의 거시적 그래프를 신속하게 구축하여 일관성 점수를 빠르게 스크리닝하고, 여기서 이상 징후가 감지되거나 신뢰도 임계값을 통과하지 못한 특정 서브프레임에 대해서만 2차 레이어인 단어·개체 수준의 미시적 그래프를 동적으로 전개하여 정밀 검증을 수행합니다. 이러한 계층적 필터링을 통해 전체 연산 비용을 기존 대비 70% 이상 절감하면서도 미세 환각 탐지의 정밀도를 높은 수준으로 유지할 수 있습니다.
법마디 OS의 차세대 무결성 엔진에 EGC 프레임워크를 이식하기 위해, 우리는 '실시간 법률 증거 위상 검증기(Real-time Legal Evidence Topology Verifier)' 레이어를 RAG 출력 단계 바로 뒤에 배치할 계획입니다. 사용자가 복잡한 민사 소송의 쟁점을 입력하면, 법마디 OS의 검색기(Retriever)가 추출한 대법원 판례 및 하급심 결정문들을 즉각 증거 노드로 변환합니다. 동시에 LLM 생성기가 초안 답변을 작성하는 과정에서 스트리밍되는 토큰들을 문장 단위로 파싱하여 실시간으로 주장 노드를 동적 생성합니다. 이 두 노드 군집 간의 논리적 함의 관계를 경량화된 로컬 NLI 모델을 통해 병렬 연산하여 국소 증거 그래프를 1차적으로 렌더링합니다. 만약 특정 판례의 판시사항과 생성된 답변의 해석 사이에 모순 엣지가 형성되거나 구조적 일관성 점수가 사전 정의된 임계값 이하로 떨어지면, 시스템은 사용자에게 답변을 노출하기 전에 생성 엔진에 즉각적인 '자가 교정(Self-Correction)' 루프를 트리거합니다. 이 아키텍처를 통해 법마디 OS는 단순한 텍스트 매칭을 넘어 법률적 논증의 구조적 완결성을 보증하는 독보적인 신뢰성을 확보하게 될 것입니다.
"법률 AI의 무결성은 단순히 텍스트의 유사함을 복제하는 데서 오는 것이 아니라, 법적 사실과 논증 사이의 견고한 위상학적 연결 고리를 증명하는 데서 완성됩니다."