SF-Re2G: 구조적 맥락 복원을 통한 법률 RAG 무결성

초록 전통적인 RAG 시스템은 긴 문서를 고정된 크기의 패시지로 쪼개어 인덱싱하는 과정에서 문서 고유의 구조적 맥락을 상실하는 심각한 한계를 지닙니다. 본 칼럼에서는 이러한 한계를 극복하기 위해 제안된 SF-Re2G(Structures Facilitate Retrieve, Rerank, and Generate) 아키텍처를 심층 분석합니다. 대조적 패시지 표현을 통한 구조 경계 내 의미 포착, 서브그래프 기반 구조 강화 재순위화, 그리고 서브그래프 맥락 생성으로 이어지는 3단계 메커니즘을 규명합니다. 최종적으로 이 기술이 법마디 OS의 법률 문서 해석 파이프라인에 가져올 패러다임 변화와 기술적 트레이드오프를 검토하고, 실무적 구현 방안을 도출합니다.

법률 문서의 본질은 고도의 구조화에 있습니다. 헌법부터 개별 법령, 계약서에 이르기까지 모든 법률 텍스트는 장, 절, 관, 조, 항, 호라는 정교한 위계적 질서 속에서 상호 유기적으로 작동합니다. 그러나 현재 대다수의 엔터프라이즈 RAG 시스템은 이러한 구조적 맥락을 완전히 무시한 채, 단순히 512토큰이나 1000토큰 단위의 텍스트 덩어리(Chunk)로 문서를 무참히 분쇄하여 벡터 데이터베이스에 저장합니다. 이로 인해 특정 조항을 검색했을 때, 그 조항의 전제 조건이 되는 앞선 조항이나 예외 규정을 담은 뒷선 조항과의 맥락적 연결고리가 끊어지는 치명적인 정보 손실이 발생합니다. 법률 AI가 단편적인 자구 해석에 매몰되어 오판을 내리는 근본적인 원인이 바로 여기에 있습니다. 본 칼럼에서는 최근 학계에서 주목받는 SF-Re2G 기술을 기반으로, 문서의 구조적 정보를 검색, 재순위화, 생성 전 과정에 통합하여 이 고질적인 문제를 어떻게 해결할 수 있는지 논증하고자 합니다.

핵심 기술 개념

SF-Re2G (Structures Facilitate Retrieve, Rerank, and Generate)

문서의 구조적 정보(Structure)를 검색(Retrieve), 재순위화(Rerank), 생성(Generate)의 전 과정에 체계적으로 통합하여 RAG의 정확도를 개선하는 프레임워크입니다.

대조적 패시지 표현 (Contrastive Passage Representation)

특정 패시지를 임베딩할 때 동일한 섹션 내의 다른 패시지들을 부정적 샘플로 활용해 대조 학습함으로써, 구조적 경계 내에서 패시지의 독특한 의미적 특징을 극대화하는 기법입니다.

구조 강화 재순위화 (Structure-Enhanced Reranking)

검색된 후보 패시지들을 문서 구조에 따라 서브그래프 형태로 그룹화하고, 인접 패시지 간의 맥락적 연관성을 반영하여 후보들의 순위를 재조정하는 기술입니다.

기술 심층 분석

1

구조적 파편화의 한계와 SF-Re2G의 등장 배경

전통적인 RAG는 텍스트를 기계적으로 분할하는 과정에서 문서의 '구조적 뼈대'를 영구히 유실합니다. 예를 들어 민법 제750조(불법행위의 내용)를 검색할 때, 바로 인접한 제751조(재산 이외의 손해의 배상)나 제752조(생명침해로 인한 위자료)와의 구조적 인접성이 무시되면, AI는 불법행위 책임의 전체적인 그림을 그리지 못하고 단편적인 답변만을 생성하게 됩니다. SF-Re2G는 이러한 단편화를 극복하기 위해 문서 구조 자체를 일급 시민(First-class citizen)으로 취급합니다. 이 프레임워크는 단순히 텍스트의 유사성만을 비교하는 것을 넘어, 문서의 목차 구조, 조항 간의 위계, 인접성 정보를 수학적 그래프 구조로 변환하여 검색 엔진에 주입합니다. 이를 통해 개별 패시지가 고립된 정보가 아니라, 전체 문서 구조 속에서 유기적으로 호흡하는 노드로 기능하게 만드는 것이 SF-Re2G의 핵심적 출발점입니다.

2

대조적 패시지 표현(CPR)의 동작 원리

SF-Re2G의 첫 번째 관문은 검색 단계에서 구조적 경계를 인식하는 임베딩을 생성하는 것입니다. 대조적 패시지 표현(CPR)은 특정 패시지를 임베딩할 때, 동일한 섹션(예: 동일한 '장' 또는 '절')에 속한 다른 패시지들을 '부정적 샘플(Negative Samples)'로 활용하여 대조 학습을 수행합니다. 이 메커니즘을 통해 모델은 같은 섹션 내에서 해당 패시지만이 가지는 고유한 법적 쟁점과 미세한 의미 차이를 극대화하여 학습하게 됩니다. 결과적으로, 단순히 법률 용어가 겹친다는 이유로 엉뚱한 조항이 검색되는 오검색을 방지하고, 구조적으로 밀접하면서도 의미론적으로 정확히 일치하는 패시지를 정밀하게 타격하여 찾아낼 수 있습니다. 이는 기존의 범용 임베딩 모델이 잡아내지 못하는 법률 문서 특유의 미세한 구조적 대조성을 완벽히 포착해내는 혁신적인 접근법입니다.

3

서브그래프 기반 구조 강화 재순위화(Structure-Enhanced Reranker)의 메커니즘

1차 검색을 통해 확보된 후보 패시지들은 문서 내의 실제 위치에 따라 '서브그래프(Subgraph)' 형태로 재조직됩니다. 법률 문서에서 정답의 단서가 되는 조항들은 대개 하나의 조(條)나 항(項) 주변에 모여 있다는 '공간적 국소성(Spatial Locality)'에 기반한 설계입니다. 구조 강화 재순위화기(Structure-Enhanced Reranker)는 개별 패시지의 독립적 점수만을 평가하지 않고, 해당 패시지가 속한 서브그래프 전체의 맥락 점수를 통합하여 후보들의 최종 순위를 재조정(Rescore)합니다. 만약 검색된 패시지 A가 단독 점수는 낮지만, 주변에 점수가 매우 높은 패시지 B와 C가 인접해 있다면, 이들은 하나의 강한 법적 맥락 서브그래프를 형성하므로 패시지 A의 순위 역시 동반 상승하게 됩니다. 이 메커니즘은 파편화된 검색 결과들을 유기적인 법률 맥락 덩어리로 묶어줌으로써 RAG 답변의 논리적 단절을 원천적으로 예방합니다.

4

서브그래프 맥락 생성(Subgraph Context Generation)의 추론 흐름

최종 생성 단계에서 SF-Re2G는 선택된 핵심 패시지 단독으로 LLM에 전달하지 않습니다. 대신, 재순위화를 거쳐 최종 낙점된 패시지들과 이들이 속한 서브그래프의 맥락 정보(예: 해당 조항의 상위 장·절 제목, 앞뒤 인접 조항의 핵심 요약 등)를 풍부하게 결합하여 생성 모델의 컨텍스트 윈도우에 주입합니다. LLM은 단순히 '제O조'라는 텍스트만 보고 추론하는 것이 아니라, '제O편 제O장 제O조'라는 구조적 지도와 인접 조항들과의 유기적 관계를 한눈에 파악한 상태에서 답변을 작성하게 됩니다. 이 방식은 LLM이 법률 조항의 예외 규정이나 준용 규정을 빠뜨리지 않고 종합적으로 고려하도록 강제함으로써, 법률 해석의 왜곡이나 누락으로 인한 치명적인 환각 현상을 획기적으로 억제하는 결과를 낳습니다.

기술적 트레이드오프

긴장 관계 문서 구조 정보를 그래프화하고 대조 학습 및 서브그래프 연산을 추가함에 따라 발생하는 인덱싱 및 추론 연산 비용의 증가와, 법률 해석의 정밀도 및 맥락적 무결성 확보 사이의 긴장 관계입니다. 특히 실시간 질의 응답 환경에서 복잡한 그래프 탐색은 시스템의 지연 시간(Latency)을 가중시키는 요인이 됩니다.

실무적 해소 실무적으로는 모든 문서에 이 기법을 일괄 적용하기보다, 구조적 복잡성이 높은 법령 및 계약서 데이터베이스에 한해 SF-Re2G 파이프라인을 활성화하는 하이브리드 전략을 취합니다. 또한, 1차 검색 단계에서는 경량화된 벡터 인덱스를 사용하여 후보군을 빠르게 압축합니다. 이후 상위 K개의 후보에 대해서만 서브그래프를 동적으로 구성하여 재순위화를 수행함으로써 실시간 서비스 수준의 지연 시간을 유지합니다.

법마디 OS에 적용한다면

법마디 OS의 차세대 지능형 법률 검색 엔진에 SF-Re2G 아키텍처를 이식하기 위해 구체적인 로드맵을 수립하였습니다. 첫 단계로 국내 법령 및 판례의 계층 구조를 자동으로 파싱하여 그래프 데이터베이스와 연동하는 '구조적 메타데이터 파이프라인'을 구축할 것입니다. 법률 텍스트 파싱 시 조·항·호 단위의 부모-자식 관계 및 선후 관계를 그래프의 엣지(Edge)로 정의하여 저장합니다. 이어서 대조적 패시지 표현(CPR)을 위해 한국어 법률 특화 인코더를 파인튜닝하여 구조 내 대조 손실(Contrastive Loss)을 학습시킬 계획입니다. 검색 요청이 들어오면, 하이브리드 검색으로 추출된 1차 노드들을 기반으로 런타임에 동적 서브그래프를 생성합니다. 그 다음 구조 강화 재순위화 레이어를 통해 인접 조항들의 가중치를 정밀하게 보정하는 단계를 거칩니다. 마지막으로 생성 에이전트에게 전달되는 컨텍스트에 해당 서브그래프의 계층적 경로를 명시적으로 주입합니다. 이를 통해 법마디 OS가 복잡한 다년차 계약서나 다층적 법령 해석 요구에도 흔들림 없는 완벽한 정합성의 답변을 도출하도록 업그레이드하겠습니다.

기술적 함의

arrow_forward RAG 시스템에서 문서의 물리적 분할이 초래하는 맥락 손실을 '구조적 관계 복원'을 통해 해결할 수 있음을 증명합니다.
arrow_forward 단순한 텍스트 유사도 비교를 넘어, 문서 내 공간적 인접성이 검색 신뢰도의 핵심 지표가 될 수 있음을 보여줍니다.
arrow_forward LLM에게 단순 지식이 아닌, 지식이 위치한 구조적 지도를 제공하는 것이 환각 제어의 가장 우아한 해법임을 시사합니다.

"법률 AI의 진정한 지능은 텍스트의 파편을 모으는 데 있지 않고, 그 파편들이 얽혀 있는 정교한 법적 구조의 그물을 이해하는 데서 출발합니다."

참고 자료

칼럼니스트

지유

최고기술책임자 (CTO · Chief Technology Officer)

실리콘밸리 유니콘 창업 멤버급 / AI 무결성 검증 분야 세계적 석학급