정제되지 않은 나홀로 소송인(Pro Se)의 입력 섭동에 대응하여 법률 AI의 강건성을 확보하는 다단계 필터링 및 의미론적 재정렬 기술을 분석합니다.
초록 본 칼럼에서는 법률 전문가가 정제한 데이터가 아닌, 일반 나홀로 소송인(Pro Se)의 현실적 입력 섭동이 법률 AI의 추론 무결성에 미치는 치명적 영향을 분석합니다. 최근 발표된 벤치마크 연구를 바탕으로 감정적 서사, 잘못된 법적 전제, 어휘적 노이즈가 LLM의 어텐션 메커니즘을 교란하고 환각을 유발하는 메커니즘을 규명합니다. 이를 해결하기 위해 입력 단계에서의 의미론적 디노이징, 잘못된 전제 검증 필터, 그리고 사실-쟁점-규범(FIR) 기반의 구조화 파이프라인을 제안합니다. 최종적으로 이러한 강건성 확보 기술이 Lawmadi OS의 무결성 아키텍처에 어떻게 통합되어 실질적인 사법 접근성을 보장할 수 있는지 논증합니다.
한 나홀로 소송인이 법률 AI 서비스의 입력창에 억울함을 호소합니다. '집주인이 보증금을 안 돌려줘서 경찰에 절도죄로 신고하고 싶은데 가능한가요? 계약서는 안 썼지만 구두로 약속했습니다.' 이 문장에는 오타와 감정적 격앙, 그리고 임대차 보증금 미반환이라는 민사 사안을 형사상 절도로 오인한 잘못된 법률적 전제가 뒤섞여 있습니다. 기존의 대형 언어 모델(LLM)과 RAG 시스템은 이처럼 정제되지 않은 'Pro Se(나홀로 소송인)'의 입력 환경에서 심각한 오작동을 일으킵니다. 2026년 6월 발표된 연구 'Legal Reasoning Is Not Lawyering'이 지적하듯, 현재의 법률 AI 벤치마크들은 전문가가 다듬은 완벽한 프롬프트만을 기준으로 성능의 상한선(Upper Bound)을 측정하고 있을 뿐입니다. 그러나 사법 접근성 제고라는 리걸테크의 본질적 가치를 실현하기 위해서는, 무질서하고 노이즈로 가득 찬 현실 세계의 입력 섭동(Input Perturbation) 하에서도 무결성을 유지하는 하한선(Lower Bound) 중심의 강건성 설계가 시급합니다.
사용자의 입력 데이터에 포함된 오타, 감정적 서사, 문법적 오류, 혹은 잘못된 개념적 전제 등 모델의 정상적인 추론을 방해하는 다양한 형태의 비정형 노이즈를 의미합니다.
입력 데이터에 노이즈나 왜곡이 발생하더라도 시스템이 본래의 성능을 잃지 않고 일관되게 정확하고 신뢰할 수 있는 출력을 생성해내는 능력을 뜻합니다.
나홀로 소송인(Pro Se)의 입력은 법률 전문가의 정형화된 쿼리와 달리 감정적 호소, 불필요한 배경 서사, 법률 용어의 오용 등의 노이즈를 포함합니다. 이러한 현상을 '입력 섭동(Input Perturbation)'으로 정의하고, 이를 수학적 및 언어학적 관점에서 체계적으로 분석해야 합니다. 섭동은 크게 어휘적 노이즈(오타, 비표준어), 구문적 혼란(비선형적 시간 배열), 의미론적 왜곡(잘못된 법적 전제)의 세 가지 레이어로 모델링됩니다. 이를 방치할 경우, 임베딩 모델은 고차원 벡터 공간에서 엉뚱한 법률 문서와 유사도를 계산하게 되며, 결과적으로 RAG 시스템의 검색 정밀도(Retrieval Precision)를 급격히 떨어뜨리는 치명적인 결과를 초래합니다. 따라서 입력 단계에서 이 섭동 성분을 분리하고 정규화하는 전처리 모델링이 필수적입니다.
Pro Se 입력은 대개 사건의 전말을 일기 형식으로 길게 나열하는 경향이 있어, 입력 컨텍스트의 길이가 불필요하게 늘어납니다. LLM은 컨텍스트가 길어질수록 중간에 위치한 핵심 정보를 망각하는 'Lost in the Middle' 현상이나, 무관한 노이즈 텍스트에 Attention 가중치를 잘못 할당하는 'Attention Distraction' 문제를 겪습니다. 특히 법률 추론에서는 단 하나의 날짜나 단어(예: '구두 합의')가 결론을 바꾸는 결정적 단서가 되는데, 감정적 서사로 가득 찬 텍스트 더미 속에서 이러한 미세한 법적 사실(Salient Legal Facts)을 식별하는 능력이 급격히 저하됩니다. 이는 트랜스포머 아키텍처의 소프트맥스 어텐션 메커니즘이 가진 본질적 한계에서 기인하며, 입력의 희소성(Sparsity)을 확보하지 못하면 추론 무결성은 쉽게 붕괴됩니다.
Pro Se 입력의 한계를 극복하기 위해, RAG 검색 전 단계에서 원시 입력을 정제하는 '의미론적 디노이징(Semantic Denoising)' 파이프라인 구축이 필수적입니다. 이 파이프라인은 1차적으로 맞춤법 및 오타를 교정하는 어휘 필터링을 거친 후, 2차적으로 감정적 표현과 중복된 서사를 제거하는 텍스트 압축(Text Compression)을 수행합니다. 마지막 3차 단계에서는 비정형 서사를 시간 순서에 따른 사실관계(Chronological Facts)와 당사자 간의 주장(Claims)으로 분리하여 구조화합니다. 이 과정에서 LLM의 제로샷(Zero-shot) 요약에만 의존할 경우 중요한 법적 단서까지 소실될 위험이 있으므로, 개체명 인식(NER)과 의존 구문 분석(Dependency Parsing)을 결합한 하이브리드 파서 아키텍처를 도입하여 정보의 손실을 원천적으로 방지해야 합니다.
나홀로 소송인은 종종 잘못된 법적 전제를 진실로 믿고 이를 바탕으로 질문을 구성합니다. LLM은 프롬프트의 전제를 무비판적으로 수용하는 '시코팬시(Sycophancy)' 경향이 있어, 사용자의 잘못된 전제에 동조하여 법적으로 완전히 왜곡된 답변을 생성하는 취약성을 보입니다. 이를 해결하기 위해 입력 쿼리 내에 포함된 법률적 가정(Legal Assumptions)을 명시적으로 추출하고, 이를 신뢰할 수 있는 법률 지식베이스(KB)와 교차 검증하는 '전제 검증 필터(Premise Verification Filter)'를 설계해야 합니다. 검증 결과 전제가 거짓으로 판명되면, 시스템은 검색 쿼리를 올바른 법적 개념으로 치환하여 RAG를 수행하는 동시에, 답변 생성 시 사용자의 오해를 선제적으로 교정하는 정렬 메커니즘을 작동시켜야 합니다.
긴장 관계 사용자 입력에서 노이즈를 제거하는 과정에서 법적으로 유의미한 미세 단서가 소실될 위험(Completeness Loss)과, 노이즈를 그대로 방치하여 발생할 수 있는 모델의 환각 및 검색 정밀도 저하(Hallucination Risk) 사이의 본질적 긴장이 존재합니다.
실무적 해소 이를 해결하기 위해 법적 중요도 점수화(Saliency Scoring) 메커니즘을 도입합니다. 단순 텍스트 압축이 아닌, 법률 온톨로지와 매핑되는 핵심 개체 및 관계는 보존 가중치를 부여하고, 감정적 수식어나 단순 반복 서사만 선택적으로 소거하는 하이브리드 정보 보존 필터링을 통해 두 가치의 균형을 달성합니다.
Lawmadi OS의 차세대 입력 인터페이스에 'Pro-Se 입력 정규화 엔진(Pro-Se Input Normalizer, PIN)'을 탑재하는 설계를 제안합니다. PIN은 사용자가 입력한 가공되지 않은 서사형 텍스트를 실시간으로 분석하여, 법적 효력이 있는 사실(Fact), 분쟁의 쟁점(Issue), 사용자의 요구사항(Remedy)으로 자동 분류하는 'FIR 구조화 모듈'을 핵심으로 합니다. 이 과정에서 오타와 잘못된 법률 용어는 온톨로지 기반의 시맨틱 매핑 테이블을 통해 표준 법률 용어로 자동 변환되며, 감정적 서술은 벡터 임베딩 가중치 계산에서 제외됩니다. 이렇게 정제된 FIR 구조를 바탕으로 다중 경로 RAG(Multi-path RAG)를 수행함으로써, 검색 쿼리의 노이즈를 최소화하고 판례 및 조문 검색의 재현율(Recall)과 정밀도(Precision)를 동시에 극대화합니다. 결과적으로 Lawmadi OS는 사용자의 정제되지 않은 언어 속에서도 본질적인 법적 쟁점을 정확히 포착하여, 전문가 수준의 고무결성 법률 자문을 제공할 수 있게 됩니다.
"기술의 진정한 가치는 가장 다듬어지지 않은 목소리 속에서도 흔들림 없는 법적 진실을 찾아내는 강건함에 있습니다."