판례가 서로를 인용하며 만든 인용 그래프를 검증의 지식기반으로 삼으면, 생성 AI가 만들어낸 인용의 실재성·관련성·시점 유효성을 구조적으로 짚어낼 수 있다.
초록 법률 생성 AI의 가장 치명적인 실패는 존재하지 않는 판례·조문을 그럴듯하게 인용하는 ‘인용 환각’이다. 최근 연구들은 판례가 서로를 인용하며 형성한 인용 그래프와 외부 지식기반을 검증 축으로 삼아, 단순 문자열 유사도를 넘어 인용의 실재성·관련성·시점 유효성을 동시에 점검하는 방향으로 수렴하고 있다. 본 칼럼은 이 흐름을 정리하고, 법마디 OS의 fail-closed 인용 게이트가 어떻게 같은 원리를 운영 단계에서 강제하는지 살핀다.
변호사가 제출한 서면에서 가짜 판례 인용이 적발되어 제재를 받는 사례가 2026년 들어 전 세계적으로 급증했다. 공개 추적 데이터베이스에 집계된 사례만 1천 건을 넘었고, 한 연방법원은 조작된 인용과 지어낸 인용문을 이유로 미국 법조 역사상 최대 규모의 제재를 부과했다. 문제의 본질은 모델이 ‘말을 잘 만드는 능력’과 ‘인용을 정확히 회수하는 능력’이 전혀 다른 역량이라는 데 있다. 폐쇄형(closed-book) 환경에서 대형 언어모델은 사건번호와 조문번호를 양식상 완벽하게 흉내 내지만, 그 인용이 실재하는지·사안에 관련되는지·해당 시점에 유효했는지는 보장하지 못한다. 이 칼럼은 인용 환각을 사후가 아니라 구조적으로 차단하려는 최근 연구의 공통 설계를 짚는다.
판례가 다른 판례·조문을 인용하며 형성하는 방향성 네트워크. 어떤 판례가 무엇을 인용하고 무엇에 인용되는지를 구조로 표현해, 인용의 실재성과 권위를 그래프 위에서 대조할 수 있게 한다.
모델이 존재하지 않거나 사안과 무관한 판례·조문을, 사건번호·연도·제목까지 양식상 그럴듯하게 지어내는 실패. 표면 형식이 완벽해 일반 독자가 진위를 구별하기 어렵다는 점이 위험하다.
인용된 판례·조문이 ‘그 사안에 적용되는 시점’에 실제로 유효했는지를 따지는 축. 폐지·개정된 조문이나 변경된 판례를 현행처럼 인용하는 오류를 잡아낸다.
외부 검색·근거 없이 모델 파라미터에 내재한 기억만으로 인용을 생성하는 설정. 최신 벤치마크는 이 설정에서 인용 회수 신뢰도가 극히 낮음을 일관되게 보고한다.
LegalCiteBench는 21개 대형 언어모델을 다섯 가지 인용 중심 과제로 평가했고, 외부 근거가 없는 폐쇄형 설정에서 가장 강력한 모델조차 인용 회수·완성 점수가 바닥에 머문다는 사실을 드러냈다. 더 심각한 것은 모델이 ‘모른다’고 유보하는 대신 구체적이지만 틀린 권위를 자신 있게 제시하는 경향이다. 사용자는 그 자신감을 정확성으로 오해한다. 이 결과의 함의는 분명하다. 모델의 언어 유창성은 인용 정확성을 전혀 담보하지 못하며, 인용은 생성 능력의 부산물이 아니라 별도의 검증 장치로 보장해야 한다는 것이다. 법률 도메인에서는 이 간극이 곧 제재와 직결되므로, ‘생성된 인용을 그대로 신뢰하지 않는다’는 전제가 설계의 출발점이 되어야 한다.
최근 제안된 ‘인용 그래프 기반 그라운딩’은 판례가 서로를 인용하며 만든 거대한 인용 네트워크를 검증의 지식기반으로 삼는다. 모델이 생성한 인용을 이 네트워크와 대조해 ① 실재하는 판례인지(정밀도), ② 사안과 관련 있는 권위인지(관련성), ③ 해당 시점에 유효했는지(시점 유효성)를 동시에 점검한다. 단순히 사건번호 문자열이 DB에 있느냐를 넘어, ‘이 인용이 이 맥락에서 권위로 기능할 수 있는가’를 그래프 구조로 묻는 것이다. 나아가 알고리즘적으로 손상시킨 인용(존재하지만 틀린 인용, 관련 없는 인용)을 학습 신호로 활용해 모델이 환각을 스스로 억제하도록 정렬하는 접근도 함께 제시된다. 검증과 정렬을 같은 지식기반 위에서 일관되게 수행한다는 점이 이 설계의 핵심이다.
CiteCheck는 과학 문헌을 대상으로, 생성문에 등장한 인용을 외부에서 검색해 후보 문헌을 회수한 뒤 구조화된 검증으로 위조·손상 인용을 식별하는 하이브리드 틀을 제시한다. 핵심 통찰은 환각된 인용이 저자·연도·제목·식별자 가운데 일부만 미묘하게 비틀려 있거나, 아예 존재하지 않는 문헌을 통째로 지어낸다는 점이다. 따라서 검증은 ‘문자열이 그럴듯한가’가 아니라 ‘실제 검색으로 동일 문헌에 도달하는가’를 기준으로 삼아야 한다. 법률에서도 동형의 위험이 있다. 진짜 사건번호에 가짜 판시를 붙이거나, 유사한 번호의 다른 판례로 링크가 어긋나는 식이다. 외부 권위 출처로의 회수 가능성을 검증 기준으로 못 박으면, 양식만 완벽한 인용이 통과하는 길이 막힌다.
법률 인용의 정확성은 ‘실재’만으로 끝나지 않는다. 조문은 개정·폐지되고 판례는 변경되거나 전원합의체로 뒤집힌다. 어떤 사안에 적용해야 할 규범은 ‘그 사안의 시점에 유효했던’ 규범이며, 현행 조문을 과거 사안에 무차별 적용하거나 변경된 판례를 여전히 유효한 선례처럼 인용하면 결론 자체가 틀어진다. 인용 그래프 연구가 시점 유효성을 별도 축으로 두는 이유가 여기에 있다. 인용이 실재하더라도 시점이 어긋나면 그 인용은 그 맥락에서 권위를 갖지 못한다. 운영 시스템은 검증된 자산의 현행·연혁 정보를 함께 보유하고, 인용의 실재 확인과 시점 적합성 확인을 분리된 게이트로 다뤄야 한다. 실재성 통과가 곧 적용 가능성 통과는 아니라는 구분이 정확성의 마지막 한 칸을 채운다.
2026년의 제재 사례들이 가르치는 교훈은, 인용 검증을 사람의 사후 점검에 맡기면 반드시 새어 나간다는 것이다. 변호사에게는 출처가 무엇이든 모든 인용을 검증할 위임 불가능한 의무가 있지만, 분량과 시간 압박 속에서 양식만 완벽한 가짜 인용은 사람 눈을 통과한다. 그래서 연구와 실무 모두 ‘발행 이전 차단(pre-publication gate)’으로 무게 중심을 옮기고 있다. 생성 결과를 내보내기 전에 모든 인용을 외부 권위 출처로 자동 대조하고, 검증되지 않은 인용은 사용자에게 도달하기 전에 제거하는 것이다. 이때 핵심 설계 원칙은 ‘의심스러우면 통과시키지 않는다(fail-closed)’이다. 검증 실패를 ‘일단 보여주고 나중에 고친다’로 처리하는 순간, 환각은 이미 사용자에게 도달한 뒤다. 차단의 시점을 앞당기는 것이 가장 확실한 방어다.
긴장 관계 인용을 fail-closed로 엄격히 검증하면, 검증 인프라가 일시적으로 답하지 못할 때 실제로 존재하는 정당한 인용까지 제거되어 답변의 완결성과 분량이 줄어든다. 정확성과 완결성이 정면으로 충돌하는 지점이다.
실무적 해소 해소책은 검증의 ‘출처 다중화’와 ‘확인 전용 폴백’이다. 외부 API가 일시 장애일 때는 사전 검증된 자산(SSOT)에서 정확매칭으로만 통과시키되, 자산에 없으면 통과시키지 않는다. 즉 폴백은 ‘있으면 통과, 없으면 보류’의 비대칭 규칙으로 설계해 가용성을 높이면서도 미검증 인용이 새는 길은 끝까지 막는다. 완결성은 가용성 개선으로 회복하고, 정확성은 어떤 경우에도 양보하지 않는다.
법마디 OS는 이 문제를 ‘생성 이후 검증을 신뢰로 대체하지 않는다’는 원칙으로 답한다. 모델이 답변에 인용한 모든 법령·판례는 서빙 직전 DRF(국가법령정보 OPEN API) 실시간 전수 검증을 통과해야 하며, 실재가 확인되지 않은 인용은 문장 단위로 자동 제거되고 그 사실이 사용자에게 고지된다(fail-closed). 판례는 DRF로 사전 검증된 자산을 단일 출처로 삼아 사건번호 정확매칭으로 1차 통과시키고, 자산에 없을 때만 라이브 검색으로 폴백한다. 즉 인용 그래프 연구가 지향하는 ‘실재성·관련성·시점 유효성’ 검증을, 법마디는 외부 권위 출처에 대한 결정론적 대조로 운영 단계에서 강제한다. 검증할 수 없는 인용은 차라리 비우는 것이 정확성의 최저선이라는 판단이다.
"인용 환각은 더 똑똑한 모델로 사라지지 않는다. 사라지게 하는 것은 인용을 생성의 산물이 아니라 검증의 대상으로 다루는 아키텍처다. 법률 AI의 신뢰는 결국 ‘무엇을 말하지 않을 것인가’를 강제하는 게이트에서 나온다."