LLM을 평가자로 쓰는 LLM-as-a-Judge는 빠르고 저렴하지만 위치·장황함·자기선호 편향을 내재한다. 그 메커니즘과 법률 AI에서의 보정 설계를 분석한다.
초록 LLM-as-a-Judge는 모델 출력 품질을 사람 대신 또 다른 LLM이 채점하게 하는 평가 패러다임으로, 평가 비용과 속도를 획기적으로 낮춘다. 그러나 평가자 모델은 위치 편향, 장황함 편향, 자기선호 편향 같은 체계적 왜곡을 내재하며, 이는 평가의 타당성을 위협한다. 본 칼럼은 이 편향들의 발생 메커니즘을 분석하고, 위치 교차검증·기준 고정(rubric)·근거 강제 같은 보정 기법과 함께 법률 AI 무결성 검증에 적용하는 설계 원칙을 제시한다.
생성형 AI의 출력을 어떻게 평가할 것인가는 기술 자체만큼이나 어려운 문제다. 정답이 하나로 고정되지 않는 자연어 응답에서 정확도·일관성·근거성을 측정하려면 막대한 사람의 노동이 든다. 이 비용을 줄이기 위해 등장한 것이 LLM-as-a-Judge, 즉 또 다른 언어 모델에게 채점을 맡기는 방법이다. 이 접근은 평가를 자동화해 반복 가능하고 확장 가능하게 만들지만, 평가자 역시 확률적 언어 모델이라는 사실에서 비롯되는 구조적 편향을 함께 끌고 들어온다. 평가자가 흔들리면 그 위에 쌓은 모든 품질 지표가 함께 흔들린다. 따라서 우리는 평가자를 신뢰하기 전에, 평가자가 언제·왜 틀리는지를 먼저 이해해야 한다. 이 칼럼은 그 한계의 메커니즘과, 그것을 실무적으로 보정하는 설계를 다룬다.
사람 평가자 대신 대규모 언어 모델에게 다른 모델의 출력을 채점·비교하게 하는 평가 방식이다. 점수형(단일 응답 평가)과 쌍대비교형(둘 중 우열 선택)으로 나뉜다.
쌍대비교에서 먼저 제시된 응답을 체계적으로 선호하는 경향이다. 같은 두 응답의 순서만 바꿔도 판정이 뒤집힐 수 있어, 평가의 일관성을 훼손한다.
평가자 모델이 자신 또는 유사 계열 모델이 생성한 문체·표현을 더 높게 평가하는 경향이다. 평가자와 피평가자가 같은 계열일 때 점수가 부풀려질 위험이 있다.
평가 차원(정확성·근거성·완결성 등)과 각 점수의 의미를 사전에 명시적으로 정의한 채점 기준표다. 평가자의 주관적 흔들림을 줄이는 앵커 역할을 한다.
자연어 출력 평가의 근본 난점은 정답 집합이 열려 있다는 데 있다. 같은 질문에 대해 표현이 다른 여러 정답이 존재하고, 부분적으로 맞고 부분적으로 틀린 응답도 흔하다. 규칙 기반 지표(BLEU, 정확 일치 등)는 의미가 아니라 표면 문자열을 비교하므로 이런 다양성을 포착하지 못한다. LLM-as-a-Judge는 평가자에게 의미 수준의 판단을 위임함으로써 이 간극을 메운다. 사람 채점과 상당히 높은 상관을 보이면서도 비용과 시간을 크게 낮춰, 회귀 테스트마다 대량의 응답을 채점하는 지속적 평가가 가능해진다. 그러나 이 효용의 대가는 평가자가 결정론적 측정 장치가 아니라 확률적 생성기라는 점이다. 같은 입력에도 출력이 흔들릴 수 있고, 학습 분포에서 비롯된 선입견을 판정에 투영한다. 평가의 편의를 얻는 대신 평가의 불확실성을 떠안는 셈이다.
쌍대비교에서 가장 잘 알려진 왜곡은 위치 편향이다. 동일한 두 응답을 A·B 순서로 줬을 때와 B·A 순서로 줬을 때 판정이 달라지는 현상으로, 평가자가 내용이 아니라 제시 순서라는 형식적 신호에 반응한다는 증거다. 이와 짝을 이루는 것이 장황함 편향(verbosity bias)이다. 더 길고 상세해 보이는 응답을, 실제로 더 정확한지와 무관하게 높게 평가하는 경향이다. 길이가 곧 완결성으로 오인되기 때문이다. 두 편향 모두 평가자가 '무엇이 옳은가'가 아니라 '무엇이 그럴듯해 보이는가'를 측정하게 만든다. 법률 영역에서 이는 특히 위험하다. 장황하지만 근거 없는 답변이, 짧지만 조문·판례에 정확히 부합하는 답변을 이길 수 있기 때문이다. 평가자의 형식 민감성을 통제하지 않으면 품질 지표가 실제 정확성과 어긋난 방향으로 모델을 최적화하도록 유도할 수 있다.
평가자 모델과 피평가자 모델이 같은 계열이거나 유사한 학습 분포를 공유하면, 평가자는 자신에게 익숙한 문체·구성·표현을 더 높게 평가하는 자기선호 편향을 보일 수 있다. 이는 평가가 '품질'이 아니라 '평가자와의 문체적 유사도'를 측정하게 만드는 일종의 순환 논증이다. 동형성(homogeneity) 문제는 더 깊다. 평가자와 피평가자가 같은 약점을 공유하면, 평가자는 그 약점을 오류로 인식하지 못한다. 예컨대 두 모델이 동일한 잘못된 전제를 학습했다면, 그 전제에 기반한 틀린 답을 평가자는 오히려 자연스럽다고 판정한다. 이때 평가는 오류를 걸러내는 필터가 아니라 오류를 재확인하는 거울이 된다. 따라서 평가자는 피평가자와 독립적인 근거원에 접근하거나, 최소한 계열이 다른 모델로 교차 구성될 필요가 있다. 평가의 신뢰성은 평가자 한 대의 성능이 아니라 평가 구조의 독립성에서 나온다.
다행히 이 편향들은 구조적 설계로 상당 부분 완화할 수 있다. 첫째, 위치 교차검증이다. 쌍대비교를 A·B와 B·A 두 방향으로 모두 수행하고, 두 판정이 일치할 때만 결론으로 채택한다. 순서를 바꿔도 결과가 유지되는지를 일관성의 척도로 삼는 것이다. 둘째, 기준 고정 루브릭이다. '정확성·근거성·완결성' 같은 평가 차원과 각 점수의 의미를 명시해 평가자가 임의 기준을 즉흥적으로 만들지 못하게 앵커를 건다. 셋째, 근거 강제다. 점수만 내놓게 하지 않고 '왜 그 점수인지'를 먼저 서술하게 하면, 평가자는 판정을 사후 합리화가 아닌 검증 가능한 논증으로 구성하게 되고 장황함만으로 점수를 주기 어려워진다. 이 세 기법은 평가자의 자유도를 줄여 형식적 신호에 대한 민감성을 낮추는 공통 원리를 공유한다. 즉 보정의 핵심은 더 똑똑한 평가자를 찾는 것이 아니라, 평가자가 흔들릴 여지를 구조적으로 봉쇄하는 데 있다.
일반 도메인의 평가가 선호도를 묻는다면, 법률 평가는 검증 가능성을 묻는다. 법률 응답의 품질은 문체가 아니라 인용한 조문·판례가 실제로 존재하고, 그 내용이 정확히 인용되었으며, 사안에 적절히 적용되었는가에 달려 있다. 이는 LLM-as-a-Judge의 약점을 보완할 결정적 기회를 제공한다. 평가자에게 자유로운 인상 평가를 맡기는 대신, 응답이 인용한 모든 법령·판례를 권위 있는 원전 데이터베이스와 대조해 실재성과 정합성을 먼저 검증하고, 그 검증 결과를 평가의 1차 게이트로 삼는 것이다. 존재하지 않는 판례를 인용한 답변은 아무리 유려해도 그 단계에서 탈락한다. 이렇게 하면 평가는 평가자 모델의 주관적 선호가 아니라 외부의 객관적 사실에 닻을 내린다. 법률 도메인의 검증 가능성은 LLM 평가의 가장 큰 약점인 근거 없는 그럴듯함을, 가장 확실하게 차단할 수 있는 지점이다.
긴장 관계 평가를 더 엄격하게(위치 교차·다중 평가자·사실 대조) 만들수록 신뢰성은 오르지만, 평가당 호출 수와 비용·지연이 배가된다. LLM-as-a-Judge의 본래 매력인 저비용·고속이 잠식되는 긴장이 존재한다.
실무적 해소 해법은 평가 강도를 일률적으로 높이는 것이 아니라 위험에 비례해 배분하는 것이다. 저위험·고확신 응답은 단일 평가자로 빠르게 통과시키되, 판정이 경계값 근처이거나 법령 인용이 포함된 고위험 응답에만 위치 교차검증과 원전 사실 대조를 가동한다. 또한 사실 검증처럼 결정론적으로 처리 가능한 부분은 LLM이 아닌 규칙·데이터베이스 조회로 떼어내, 비싼 LLM 판단을 정말 필요한 곳에만 남긴다. 이렇게 평가 예산을 위험 가중으로 라우팅하면 신뢰성과 비용의 트레이드오프를 동시에 관리할 수 있다.
법마디 OS는 이미 응답의 법령·판례 인용을 원전과 대조하는 무결성 검증 계층을 운영한다. 이 위에 LLM-as-a-Judge를 도입할 때의 설계 원칙은 분명하다. 첫째, 평가의 1차 게이트는 LLM이 아니라 사실 검증이어야 한다. 인용된 조문·판례의 실재성과 정합성을 먼저 데이터베이스로 확인하고, 이를 통과한 응답만 LLM 평가자가 정성 차원(논리 전개·사안 적용·완결성)을 채점하게 한다. 둘째, 평가자는 답변을 생성한 모델과 다른 계열로 구성해 자기선호·동형성 편향을 줄인다. 셋째, 쌍대비교가 필요한 회귀 테스트에서는 위치 교차검증을 기본값으로 두어, 순서를 바꿔도 일관된 판정만 품질 신호로 채택한다. 넷째, 평가자에게 점수와 함께 검증 가능한 근거 서술을 강제해, 그 근거를 다시 사실 검증 계층으로 되먹임하는 폐루프를 만든다. 이렇게 하면 평가가 모델을 '그럴듯함'이 아니라 '검증된 정확성' 방향으로 최적화하도록 강제할 수 있다.
"AI가 AI를 평가하는 시대일수록, 마지막 닻은 모델의 자신감이 아니라 검증 가능한 사실이어야 합니다."
이 칼럼은 공개된 산업 동향과 아래 권위 자료를 바탕으로 한 저자(법마디 OS 리더)의 분석·의견입니다. 수치·단정은 검증 가능한 범위로 한정했습니다.