AI가 AI를 채점할 때: LLM 평가자의 신뢰성 한계

초록 본 칼럼은 법률 AI 검증의 핵심 도구인 LLM-as-a-Judge의 신뢰성 한계를 기술적으로 분석한다. 자동 채점은 검증을 확장 가능하게 하지만, 위치 편향·장황함 선호·자기 선호 같은 평가자 편향과 법률 도메인의 엄격한 정확성 요구가 충돌한다. 이를 관리하는 설계 원칙을 제시한다.

검증을 자동화하려고 AI에게 채점을 맡기는 순간, 새로운 질문이 생긴다. 그 채점자는 누가 검증하는가. 평가자의 편향을 모른 채 자동 채점에 의존하면, 검증은 신뢰가 아니라 착각을 만든다.

핵심 기술 개념

LLM-as-a-Judge

한 모델의 출력을 다른 모델이 기준에 따라 평가·채점하게 하는 검증 방식. 사람 평가를 확장 가능하게 대체하지만 평가자 자체의 한계를 동반한다.

평가자 편향(Judge Bias)

위치 편향(먼저 제시된 답 선호), 장황함 선호(긴 답을 높게 평가), 자기 선호(자기 모델 계열 출력 선호) 등 평가자 모델이 가진 체계적 왜곡.

기준 고정(Rubric Grounding)

평가를 모델의 주관적 판단에 맡기지 않고, 근거 충실성·인용 정확성 같은 명시적 규칙으로 고정해 채점의 일관성과 검증 가능성을 높이는 설계.

기술 심층 분석

1

자동 채점은 검증을 확장하지만 새 위험을 들인다

법률 AI에서 모든 답을 사람이 검증하면 확장성이 없다. 그래서 LLM-as-a-Judge가 매력적이다. 평가자 모델이 작성 결과를 근거 충실성·논리 정합성 기준으로 채점하면, 검증을 자동화·확장할 수 있다. 그러나 이 확장은 새로운 위험을 들인다. 평가자도 결국 언어모델이므로, 작성자가 가진 환각 경향을 평가자 역시 공유할 수 있다. 작성자가 그럴듯한 오답을 만들면, 같은 그럴듯함에 평가자도 속아 통과시킬 수 있는 것이다. LLM-as-a-Judge 서베이가 정리하듯, 자동 평가의 신뢰성은 평가자 모델의 능력과 편향에 의존한다. 검증을 자동화한다는 것은 검증의 책임을 또 다른 모델에 위임하는 것이며, 그 위임의 위험을 명시적으로 관리하지 않으면 검증은 확장된 착각이 된다.

2

평가자 편향이 법률 검증을 왜곡한다

LLM 평가자에게는 잘 알려진 체계적 편향이 있다. 먼저 제시된 답을 선호하는 위치 편향, 더 길고 자세해 보이는 답을 높게 평가하는 장황함 선호, 자기 계열 모델의 출력을 선호하는 자기 선호 등이다. 법률 검증에서 이런 편향은 특히 위험하다. 장황함 선호는 근거 없이 길게 늘어놓은 답을 통과시킬 수 있고, 자기 선호는 특정 모델의 환각 패턴을 검증이 걸러내지 못하게 만든다. 더 근본적으로, 법률은 '그럴듯함'이 아니라 '인용의 정확성'이 핵심인데, 일반적 LLM 평가자는 표면적 유창함에 끌리기 쉽다. 스탠퍼드 HAI의 평가가 보여 준 환각 비율과, Hallucination-Free? 연구가 드러낸 도구별 신뢰성 격차는, 표면 유창함과 실제 정확성이 다르다는 점을 거듭 확인한다. 평가자 편향을 모르면 이 격차를 검증이 메우지 못한다.

3

기준 고정과 평가자 다양화로 한계를 관리한다

LLM-as-a-Judge를 포기할 필요는 없다. 한계를 알고 설계하면 된다. 첫째, 평가를 모델의 주관에 맡기지 말고 명시적 기준으로 고정한다. '인용된 조문·판례가 실재하는가', '각 주장이 근거에 의해 뒷받침되는가'처럼 검증 가능한 규칙으로 채점하면, 장황함 같은 표면 편향의 영향이 줄어든다. 둘째, 평가자와 작성자를 다르게 구성해 자기 선호를 차단하고, 가능하면 복수 평가자의 합의를 본다. 셋째, 위치 편향은 비교 순서를 무작위·교차로 바꿔 상쇄한다. 넷째, 자동 채점은 1차 필터로 쓰되 고위험 사안은 사람 검토로 에스컬레이션한다. 자동 검증을 맹신하는 대신 그 한계를 설계로 감싸면, 확장성과 신뢰성을 함께 얻을 수 있다.

기술적 트레이드오프

긴장 관계 평가자를 다양화하고 사람 검토를 늘려 신뢰성을 높이면, 자동 채점이 약속한 확장성·비용 절감이 줄어든다.

실무적 해소 위험도 기반으로 검증 강도를 차등화해 균형을 맞춘다. 저위험·정형 질의는 기준 고정된 단일 자동 평가로 처리하고, 고위험·비정형 질의에만 복수 평가자 합의와 사람 에스컬레이션을 적용한다. 검증 자원을 위험이 큰 곳에 집중하면 확장성과 신뢰성이 양립한다.

법마디 OS에 적용한다면

법마디 OS는 자동 채점을 명시적 기준(인용 실재성·근거 충실성)으로 고정해 운영하고, 작성자와 평가자를 분리한다. 자동 검증은 1차 필터로 쓰되 고위험 사안은 사람 검토로 넘긴다. 평가자도 틀릴 수 있다는 전제 위에서, 자동 검증의 한계를 설계로 감싸 검증이 형식에 그치지 않게 한다.

기술적 함의

자동 채점(LLM-as-a-Judge)은 검증을 확장하지만 평가자 자신의 편향을 동반하므로, 검증의 책임을 모델에 위임하는 위험을 명시적으로 관리해야 한다.
법률은 표면 유창함이 아니라 인용 정확성이 핵심이므로, 평가를 명시적 규칙으로 고정해 장황함·자기 선호 같은 편향의 영향을 줄여야 한다.
자동 검증은 위험도 기반으로 차등 적용하고, 고위험 사안은 복수 평가자 합의와 사람 에스컬레이션으로 보완해야 한다.

"AI가 AI를 채점할 때, 평가자도 틀릴 수 있음을 전제해야 한다. 한계를 설계로 감쌀 때 자동 검증은 신뢰가 된다."

참고 자료

칼럼니스트

지유

최고기술책임자 (CTO · Chief Technology Officer)

실리콘밸리 유니콘 창업 멤버급 / AI 무결성 검증 분야 세계적 석학급