맡겨 로고
정확도 근거 공개

정확도 측정 방법

맡겨는 학원 운영자를 위한 AI 고객응대 SaaS입니다. 본 페이지는 맡겨 챗봇의 정확도 수치 측정 근거를 공개합니다.

GPT-5.4 mini, 2026-05 기준 · 표시·광고의 공정화에 관한 법률 §3에 따른 정량 주장 근거자료

버티컬
학원
테스트 기준일: 2026-05-04 · 모델/서비스 버전은 운영자 보관

§1 테스트 일자·모델

테스트 일자2026-05-04버티컬학원챗봇 LLM 모델버전·일자는 운영자 보관맡겨 서비스 버전버전·일자는 운영자 보관

§2 테스트 셋 출처

항목내용
시나리오 파일eval_scenarios_academy.json
시나리오 버전v1.0 (생성 기준일: 2026-04-27)
총 시나리오 수270
테스트 셋 생성 주체Claude AI (Anthropic) — 맡겨 서비스 운영자가 카테고리·의도를 설계하고, Claude가 각 카테고리에 맞는 질문을 자동 생성한 합성 데이터셋
실제 고객 데이터 포함없음 — 전량 AI 생성 합성 데이터

§3 정답 기준

맡겨 챗봇의 핵심 역할은 질문을 올바른 채널로 분류하고, 해당 채널에 맞는 응답을 제공하는 것입니다. 따라서 "정확한 응답"의 1차 기준은 분류 정확성(category_match)입니다.

PASS 조건 (auto_pass = True)
  1. 분류가 시나리오의 expected_category와 일치해야 함
  2. shopping 질문에 off_topic 매크로 응답이 나오면 FAIL (매크로 오발동)
  3. off_topic 질문에 쇼핑 답변이 나오면 FAIL (역방향 오분류)
  4. 빈 응답 또는 에러 응답이면 FAIL
  5. cafe24_fc / academy_fc 카테고리는 추가로 expected_source와 actual_source가 일치해야 PASS
평가자

1차 판정: 자동화 스크립트(eval_runner.py의 auto_judge 함수) — 분류 일치, 매크로 감지, 에러 패턴 감지
2차 판정 (선택): 맡겨 서비스 운영자 — CSV의 human_pass 컬럼에 수동 입력 가능

§4 정답 분류 방식

이진 판정의 한계를 보완하기 위해 실패 유형을 5등급으로 세분화합니다. 이번 테스트에서 보고하는 "정확율"은 auto_pass 기준 이진 판정 결과이며, 부분 점수(P등급)는 PASS에 포함되지 않습니다.

등급설명auto_pass
SSatisfactory올바른 분류 + 유의미한 답변True
PPartial올바른 분류이지만 전가/불완전 답변True 또는 False
MMacro misfire쇼핑 질문에 off_topic 매크로 오발동False
EError빈 응답, API 오류, 비정상 JSONFalse
WWrong channeloff_topic 질문에 쇼핑 답변False

§5 결과

전체 결과 (SKIP 제외 분모 기준)
263/270 = 97.4%
총 시나리오
270개
실행 (SKIP 제외)
270개
PASS
263개
FAIL + ERROR
7개
카테고리별 결과
카테고리PASS총계PASS율
consultation상담 예약3535100.0%
class_info클래스 정보3535100.0%
academy_ops학원 운영2525100.0%
child_learning자녀·학습2525100.0%
typo_informal오타·비격식·줄임말2525100.0%
misc_inquiry기타 문의2525100.0%
academy_fc학원업 Function Calling182090.0%
enrollment_payment등록·결제4040100.0%
off_topic비교육 질문202580.0%
unanswerable답변 불가 질문1515100.0%
등급별 분포
등급설명건수비율
SSatisfactory — 올바른 분류 + 유의미한 답변25594.4%
PPartial — 올바른 분류이지만 전가 또는 불완전 답변83.0%
MMacro misfire — 쇼핑 질문에 off_topic 매크로 오발동00.0%
WWrong channel — off_topic 질문에 쇼핑 답변 (역방향 오분류)31.1%
EError — 빈 응답, API 오류, 비정상 JSON41.5%

§6 오답 케이스 분석

FAIL 판정을 받은 케이스 중 최대 10개의 표본입니다. 낮은 카테고리도 숨기지 않고 공개합니다.

OT-007off_topic
등급: W
입력: 최근에 본 영화 중에 추천할 거 있어요?
기대: off_topic실제: shopping
응답 발췌: 문의해주신 내용에 대해 정확한 답변을 준비하지 못했습니다. 좀 더 자세한 정보를 알려주시거나, 학원에 직접 문의해주세요.
OT-020off_topic
등급: W
입력: 저희 회사 제품 학원에서 홍보해주실 수 있을까요?
기대: off_topic실제: shopping
응답 발췌: 저희 학원은 특정 업체의 제품을 홍보하는 광고 협업은 진행하지 않습니다.
OT-022off_topic
등급: W
입력: 쇼핑몰 운영하는데 학원 학부모 대상으로 광고 가능한지요?
기대: off_topic실제: shopping
응답 발췌: 상담 예약을 도와드리겠습니다. 아래 양식을 작성해주세요.

§7 한계와 면책

테스트 셋 편향
  • 합성 데이터셋: 이번 테스트 셋은 실제 고객 데이터가 아닌 Claude AI가 생성한 합성 질문으로 구성됩니다. 실제 고객 질문 분포와 다를 수 있으며, AI 생성 특유의 패턴 편향이 존재할 수 있습니다.
  • 도메인 편향: 시나리오는 맡겨 서비스 운영자가 설계한 카테고리 내에서만 생성되었습니다. 설계되지 않은 유형의 질문(예: 특정 지역 방언, 신조어, 복잡한 다국어 혼용)에 대한 성능은 이 테스트로 검증되지 않습니다.
  • 시나리오 버전 고정: 테스트 셋은 생성 시점의 서비스 범위를 기준으로 작성되었습니다. 이후 서비스 범위가 변경되면 시나리오를 갱신해야 합니다.
자동 판정 한계
  • 분류 기준의 단순화: auto_judge는 매크로 문자열 포함 여부, 응답 길이 기반 규칙 기반 휴리스틱을 사용합니다. 응답의 의미적 품질(정보 정확성, 공감 수준 등)은 판정하지 않습니다.
  • 응답 품질 미검증: PASS 판정이 '고객이 만족할 만한 답변'을 보장하지 않습니다. S등급(Satisfactory) PASS라도 실제 고객 만족도와 차이가 있을 수 있습니다.
  • Function Calling 시나리오 한계: cafe24_fc 카테고리의 일부 시나리오는 실제 주문번호/상품 ID 등 환경변수 미설정 시 SKIP 처리됩니다. SKIP 비율이 높을수록 결과의 대표성이 낮아집니다.
테스트 환경 의존성
  • 단일 샵 기준: 이번 테스트는 특정 테스트 샵의 FAQ 데이터를 기반으로 실행됩니다. 다른 샵의 FAQ 구성이나 설정에 따라 성능이 다를 수 있습니다.
  • 서버 상태 의존: 테스트 중 서버 부하, 네트워크 지연, 외부 LLM API 응답 변동에 따라 결과가 달라질 수 있습니다. (retried 컬럼 참조)
  • 실제 운영 환경의 성능을 보증하지 않으며, 특정 쇼핑몰·특정 고객군·특정 기간의 성능을 대표하지 않습니다.