정확도 근거 공개

정확도 측정 방법

Name: 맡겨 챗봇 정확도 측정 데이터셋 — 학원 버티컬 v1.0 (생성 기준일: 2026-04-27)
Creator: 맡겨

맡겨는 학원 운영자를 위한 AI 고객응대 SaaS입니다. 본 페이지는 맡겨 챗봇의 정확도 수치 측정 근거를 공개합니다.

GPT-5.4 mini, 2026-05 기준 · 표시·광고의 공정화에 관한 법률 §3에 따른 정량 주장 근거자료

버티컬

학원

테스트 기준일: 2026-05-04 · 모델/서비스 버전은 운영자 보관

§1 테스트 일자·모델

테스트 일자2026-05-04버티컬학원챗봇 LLM 모델버전·일자는 운영자 보관맡겨 서비스 버전버전·일자는 운영자 보관

§2 테스트 셋 출처

항목	내용
시나리오 파일	eval_scenarios_academy.json
시나리오 버전	v1.0 (생성 기준일: 2026-04-27)
총 시나리오 수	270개
테스트 셋 생성 주체	Claude AI (Anthropic) — 맡겨 서비스 운영자가 카테고리·의도를 설계하고, Claude가 각 카테고리에 맞는 질문을 자동 생성한 합성 데이터셋
실제 고객 데이터 포함	없음 — 전량 AI 생성 합성 데이터

§3 정답 기준

맡겨 챗봇의 핵심 역할은 질문을 올바른 채널로 분류하고, 해당 채널에 맞는 응답을 제공하는 것입니다. 따라서 "정확한 응답"의 1차 기준은 분류 정확성(category_match)입니다.

PASS 조건 (auto_pass = True)

분류가 시나리오의 expected_category와 일치해야 함
shopping 질문에 off_topic 매크로 응답이 나오면 FAIL (매크로 오발동)
off_topic 질문에 쇼핑 답변이 나오면 FAIL (역방향 오분류)
빈 응답 또는 에러 응답이면 FAIL
cafe24_fc / academy_fc 카테고리는 추가로 expected_source와 actual_source가 일치해야 PASS

평가자

1차 판정: 자동화 스크립트(eval_runner.py의 auto_judge 함수) — 분류 일치, 매크로 감지, 에러 패턴 감지
2차 판정 (선택): 맡겨 서비스 운영자 — CSV의 human_pass 컬럼에 수동 입력 가능

§4 정답 분류 방식

이진 판정의 한계를 보완하기 위해 실패 유형을 5등급으로 세분화합니다. 이번 테스트에서 보고하는 "정확율"은 auto_pass 기준 이진 판정 결과이며, 부분 점수(P등급)는 PASS에 포함되지 않습니다.

등급	설명	auto_pass
S	Satisfactory — 올바른 분류 + 유의미한 답변	True
P	Partial — 올바른 분류이지만 전가/불완전 답변	True 또는 False
M	Macro misfire — 쇼핑 질문에 off_topic 매크로 오발동	False
E	Error — 빈 응답, API 오류, 비정상 JSON	False
W	Wrong channel — off_topic 질문에 쇼핑 답변	False

§5 결과

전체 결과 (SKIP 제외 분모 기준)

263/270 = 97.4%

총 시나리오

270개

실행 (SKIP 제외)

270개

PASS

263개

FAIL + ERROR

7개

카테고리별 결과

카테고리	PASS	총계	PASS율
consultation상담 예약	35	35	100.0%
class_info클래스 정보	35	35	100.0%
academy_ops학원 운영	25	25	100.0%
child_learning자녀·학습	25	25	100.0%
typo_informal오타·비격식·줄임말	25	25	100.0%
misc_inquiry기타 문의	25	25	100.0%
academy_fc학원업 Function Calling	18	20	90.0%
enrollment_payment등록·결제	40	40	100.0%
off_topic비교육 질문	20	25	80.0%
unanswerable답변 불가 질문	15	15	100.0%

등급별 분포

등급	설명	건수	비율
S	Satisfactory — 올바른 분류 + 유의미한 답변	255	94.4%
P	Partial — 올바른 분류이지만 전가 또는 불완전 답변	8	3.0%
M	Macro misfire — 쇼핑 질문에 off_topic 매크로 오발동	0	0.0%
W	Wrong channel — off_topic 질문에 쇼핑 답변 (역방향 오분류)	3	1.1%
E	Error — 빈 응답, API 오류, 비정상 JSON	4	1.5%

§6 오답 케이스 분석

FAIL 판정을 받은 케이스 중 최대 10개의 표본입니다. 낮은 카테고리도 숨기지 않고 공개합니다.

OT-007off_topic

등급: W

입력: 최근에 본 영화 중에 추천할 거 있어요?

기대: off_topic→실제: shopping

응답 발췌: 문의해주신 내용에 대해 정확한 답변을 준비하지 못했습니다. 좀 더 자세한 정보를 알려주시거나, 학원에 직접 문의해주세요.

OT-020off_topic

등급: W

입력: 저희 회사 제품 학원에서 홍보해주실 수 있을까요?

기대: off_topic→실제: shopping

응답 발췌: 저희 학원은 특정 업체의 제품을 홍보하는 광고 협업은 진행하지 않습니다.

OT-022off_topic

등급: W

입력: 쇼핑몰 운영하는데 학원 학부모 대상으로 광고 가능한지요?

기대: off_topic→실제: shopping

응답 발췌: 상담 예약을 도와드리겠습니다. 아래 양식을 작성해주세요.

§7 한계와 면책

테스트 셋 편향

합성 데이터셋: 이번 테스트 셋은 실제 고객 데이터가 아닌 Claude AI가 생성한 합성 질문으로 구성됩니다. 실제 고객 질문 분포와 다를 수 있으며, AI 생성 특유의 패턴 편향이 존재할 수 있습니다.
도메인 편향: 시나리오는 맡겨 서비스 운영자가 설계한 카테고리 내에서만 생성되었습니다. 설계되지 않은 유형의 질문(예: 특정 지역 방언, 신조어, 복잡한 다국어 혼용)에 대한 성능은 이 테스트로 검증되지 않습니다.
시나리오 버전 고정: 테스트 셋은 생성 시점의 서비스 범위를 기준으로 작성되었습니다. 이후 서비스 범위가 변경되면 시나리오를 갱신해야 합니다.

자동 판정 한계

분류 기준의 단순화: auto_judge는 매크로 문자열 포함 여부, 응답 길이 기반 규칙 기반 휴리스틱을 사용합니다. 응답의 의미적 품질(정보 정확성, 공감 수준 등)은 판정하지 않습니다.
응답 품질 미검증: PASS 판정이 '고객이 만족할 만한 답변'을 보장하지 않습니다. S등급(Satisfactory) PASS라도 실제 고객 만족도와 차이가 있을 수 있습니다.
Function Calling 시나리오 한계: cafe24_fc 카테고리의 일부 시나리오는 실제 주문번호/상품 ID 등 환경변수 미설정 시 SKIP 처리됩니다. SKIP 비율이 높을수록 결과의 대표성이 낮아집니다.

테스트 환경 의존성

단일 샵 기준: 이번 테스트는 특정 테스트 샵의 FAQ 데이터를 기반으로 실행됩니다. 다른 샵의 FAQ 구성이나 설정에 따라 성능이 다를 수 있습니다.
서버 상태 의존: 테스트 중 서버 부하, 네트워크 지연, 외부 LLM API 응답 변동에 따라 결과가 달라질 수 있습니다. (retried 컬럼 참조)
실제 운영 환경의 성능을 보증하지 않으며, 특정 쇼핑몰·특정 고객군·특정 기간의 성능을 대표하지 않습니다.