정확도 근거 공개
정확도 측정 방법
맡겨는 학원 운영자를 위한 AI 고객응대 SaaS입니다. 본 페이지는 맡겨 챗봇의 정확도 수치 측정 근거를 공개합니다.
GPT-5.4 mini, 2026-05 기준 · 표시·광고의 공정화에 관한 법률 §3에 따른 정량 주장 근거자료
버티컬
학원
테스트 기준일: 2026-05-04 · 모델/서비스 버전은 운영자 보관
§1 테스트 일자·모델
테스트 일자2026-05-04버티컬학원챗봇 LLM 모델버전·일자는 운영자 보관맡겨 서비스 버전버전·일자는 운영자 보관
§2 테스트 셋 출처
| 항목 | 내용 |
|---|---|
| 시나리오 파일 | eval_scenarios_academy.json |
| 시나리오 버전 | v1.0 (생성 기준일: 2026-04-27) |
| 총 시나리오 수 | 270개 |
| 테스트 셋 생성 주체 | Claude AI (Anthropic) — 맡겨 서비스 운영자가 카테고리·의도를 설계하고, Claude가 각 카테고리에 맞는 질문을 자동 생성한 합성 데이터셋 |
| 실제 고객 데이터 포함 | 없음 — 전량 AI 생성 합성 데이터 |
§3 정답 기준
맡겨 챗봇의 핵심 역할은 질문을 올바른 채널로 분류하고, 해당 채널에 맞는 응답을 제공하는 것입니다. 따라서 "정확한 응답"의 1차 기준은 분류 정확성(category_match)입니다.
PASS 조건 (auto_pass = True)
- 분류가 시나리오의 expected_category와 일치해야 함
- shopping 질문에 off_topic 매크로 응답이 나오면 FAIL (매크로 오발동)
- off_topic 질문에 쇼핑 답변이 나오면 FAIL (역방향 오분류)
- 빈 응답 또는 에러 응답이면 FAIL
- cafe24_fc / academy_fc 카테고리는 추가로 expected_source와 actual_source가 일치해야 PASS
평가자
1차 판정: 자동화 스크립트(eval_runner.py의 auto_judge 함수) — 분류 일치, 매크로 감지, 에러 패턴 감지
2차 판정 (선택): 맡겨 서비스 운영자 — CSV의 human_pass 컬럼에 수동 입력 가능
§4 정답 분류 방식
이진 판정의 한계를 보완하기 위해 실패 유형을 5등급으로 세분화합니다. 이번 테스트에서 보고하는 "정확율"은 auto_pass 기준 이진 판정 결과이며, 부분 점수(P등급)는 PASS에 포함되지 않습니다.
| 등급 | 설명 | auto_pass |
|---|---|---|
| S | Satisfactory — 올바른 분류 + 유의미한 답변 | True |
| P | Partial — 올바른 분류이지만 전가/불완전 답변 | True 또는 False |
| M | Macro misfire — 쇼핑 질문에 off_topic 매크로 오발동 | False |
| E | Error — 빈 응답, API 오류, 비정상 JSON | False |
| W | Wrong channel — off_topic 질문에 쇼핑 답변 | False |
§5 결과
전체 결과 (SKIP 제외 분모 기준)
263/270 = 97.4%
총 시나리오
270개
실행 (SKIP 제외)
270개
PASS
263개
FAIL + ERROR
7개
카테고리별 결과
| 카테고리 | PASS | 총계 | PASS율 |
|---|---|---|---|
| consultation상담 예약 | 35 | 35 | 100.0% |
| class_info클래스 정보 | 35 | 35 | 100.0% |
| academy_ops학원 운영 | 25 | 25 | 100.0% |
| child_learning자녀·학습 | 25 | 25 | 100.0% |
| typo_informal오타·비격식·줄임말 | 25 | 25 | 100.0% |
| misc_inquiry기타 문의 | 25 | 25 | 100.0% |
| academy_fc학원업 Function Calling | 18 | 20 | 90.0% |
| enrollment_payment등록·결제 | 40 | 40 | 100.0% |
| off_topic비교육 질문 | 20 | 25 | 80.0% |
| unanswerable답변 불가 질문 | 15 | 15 | 100.0% |
등급별 분포
| 등급 | 설명 | 건수 | 비율 |
|---|---|---|---|
| S | Satisfactory — 올바른 분류 + 유의미한 답변 | 255 | 94.4% |
| P | Partial — 올바른 분류이지만 전가 또는 불완전 답변 | 8 | 3.0% |
| M | Macro misfire — 쇼핑 질문에 off_topic 매크로 오발동 | 0 | 0.0% |
| W | Wrong channel — off_topic 질문에 쇼핑 답변 (역방향 오분류) | 3 | 1.1% |
| E | Error — 빈 응답, API 오류, 비정상 JSON | 4 | 1.5% |
§6 오답 케이스 분석
FAIL 판정을 받은 케이스 중 최대 10개의 표본입니다. 낮은 카테고리도 숨기지 않고 공개합니다.
OT-007off_topic
등급: W입력: 최근에 본 영화 중에 추천할 거 있어요?
기대:
off_topic→실제: shopping응답 발췌: 문의해주신 내용에 대해 정확한 답변을 준비하지 못했습니다. 좀 더 자세한 정보를 알려주시거나, 학원에 직접 문의해주세요.
OT-020off_topic
등급: W입력: 저희 회사 제품 학원에서 홍보해주실 수 있을까요?
기대:
off_topic→실제: shopping응답 발췌: 저희 학원은 특정 업체의 제품을 홍보하는 광고 협업은 진행하지 않습니다.
OT-022off_topic
등급: W입력: 쇼핑몰 운영하는데 학원 학부모 대상으로 광고 가능한지요?
기대:
off_topic→실제: shopping응답 발췌: 상담 예약을 도와드리겠습니다. 아래 양식을 작성해주세요.
§7 한계와 면책
테스트 셋 편향
- 합성 데이터셋: 이번 테스트 셋은 실제 고객 데이터가 아닌 Claude AI가 생성한 합성 질문으로 구성됩니다. 실제 고객 질문 분포와 다를 수 있으며, AI 생성 특유의 패턴 편향이 존재할 수 있습니다.
- 도메인 편향: 시나리오는 맡겨 서비스 운영자가 설계한 카테고리 내에서만 생성되었습니다. 설계되지 않은 유형의 질문(예: 특정 지역 방언, 신조어, 복잡한 다국어 혼용)에 대한 성능은 이 테스트로 검증되지 않습니다.
- 시나리오 버전 고정: 테스트 셋은 생성 시점의 서비스 범위를 기준으로 작성되었습니다. 이후 서비스 범위가 변경되면 시나리오를 갱신해야 합니다.
자동 판정 한계
- 분류 기준의 단순화: auto_judge는 매크로 문자열 포함 여부, 응답 길이 기반 규칙 기반 휴리스틱을 사용합니다. 응답의 의미적 품질(정보 정확성, 공감 수준 등)은 판정하지 않습니다.
- 응답 품질 미검증: PASS 판정이 '고객이 만족할 만한 답변'을 보장하지 않습니다. S등급(Satisfactory) PASS라도 실제 고객 만족도와 차이가 있을 수 있습니다.
- Function Calling 시나리오 한계: cafe24_fc 카테고리의 일부 시나리오는 실제 주문번호/상품 ID 등 환경변수 미설정 시 SKIP 처리됩니다. SKIP 비율이 높을수록 결과의 대표성이 낮아집니다.
테스트 환경 의존성
- 단일 샵 기준: 이번 테스트는 특정 테스트 샵의 FAQ 데이터를 기반으로 실행됩니다. 다른 샵의 FAQ 구성이나 설정에 따라 성능이 다를 수 있습니다.
- 서버 상태 의존: 테스트 중 서버 부하, 네트워크 지연, 외부 LLM API 응답 변동에 따라 결과가 달라질 수 있습니다. (retried 컬럼 참조)
- 실제 운영 환경의 성능을 보증하지 않으며, 특정 쇼핑몰·특정 고객군·특정 기간의 성능을 대표하지 않습니다.
