삼성전자가 자체 개발한 AI 성능 평가 지표 ‘트루벤치(TrueBench)’를 공개했습니다.
기존의 언어 테스트를 넘어, 실제 업무 생산성을 기준으로 모델을 비교·분석할 수 있도록 설계됐습니다.
10개 카테고리, 46개 업무, 총 2,485개 평가 기준
최대 5개 모델 동시 비교 가능
한국어·영어 포함 12개 언어 평가 + 혼합 언어(코드스위칭) 번역도 테스트
정확성 외에 사용자 맥락 이해·의도 반영까지 평가
삼성리서치가 사내 생성형 AI 적용 경험을 토대로 개발한 이 지표는, 업무 문서 요약부터 이메일 초안 작성, 코드 리뷰까지 현업에서 바로 쓰이는 작업 중심의 평가가 가능하다는 점에서 주목되고 습니다.
또한, 단순 채점이 아니라 오류·모순·맥락 미이해 여부를 교차 검증하는 구조로 설계돼 주관적 편향을 최소화합니다.
삼성전자는 트루벤치의 데이터 샘플과 일부 모델 성능 결과를 오픈소스 플랫폼 ‘허깅페이스’에 공개하며, 업계 전반의 생산성 기준 확산을 유도하고 있습니다.
전경훈 삼성전자 DX CTO는 “AI 생산성 평가의 기준을 정립해 삼성의 기술 리더십을 더욱 공고히 하겠다”고 밝혔습니다.
🧠 한 AI 개발자의 긴장감:
“그동안 우리 모델은 ‘똑똑한 척’만 했던 걸지도… 이제 진짜 일 좀 해보자!”
쿠팡·현대·아모레퍼시픽 등 각 분야 최고의 기업들이 실제로 본 뉴스를 모아, 뉴스럴 팀의 인사이트로 정리합니다.
News Clipping
뉴스럴 추천기사