앤트로픽, '클로드 페이블5·미토스5' 공개…"악용 차단 안전장치 탑재"

앤트로픽이 기업공개(IPO)를 앞두고 최상위 인공지능(AI) 모델 ‘클로드 페이블5(Claude Fable5)’와 ‘클로드 미토스5(Claude Mythos5)’를 9일(현지시간) 공식 출시했다.

민감 분야 악용을 차단하는 안전장치를 탑재한 최고 성능 모델을 일반에 공개한 것으로, AI 업계의 이목이 집중되고 있다.

두 모델은 사실상 동일한 기반 위에 설계됐지만 접근 방식에서 차이를 보인다. 페이블5는 악성 해킹이나 생물·화학 무기 제조에 악용될 수 있는 질의, 또는 타 AI 모델의 기능을 무단으로 복제하는 이른바 ‘증류’ 의심 질의가 입력될 경우 해당 요청을 직전 최상위 모델인 ‘오퍼스4.8’이 대신 처리하는 구조를 택했다.

이용자에게는 해당 사실이 즉시 고지된다. 앤트로픽은 이 안전장치가 전체 이용 세션의 5% 미만에서만 작동하며, 일부 무해한 요청이 차단되는 부작용이 있을 수 있다고 설명했다.

반면 미토스5는 이 같은 제한 없이 최고 성능을 구현하는 대신, 보안 협의체 ‘프로젝트 글래스윙’을 통해 검증된 기관에만 선별 제공된다. 삼성전자와 SK하이닉스, SK텔레콤, 한국인터넷진흥원(KISA) 등 해당 프로젝트 참여 기관들도 접속 권한을 부여받을 것으로 전해졌다.

앤트로픽은 페이블·미토스 모델 운용 과정에서 발생하는 데이터를 30일간 보존해 신규 공격 탐지 및 오탐 식별에 활용하는 데이터 정책도 새로 마련했다.

성능 지표에서는 기존 모델들을 큰 격차로 앞섰다. 사이버 보안 역량을 측정하는 ‘익스플로잇벤치’에서 미토스5는 78%를 기록했다. 이는 오픈AI의 GPT-5.5(34%), 자사 오퍼스4.8(40%)은 물론 두 달 전 공개한 ‘미토스 미리보기'(69%)도 뛰어넘는 수치다.

분야별 박사급 전문 지식을 평가하는 ‘인류의 마지막 시험(HLE)’에서도 59%(도구 미사용 기준)를 달성, 처음으로 50% 벽을 넘었던 미토스 미리보기(56.8%)를 다시 경신했다. 터미널 환경 코딩 능력을 보는 ‘터미널-벤치 2.1’에서도 88%로 GPT-5.5(83.4%)를 앞섰다.

안전장치가 적용되는 페이블5에서는 이 같은 최고 성능을 체감하기 어렵지만, 일반 코딩 능력 평가인 ‘SWE-벤치 프로’에서 80.3%를 기록해 GPT-5.5(58.6%)와 구글 제미나이3.1 프로(54.2%)를 압도했다. 지식 업무 능력을 평가하는 ‘GDPval-AA’에서도 1,932점으로 GPT-5.5(1,769점), 제미나이3.1 프로(1,314점)보다 높은 점수를 받았다.

페이블5는 이날부터 즉시 사용 가능하며, 오는 22일까지는 기존 유료 구독자에게 추가 비용 없이 제공된다. 이후에는 별도 요금이 부과될 예정이다. 앤트로픽은 서버 용량이 충분히 확보되는 시점에 페이블5를 기존 구독 플랜에 재편입할 방침이라고 밝혔다.

앤트로픽, ‘클로드 페이블5·미토스5’ 공개…”악용 차단 안전장치 탑재”

관련 기사

“40년 만의 재앙”…팀 쿡, 메모리 품귀에 아이폰 가격 인상 예고

“오픈AI·엔비디아 이어 앤트로픽까지”…정부, 글로벌 빅테크 ‘AI 동맹’ 완성했다