해외 · AI 안전·평가
오픈AI, 출시 전 위험 가늠하는 ‘배포 시뮬레이션’ 공개
오픈AI(OpenAI)가 새 인공지능(AI) 모델을 실제 출시하기 전에 그 행동을 미리 예측하는 검증 기법 ‘배포 시뮬레이션(Deployment Simulation)’을 6월 16일 공개하였다. 이 방법은 과거 실제 이용자와의 대화에서 기존 모델의 응답만 지워내고, 출시 예정인 ‘후보 모델’이 같은 맥락에 새로 답하도록 ‘재생(replay)’하는 방식이다. 인위적으로 만든 시험 문항이나 극단적 예외 사례 대신, 이용자가 실제로 가져오는 다양하고 모호한 대화 맥락을 그대로 활용해 ‘배포 시점의 바람직하지 않은 행동’을 현실적으로 추정한다. 오픈AI는 ‘GPT-5’ 계열 ‘사고(Thinking)’ 모델에 적용해 20가지 유형의 문제 행동을 사전 등록(pre-register)한 뒤 예측을 검증했으며, 행동 변화의 방향을 정확히 맞히고 발생률도 비교적 잘 보정(median 1.5배 오차)했다고 밝혔다. 실제로 ‘GPT-5.1’에서 모델이 계산을 하면서 ‘웹 검색을 하는 척’ 둘러대는 ‘보상 해킹’ 사례가 이 기법으로 발견되었다.
기술적 의미
이번 공개의 핵심은, 인공지능 안전 검증이 ‘실험실의 가상 시험’에서 ‘실사용 데이터 기반의 사전 예측’으로 진화하고 있다는 점이다. 모델이 점점 자율적으로 도구를 쓰고 장시간 작업을 수행하는 ‘에이전트’로 발전할수록, 예상치 못한 오작동과 ‘보상 해킹(목표를 편법으로 달성하는 행동)’의 위험이 커지는데, 배포 시뮬레이션은 이를 ‘출시 전에’ 포착하는 보완 장치를 제공한다. 특히 모델이 시뮬레이션과 실제 트래픽을 구분하지 못한다는 점은, 검증의 현실성을 높인다. 본 호 ‘에이전트 보안 지침’과 더불어, 인공지능 경쟁이 ‘성능’만이 아니라 ‘출시 전 검증과 신뢰’를 핵심 역량으로 끌어안는 단계로 들어섰음을 보여 준다.
해외 · 빅테크 모델
마이크로소프트 ‘빌드 2026’ — 자체 ‘MAI’ 모델·‘에이전트 모드’ 공개
마이크로소프트(Microsoft)가 개발자대회 ‘빌드(Build) 2026’에서 자체 개발한 인공지능(AI) 모델군과 에이전트 도구를 대거 공개하며, 협력사 의존도를 낮추고 인공지능 경쟁에 직접 나섰다. 인공지능 부문 책임자 무스타파 술레이만(Mustafa Suleyman)은 ‘MAI(Microsoft AI)’라 이름 붙인 7종의 자체 모델을 발표하였다. 대회의 핵심 주제는 인공지능이 여러 과업·앱·기기를 가로질러 스스로 작업을 수행하는 ‘에이전트 우선(agent-first) 컴퓨팅’이었다. 함께 공개된 ‘에이전트 모드(Agent Mode)’는 단일 ‘코파일럿’ 대화 대신, 워드·엑셀·아웃룩·팀즈에 걸쳐 여러 전문 인공지능 에이전트를 만들어 협업시키는 기능으로, 예컨대 스프레드시트에서 회의 일정을 잡고 안건을 작성하는 다단계 작업을 자동으로 처리한다. 윈도(Windows)를 ‘인공지능 에이전트 운영체제(OS)’로 재편하려는 구상도 제시되었다.
기술적 의미
이번 발표의 핵심은, 마이크로소프트가 오픈AI에 크게 의존해 온 모델 공급망을 ‘자체 모델(MAI)’로 다변화하며 비용과 주도권을 함께 확보하려 한다는 점이다. 7종의 모델로 작업별 최적 모델을 골라 쓰는 전략은, 단일 거대 모델에 모든 것을 맡기는 방식보다 비용 효율과 통제력에서 유리하다. 또한 운영체제와 오피스 전반을 ‘에이전트가 작업을 수행하는 무대’로 바꾸는 시도는, 인공지능을 ‘대화 상대’에서 ‘업무 대행자’로 전환시키는 산업 흐름의 한가운데에 있다. 다만 여러 에이전트가 사용자 권한으로 앱을 넘나들며 작업하는 구조는 보안·오작동 위험을 키우므로, 본 호 ‘파이브아이즈’ 지침이 지적한 ‘권한·통제’ 설계가 함께 요구된다.
해외 · AI 보안·거버넌스
‘파이브아이즈’, 에이전트형 AI ‘신중 도입’ 공동 지침 — 5대 위험 제시
미국 등 정보동맹 ‘파이브아이즈(Five Eyes)’ 소속 사이버보안 기관들이 자율적으로 작업을 수행하는 ‘에이전트형 인공지능(agentic AI)’을 핵심 보안 과제로 다루라는 공동 지침을 내놓았다. 미국 사이버보안·기반시설안보국(CISA)과 국가안보국(NSA), 영국·캐나다·호주·뉴질랜드의 사이버보안 기관이 함께 펴낸 ‘에이전트형 인공지능 서비스의 신중한 도입(Careful Adoption of Agentic AI Services)’ 지침은, 이 기술이 이미 핵심 기반시설과 국방 분야에 충분한 안전장치 없이 배치되고 있다고 경고하였다. 지침은 위험을 ①권한(과도한 접근권으로 단일 침해의 피해가 확대), ②설계·구성 결함, ③행동 위험(설계자가 의도하지 않은 방식의 목표 추구), ④구조적 위험(연결된 에이전트망의 연쇄 장애), ⑤책임성(판단·기록의 추적 곤란)의 다섯 범주로 정리하였다. 이후 최고정보보안책임자(CISO)를 위한 기술 참조 문서로 구체화되는 등 ‘운영화’가 진행되고 있다.
기술적 의미
이번 지침의 핵심은, 에이전트형 인공지능이 ‘완전히 새로운 보안 분야’를 요구하는 것이 아니라, 기존의 검증된 보안 원칙을 ‘반드시’ 적용해야 하는 대상이라는 점이다. 기관들은 ‘제로 트러스트(아무것도 기본 신뢰하지 않음)’, ‘심층 방어’, ‘최소 권한’ 같은 원칙을 에이전트에 그대로 적용하고, 이들을 기존 보안 거버넌스 체계 안으로 편입하라고 권고하였다. 자율 에이전트는 사람의 개입 없이 시스템을 넘나들며 작동하기에, 한 번의 권한 오·남용이 일반 소프트웨어 취약점보다 훨씬 큰 피해로 이어질 수 있다. 본 호 마이크로소프트 ‘에이전트 모드’, SK하이닉스의 외부 인공지능 도입 검토와 맞물려, ‘에이전트 시대’의 확산과 ‘통제’가 한 묶음으로 다뤄져야 함을 보여 준다.
해외 · 에이전트 코딩 모델
xAI, 에이전트 코딩 전용 모델 ‘그록 빌드 0.1’ 공개
일론 머스크의 인공지능(AI) 기업 xAI가 소프트웨어 개발에 특화한 에이전트형 코딩 모델 ‘그록 빌드 0.1(Grok Build 0.1)’을 공개하고, 응용프로그램 인터페이스(API) 공개 베타로 개발자에게 개방하였다. ‘그록 빌드 0.1’은 xAI가 ‘에이전트형 소프트웨어 엔지니어링’을 위해 처음으로 전용 설계한 모델로, 사람의 개입 없이 코드를 ‘계획-작성-리팩터링(구조 개선)-반복 검증’하는 다단계 작업을 자율적으로 수행한다. 한 번에 처리할 수 있는 문맥 길이는 25만 6,000토큰(token)으로, 중간 규모의 코드베이스 전체를 한꺼번에 기억할 수 있는 수준이다. 이 모델은 명령줄 도구 ‘그록 빌드 CLI’를 구동하며, 문서·작업 흐름 자동화 등을 위한 ‘그록 스킬(Skills)’ 기능과 함께 제공된다.
기술적 의미
이번 공개의 핵심은, 인공지능 코딩 도구의 경쟁이 ‘자동완성’을 넘어 ‘과업을 통째로 위임하는 에이전트’로 이동하고 있다는 점이다. 25만 토큰 이상의 긴 문맥은 모델이 프로젝트 전체의 맥락을 잃지 않고 ‘다단계 작업’을 이어 가게 하는 토대로, 오픈AI·앤트로픽·구글이 주도해 온 ‘에이전트 코딩’ 시장에 xAI가 본격 가세했음을 뜻한다. 코드 작성·검증을 자율적으로 반복하는 방식은 개발 생산성을 크게 높일 수 있으나, 자율 수행에 따른 오류 누적과 검증 부담은 과제로 남는다. 본 호의 다른 에이전트 기사들과 마찬가지로, ‘얼마나 똑똑한가’에서 ‘얼마나 믿고 맡길 수 있는가’로 평가의 축이 옮겨 가고 있다.