최초의 GPU 로우해머 공격, ‘GPU해머’의 충격
2026년 현재, 게임 산업은 인공지능(AI)과 클라우드 기술의 발전에 힘입어 빠르게 진화하고 있습니다. 그러나 이러한 발전의 핵심 동력인 그래픽처리장치(GPU)의 보안에 심각한 경고등이 켜졌습니다. 토론토 대학교 연구진이 USENIX Security 2025에서 발표한 ‘GPU해머(GPUHammer)’는 NVIDIA RTX A6000의 GDDR6 메모리에서 최초로 로우해머(Rowhammer) 공격을 성공적으로 시연하며, 단일 비트 플립만으로 AI 모델의 정확도를 80%에서 0.1%로 떨어뜨릴 수 있음을 증명했습니다. 이는 이론적인 위협을 넘어선 실제적이고 재현 가능한 공격입니다.
로우해머 공격은 DRAM의 물리적 특성을 악용합니다. 메모리 셀의 한 줄(row)을 반복적으로 ‘해머링’하여 전기적 간섭을 유발하면, 공격자가 직접 접근하지 않은 인접한 줄의 비트가 뒤집히는 현상입니다. ‘GPU해머’는 NVIDIA RTX A6000 (암페어 아키텍처, GA102 칩, 48GB GDDR6 DRAM)을 대상으로 이 공격을 성공시켰습니다. 연구진은 GPU 특유의 복잡한 메모리 관리와 캐시 구조 등 세 가지 주요 난관을 극복하며, 약 12,000번의 활성화 임계값으로 4개 DRAM 뱅크에서 총 8개의 비트 플립을 유발했습니다.
이 비트 플립이 AI 모델에 미치는 영향은 치명적이었습니다. 연구진은 2019년 논문 ‘Terminal Brain Damage (TBD)’의 방법론을 따라, ImageNet 기반의 5가지 사전 훈련된 딥러닝 모델(AlexNet, VGG16, ResNet50, DenseNet161, InceptionV3)을 A6000에서 테스트했습니다. 그 결과, 단 하나의 로우해머 유발 비트 플립이 모든 모델의 정확도를 56에서 80%포인트까지 하락시켰으며, 최악의 경우 약 80%에서 0.1%로 폭락하는 결과가 나타났습니다. 이 공격은 멀티 테넌트 클라우드 환경에서 공격자와 피해자가 동일한 물리적 GPU를 공유하고, 사용자 수준의 CUDA 권한만으로 가능합니다. NVIDIA GPU 스케줄러의 250ms 타임 슬라이스(약 10번의 리프레시 간격)는 공격에 충분한 시간을 제공합니다.
흥미롭게도 NVIDIA A100(HBM2e 메모리)에서는 비트 플립이 관측되지 않았는데, 이는 HBM의 스택형 아키텍처가 추가적인 탄력성을 제공하는 것으로 추정됩니다. 하지만 ETH 취리히의 별도 연구에서는 테스트된 6개의 HBM2 칩 모두 제어된 환경에서 로우해머에 취약하며, 채널별 비트 오류율이 최대 79%까지 차이 나는 것으로 확인되었습니다. H100, H200, B200에 사용되는 HBM3 및 HBM3e 메모리가 GPU해머 스타일의 공격에 유사한 취약점을 보일지는 아직 검증되지 않았습니다.
GPU 보안: 연이은 취약점 경고와 클라우드 시대의 도전
GPU해머는 GPU 하드웨어 취약점의 빙산의 일각에 불과합니다. 최근 몇 년간 다양한 GPU 보안 문제가 수면 위로 드러나며, 특히 클라우드 환경의 보안에 대한 우려가 커지고 있습니다.
- LeftoverLocals (CVE-2023-4969, CVSS 6.5): 2024년 1월 16일 공개된 이 취약점은 AMD, Apple, Qualcomm GPU에서 프로세스 간 메모리 누출을 야기합니다. GPU 커널이 이전 애플리케이션이나 사용자 데이터에 접근할 수 있게 하여, LLM(거대 언어 모델) 응답을 완전히 재구성할 수 있음이 입증되었습니다. NVIDIA는 2013년 유사한 문제를 해결하여 영향이 없었지만, 다른 주요 GPU 제조사들은 2024년에야 대응에 나섰습니다. AMD Radeon RX 7900 XT에서는 단일 추론 쿼리로 181MB의 데이터가 누출되어 LLM 응답을 높은 정밀도로 재구성할 수 있었습니다. AMD는 2024년 1월 16일 보안 공지(AMD-SB-6010)를 발표했고, Apple은 A17 및 M3 프로세서에서 수정했지만 M2는 여전히 취약하며, Qualcomm은 Adreno 630 (Snapdragon 845)에만 펌웨어 패치 v2.0.7을 제공했습니다.
- NVBleed (arXiv:2503.17847, 2025년 3월): UC 리버사이드 연구진이 발견한 이 공격은 NVIDIA의 다중 GPU NVLink 인터커넥트를 악용합니다. 타이밍 변화와 사용자 수준에서 접근 가능한 성능 카운터를 통해 정보를 유출하며, 클라우드 환경에서 동일 노드의 공동 테넌트가 다른 사용자의 애플리케이션을 식별하고 데이터 유출 채널을 구축할 수 있음을 보여주었습니다.
- NVIDIAScape (CVE-2025-23266, CVSS 9.0): 2025년 5월 Pwn2Own Berlin에서 Wiz Research가 발견한 이 컨테이너 이스케이프 취약점은 NVIDIA Container Toolkit (v1.17.7까지) 및 GPU Operator (25.3.1까지)에 영향을 미칩니다. 3줄짜리 Dockerfile 익스플로잇을 통해 호스트에 대한 전체 루트 권한을 획득할 수 있으며, 클라우드 환경의 37%에 영향을 미칠 것으로 추정됩니다.
이러한 연이은 취약점은 멀티 테넌트 클라우드 GPU 환경의 보안이 얼마나 복잡하고 미성숙한지를 보여줍니다. 특히 GPU 메모리 제로잉(zeroing)에 대한 산업 표준이 없어 클라우드 제공업체마다 정책이 다르고, NVIDIA의 `cudaMalloc()`조차 메모리 제로잉을 보장하지 않습니다. NVIDIA의 Multi-Instance GPU(MIG)도 하드웨어 파티셔닝을 제공하지만, 마지막 레벨 TLB(Translation Lookaside Buffer)는 공유되어 A100 및 A30 GPU에서 은밀한 채널(covert channel) 구축이 가능함이 2023년 연구에서 드러났습니다.
2026년 3월 23일부터 26일까지 샌프란시스코에서 열린 RSA Conference 2026에서도 GPU 보안 격차가 주요 의제로 부상했습니다. Futurum Group의 설문조사(n=1,008)에 따르면, 조직의 62%가 정교한 AI 기반 공격의 증가를 경험했으며, 62.1%는 AI 기반 방어 도구가 필수적이라고 보았습니다. 핵심 발견은 기존 EDR(Endpoint Detection and Response) 도구가 CPU 및 OS 활동만 모니터링하여 GPU 작업을 보안 팀의 사각지대에 놓는다는 점입니다. RSA 2026에서 팔로 알토 네트웍스, 시스코, 위즈 등 주요 보안 기업들이 AI 관련 솔루션을 발표했지만, GPU 컴퓨팅 활동이나 메모리를 특정하여 모니터링하는 보안 도구는 발표되지 않았습니다.
한국 게이머와 AI 게임 개발자를 위한 GAMEBOY.KR의 제언
이번 GPU 보안 취약점 소식은 단순히 전문 서버 시장만의 이야기가 아닙니다. 고성능 GPU는 한국 게이머들에게도 필수적인 하드웨어이며, 클라우드 게이밍 서비스와 AI 기반 게임 개발이 확산되는 현시점에서 GPU 보안은 더욱 중요해집니다. 현재 RTX A6000과 같은 전문가용 GPU에서 문제가 발견되었지만, 동일한 아키텍처(Ampere) 기반의 게이밍 GPU에도 잠재적인 영향이 있을 수 있으며, 미래의 게임 개발 및 클라우드 게이밍 플랫폼의 안정성과 신뢰도에 대한 의문으로 이어질 수 있습니다.
🎮 이 게임 어디서 살까? (파트너스 활동 일환)
🛒 쿠팡에서 오늘의 추천 상품 보기 이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.GPU해머와 같은 공격이 AI 모델의 정확도를 파괴할 수 있다는 점은, 게임 내 AI NPC의 행동 로직이나, 실시간으로 콘텐츠를 생성하는 AI 기반 시스템에 치명적인 오류를 유발할 수 있음을 시사합니다. 이는 곧 게임 경험의 심각한 저하로 이어질 수 있습니다. 또한 클라우드 게이밍 서비스가 보편화될수록, 공유된 GPU 자원에서 발생하는 보안 위협은 게이머의 개인 정보나 계정 보안에도 영향을 미칠 수 있습니다.
GAMEBOY.KR은 한국 게이머와 AI 게임 개발자들이 아래와 같은 권고 조치를 참고할 것을 제안합니다.
- RTX A6000 또는 GDDR6 GPU 사용자: 공유 환경에서 GPU를 사용하고 있다면, 즉시
nvidia-smi -e 1명령을 통해 ECC(Error-Correcting Code)를 활성화하고 재부팅하세요. 약 10%의 성능 저하가 따르지만, GPU해머에 대한 주요 완화책입니다. - H100, H200, B200 사용자: ECC는 기본적으로 활성화되어 있습니다. 주된 위험은 NVBleed나 MIG TLB 누출과 같은 교차 테넌트 사이드 채널 공격입니다. 의료, 금융 모델, 독점 모델 가중치와 같은 민감한 워크로드를 운영한다면, 클라우드 제공업체에 NVIDIA의 Confidential Computing (CC) 가용성을 문의하는 것이 중요합니다. CC는 하드웨어 암호화 메모리 등 가장 강력한 보안 옵션을 제공하며, H100 GPU에서 LLM 추론 오버헤드가 7% 미만에 불과합니다. 현재 2026년 3월 기준으로 Azure는 H100 Confidential VM을 제공하고 있으며, Google Cloud는 H100 A3 Confidential VM을 프리뷰로 제공 중입니다. AWS는 아직 GPU Confidential Computing을 발표하지 않았습니다.
- 모든 클라우드 GPU 사용자: 클라우드 제공업체에 세 가지 질문을 던지세요. (1) 테넌트 세션 간 GPU VRAM이 스크럽되는가? (2) 어떤 격리 메커니즘(패스스루, MIG, 타임 슬라이싱, vGPU)이 사용되는가? (3) Confidential Computing이 가능한가? 이 질문들에 명확한 답변을 받기 전에는 중요한 프로덕션 워크로드를 실행하지 않는 것이 좋습니다.
- 자체 호스팅 사용자: NVIDIA GPU 드라이버 및 CUDA Toolkit을 최신 버전으로 업데이트하세요. NVIDIA는 2025년 7월, 10월, 2026년 1월에 GPU 디스플레이 드라이버 보안 게시판을, 2025년 9월, 2026년 1월에 CUDA Toolkit 보안 게시판을 발표했으며, 이들 릴리스를 통해 여러 CVE가 패치되었습니다.
GPU 보안은 더 이상 간과할 수 없는 문제입니다. 하드웨어 제조사, 클라우드 서비스 제공업체, 그리고 최종 사용자의 적극적인 관심과 노력이 필요한 시점입니다. 이러한 보안 위협들이 미래의 게임 경험과 AI 기술 발전에 어떤 영향을 미칠지, GAMEBOY.KR은 지속적으로 주목할 것입니다.
| Date | Event |
|---|---|
| January 15, 2025 | NVIDIA에 취약점 공개 |
| Subsequently | AWS, Azure, GCP에 공개 |
| July 9, 2025 | NVIDIA 보안 공지 발표 |
| July 10, 2025 | ArXiv 프리프린트 게시 (arXiv:2507.08166) |
| August 12, 2025 | 엠바고 해제; 코드 공개 (github.com/sith-lab/gpuhammer) |
| August 13-15, 2025 | USENIX Security 2025에서 발표 |
| Mechanism | Memory isolation | Side-channel protection | Multi-tenant suitability |
|---|---|---|---|
| GPU passthrough (IOMMU) | Strong | Not addressed | Single-tenant only |
| MIG | Hardware-partitioned | Incomplete (shared TLB) | Suitable with caveats |
| MIG-backed vGPU | Strongest non-CC option | Incomplete (shared TLB) | Best non-CC option |
| Time-sliced vGPU | Partial | Vulnerable | Not recommended |
| CUDA MPS | None | None | Not suitable |
| Confidential Computing | Hardware-encrypted | Perf counters disabled | Most secure option |
출처: Barrack.ai
이 기사는 AI 기자 게보가 작성했습니다.
다른 게이머들과 자유롭게 이야기를 나눠보세요!
📦 관련 상품 추천 (파트너스 활동 일환)
🛒 쿠팡에서 오늘의 추천 상품 보기 이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.



