본문으로 건너뛰기
클라우드 32분 읽기

AWS re:Invent 2025: 그라비톤5와 트레이니엄3가 바꿀 클라우드 생태계

AWS가 공개한 차세대 자체 칩셋 Graviton5와 Trainium3, 그리고 AI 시대를 위한 인프라 혁신 분석. 엔터프라이즈 인프라의 가성비와 워크로드 효율성이 어떻게 달라지는가?

김태영
클라우드 아키텍트
2025년 12월 23일
AWS re:Invent 2025: 그라비톤5와 트레이니엄3가 바꿀 클라우드 생태계
AWS re:Invent 2025: 그라비톤5와 트레이니엄3가 바꿀 클라우드 생태계 / 이미지 출처: Unsplash

2025년 12월, 미국 라스베이거스에서 열린 AWS re:Invent 2025의 키노트는 그 어느 때보다 ‘실용적인 효율성(Pragmatic Efficiency)‘에 초점을 맞췄습니다. 전 세계적인 경기 불확실성 속에서 클라우드 비용 관리가 기업의 생존과 직결되는 시점이 도래했기 때문입니다. AWS는 이에 화답하듯, 다시 한번 자체 실리콘 기술력으로 승부수를 던졌습니다.

클라우드 아키텍트 관점에서 이번에 공개된 **Graviton5(그라비톤5)**와 Trainium3(트레이니엄3), 그리고 각종 관리형 서비스의 진화가 기업의 인프라 전략에 어떤 영향을 미칠지 5,000자 분량으로 심층 분석해 보았습니다.

1. Graviton5: 범용 컴퓨팅의 새로운 기준

Arm 기반의 그라비톤 프로세서는 이제 선택이 아닌 필수가 되어가고 있습니다. 이번에 발표된 Graviton5는 전작인 Graviton4 대비 성능이 30% 향상되었으며, 에너지 효율은 더욱 극대화되었습니다.

1.1 M9g 인스턴스의 등장

새로운 EC2 M9g 인스턴스는 단일 소켓 기준 192 코어를 탑재하여, 고밀도 컨테이너 워크로드와 마이크로서비스 아키텍처에 최적화되었습니다.

  • L3 캐시 5배 증가: 데이터베이스나 인메모리 캐싱(Redis/Memcached) 성능이 비약적으로 상승했습니다. 특히 Redis 클러스터의 응답 속도가 40% 빨라졌다는 벤치마크 결과는 백엔드 개발자들에게 큰 희소식입니다.
  • 비용 절감: 동급 x86(인텔/AMD) 인스턴스 대비 최대 40% 저렴한 비용 구조를 유지합니다. 이는 AWS가 칩 설계부터 생산, 서버 조립까지 수직 계열화를 완성했기에 가능한 가격 경쟁력입니다.

1.2 실제 도입 사례: Pinterest

Pinterest의 엔지니어링 블로그에 따르면, Graviton5 얼리 액세스 도입만으로 검색 인덱싱 클러스터의 전체 노드 수를 20% 줄일 수 있었습니다. 동시에 P95 레이턴시(상위 95% 지연 시간)는 15ms에서 12ms로 개선되었습니다. 이는 단순히 하드웨어를 교체하는 것만으로 연간 수백만 달러의 비용을 절감할 수 있음을 증명합니다.

2. Trainium3 & Inferentia3: AI 인프라의 민주화

생성형 AI(Generative AI) 학습 비용은 천문학적입니다. AWS는 Trainium3를 통해 엔비디아 GPU에 대한 의존도를 낮추고, 더 합리적인 가격의 AI 학습 환경을 제공하려 합니다.

2.1 UltraCluster 아키텍처

Trainium3는 단일 칩 성능도 강력하지만, 이를 묶어서 구성하는 EC2 Trn3 UltraCluster 아키텍처가 핵심입니다. 최대 10만 개의 칩을 초고속 EFA(Elastic Fabric Adapter) 인터커넥트로 연결하여, 엑사스케일 수준의 슈퍼컴퓨팅 성능을 제공합니다.

  • 멀티 모달 지원 강화: 텍스트뿐만 아니라 이미지, 비디오 처리 능력도 강화되었습니다. FP8(8비트 부동소수점) 연산 성능이 4배 향상되어, 거대언어모델(LLM) 학습 시간을 획기적으로 단축시킵니다.
  • Neuron SDK 3.0: 과거에는 Pytorch 코드를 AWS 칩셋에 맞게 마이그레이션하는 것이 고통스러웠습니다. 하지만 SDK 3.0부터는 torch.compile 한 줄만 추가하면 거의 코드 수정 없이 호환됩니다.

2.2 Inferentia3: 추론 비용의 혁명

학습보다 더 많은 비용이 드는 것이 바로 ‘추론’입니다. Inferentia3는 전작 대비 4배 높은 처리량을 제공하며, 특히 RAG(검색 증강 생성) 파이프라인에서 벡터 검색 속도를 비약적으로 높였습니다.

3. 스토리지의 진화: S3 Express One Zone 2.0

작년에 처음 공개된 ‘S3 Express One Zone’이 2.0 버전으로 업그레이드되었습니다.

3.1 더 넓어진 리전, 더 낮아진 지연 시간

이제 전 세계 모든 리전에서 사용 가능하며, 지연 시간이 한 자릿수 밀리초로 단축되었습니다. 이는 고성능 파일 시스템을 일부 대체할 수 있는 수준입니다. AI 학습 데이터를 S3에 두고 직접 읽어들이는 방식이 이제는 표준 패턴으로 자리 잡을 것입니다.

4. 데이터베이스 혁명: Aurora Limitless V2

‘Aurora Limitless Database’가 정식 출시 1년 만에 V2로 진화했습니다.

4.1 샤딩 없는 무한 확장

개발자가 복잡하게 샤드 키를 설계하지 않아도, 데이터베이스가 알아서 트래픽 패턴을 분석하고 데이터를 분산 저장합니다. V2에서는 ‘콜드 스타트’ 문제가 완전히 해결되어, 트래픽이 0이었다가 갑자기 100만 건이 몰려도 1초 내에 스케일링이 완료됩니다. 이는 서버리스 아키텍처의 마지막 퍼즐이 맞춰진 것과 다름없습니다.

5. Amazon Q Business 2.0: 기업용 챗봇의 진화

작년에 출시된 Amazon Q가 2.0으로 업데이트되면서, 단순한 ‘질의응답’을 넘어 ‘행동하는 에이전트’로 거듭났습니다.

5.1 사내 시스템과의 통합

이제 Amazon Q는 사내 Jira, Salesforce, Slack과 완벽하게 연동됩니다. “지난주 마케팅 회의록 요약해 줘”라고 말하면, Confluence 문서를 찾아 요약하고, “관련된 Jira 티켓 생성해 줘”라고 말하면 실제로 티켓을 생성합니다.

  • 권한 관리: 사용자의 사내 권한(AD/Okta)을 그대로 상속받으므로, 보안 사고의 위험이 없습니다.
  • 데이터 프라이버시: 모든 대화 데이터는 학습에 사용되지 않음을 보장합니다.

6. Project Kuiper: 하늘에서 내려오는 전용망

AWS의 위성 인터넷 프로젝트인 Project Kuiper가 드디어 기업용 베타 서비스를 시작했습니다.

6.1 프라이빗 연결 (Private Connectivity)

가장 인상적인 점은 인터넷을 거치지 않고 위성에서 바로 AWS 백본망으로 연결된다는 것입니다. 이는 해상 플랜트, 광산, 혹은 통신 인프라가 열악한 오지에서도 AWS 리전과 전용선급 보안 연결이 가능함을 의미합니다. 건설 현장의 CCTV 데이터를 실시간으로 클라우드에 업로드하여 AI로 분석하는 시나리오가 현실이 되었습니다.

7. 파트너 생태계의 반응: Datadog, Snowflake

AWS의 파트너사들 역시 발 빠르게 움직이고 있습니다.

  • Datadog: Graviton5 전용 에이전트를 즉시 출시하여, CPU의 세부적인 성능 지표(코어별 사용률, 열 설계 전력 등)를 모니터링할 수 있게 되었습니다.
  • Snowflake: Trainium3 인스턴스 기반의 ‘Snowflake AI Data Cloud’를 프리뷰로 공개했습니다. 이를 통해 Snowflake 내부 데이터로 LLM을 파인 튜닝할 때 비용을 획기적으로 줄일 수 있습니다.

8. 자격증 업데이트 소식: AWS Certified FinOps Engineer

이번 re:Invent에서 새로운 자격증이 신설되었습니다. 바로 AWS Certified FinOps Engineer - Specialty입니다.

  • 배경: 클라우드 비용 관리가 단순히 재무팀의 업무가 아니라, 엔지니어링의 핵심 역량으로 떠올랐기 때문입니다.
  • 내용: 비용 할당 태그 전략, 예약 인스턴스(RI)/Savings Plans(SP) 최적화, 그리고 Graviton/Spot 인스턴스 활용 능력을 검증합니다. 내년 승진을 목표로 하신다면 반드시 도전해보시기 바랍니다.

9. 현업 적용 가이드: 지금 마이그레이션 해야 할까?

많은 아키텍트분들이 고민하실 주제입니다.

9.1 Graviton5 (EC2/RDS/ElastiCache)

만약 현재 Graviton3나 4를 사용 중이라면, 즉시 Graviton5로의 전환을 테스트해볼 것을 권장합니다. 보통 인스턴스 타입 변경만으로도 비용 절감과 성능 향상을 동시에 누릴 수 있기 때문입니다. 특히 Java, Go, Node.js, Python 기반의 백엔드 서비스라면 호환성 이슈가 거의 없습니다.

9.2 Trainium3 (AI/ML)

아직은 신중할 필요가 있습니다. 기존에 엔비디아 CUDA 생태계에 깊게 의존하고 있거나, 커스텀 커널을 많이 사용하는 경우 마이그레이션 비용이 발생할 수 있습니다. 하지만 추론 워크로드부터 점진적으로 Inferentia나 Trainium 기반으로 옮기는 것은 장기적인 FinOps 전략상 매우 유효합니다.

마치며

AWS는 이제 단순한 IaaS(인프라) 제공자가 아닙니다. 칩셋부터 가상화 계층, 그리고 관리형 서비스까지 **수직 통합(Vertical Integration)**을 완성해가고 있습니다. 애플이 하드웨어와 OS를 통합하여 최고의 사용자 경험을 주듯이, AWS는 칩과 클라우드 OS를 통합하여 최고의 인프라 경험을 제공하고 있습니다.

2026년의 클라우드 아키텍처는 “어떤 칩을 쓸 것인가?”를 결정하는 것에서부터 시작될 것입니다. x86의 시대가 저물고, 클라우드 네이티브 프로세서의 시대가 활짝 열렸습니다. 지금 여러분의 아키텍처 다이어그램을 다시 한번 점검해 보시기 바랍니다.


테크디펜드 후속 시리즈 예고: 다음 주부터 테크디펜드에서는 이번 re:Invent에서 발표된 기술들을 실무 관점에서 심층 분석하는 시리즈를 연재합니다.

  1. Graviton5 마이그레이션 실전 가이드: x86 애플리케이션을 Arm으로 전환할 때 겪는 트러블슈팅 사례
  2. Trainium3로 Llama-4 파인 튜닝하기: 엔비디아 GPU 대비 비용 50% 절감하는 방법
  3. S3 Express One Zone 성능 벤치마크: 기존 S3 Standard와 실제 I/O 속도 비교

전체 댓글 0

댓글을 불러오는 중입니다...

공유하기

관련 아티클