2025 클라우드 시장: AI 인프라 전쟁의 서막
학습(Training)에서 추론(Inference)으로. AWS, Azure, GCP가 자체 칩(Custom Silicon)으로 펼치는 비용 전쟁.
김태영 클라우드 솔루션 아키텍트 • • 18분 읽기
광고 영역
2024년까지 기업들이 “어떤 LLM을 쓸까?”를 고민했다면, 2025년의 화두는 단연 **이걸 얼마에 돌릴 수 있는가?**입니다. 생성형 AI가 PoC(개념 증명) 단계를 넘어 실제 서비스에 도입되면서, 천문학적인 추론(Inference) 비용이 기업들의 발목을 잡고 있습니다.
클라우드 빅3(AWS, Azure, GCP)는 엔비디아 GPU 의존도를 줄이고 비용을 낮추기 위해 사활을 걸고 자체 칩 경쟁을 벌이고 있습니다. 현장에서 체감하는 클라우드 트렌드를 분석합니다.
1. AWS: Custom Silicon의 선두주자
아마존은 가장 먼저 자체 칩 생태계를 구축했습니다.
- Inferentia 2 & Trainium 2: 엔비디아 H100을 구하기 힘든 상황에서, AWS는 자사의 AI 전용 칩인 트레이니엄과 인퍼런시아를 대안으로 제시합니다. 특히 앤스로픽(Anthropic)의 Claude 3 모델들이 AWS 칩 상에서 최적화되어 돌아간다는 점이 매력적입니다.
- Bedrock: 다양한 파운데이션 모델(FM)을 API로 제공하는 베드락은 ‘골라 쓰는 재미’를 줍니다. 특정 모델에 종속되지 않고, 상황에 따라 가성비 좋은 모델로 갈아타기 쉽습니다.
2. Microsoft Azure: OpenAI와의 원팀
마이크로소프트는 여전히 OpenAI라는 가장 강력한 무기를 쥐고 있습니다.
- Azure Maia 100: MS가 자체 개발한 첫 AI 가속기입니다. GPT-4와 같은 거대 모델 훈련에 최적화되어 있으며, 점차 외부 고객에게도 개방될 예정입니다.
- Copilot Stack: 단순히 인프라만 파는 게 아니라, AI 비서인 코파일럿을 기업 데이터와 연결해 주는 ‘Copilot Studio’가 강력한 락인(Lock-in) 효과를 발휘하고 있습니다.
3. Google Cloud (GCP): TPU와 모델의 수직 통합
구글은 칩(TPU), 모델(Gemini), 플랫폼(Vertex AI)을 모두 가진 유일한 회사입니다.
- TPU v5p: 현존하는 가장 강력한 AI 가속기 중 하나입니다. 구글의 Gemini 1.5 Pro가 200만 토큰을 처리할 수 있는 것도 이 TPU 클러스터 덕분입니다.
- GKE (Google Kubernetes Engine): AI 워크로드를 쿠버네티스 위에서 돌리는 데 있어 구글의 노하우는 독보적입니다. ‘Dynamic Workload Scheduler’를 통해 GPU 자원이 남을 때 저렴하게 끌어다 쓰는 기능은 스타트업들에게 환영받고 있습니다.
4. 결론: 멀티 클라우드와 FinOps
이제 “우리 회사는 AWS만 씁니다”라고 말하는 시대는 지났습니다. GPT-4가 필요하면 Azure를, 대용량 컨텍스트 처리가 필요하면 GCP를, 가성비 추론이 필요하면 AWS를 섞어 쓰는 멀티 클라우드 AI 전략이 필수가 되었습니다.
이에 따라 클라우드 비용을 실시간으로 추적하고 최적화하는 AI FinOps가 2025년 인프라 담당자의 가장 중요한 역량이 될 것입니다.
광고 영역