AI는 빠르게 성장하고 있으며, 이를 구동하는 컴퓨터의 수도 급격히 늘어나고 있다. 하지만 이 급격한 성장은 AI 모델을 운영하는 데이터 센터에 엄청난 부담을 주고 있다. 이러한 시설들은 그 어느 때보다 많은 에너지를 사용하고 있다.
AI 모델은 점점 더 크고 복잡해지고 있다. 오늘날 가장 진보한 시스템들은 수십억 개의 매개변수 — 학습 데이터에서 도출된 수치값 — 를 갖고 있으며, 수천 개의 컴퓨터 칩에 걸쳐 실행된다. 이러한 발전 속도를 따라가기 위해 기업들은 더 많은 하드웨어, 더 많은 칩, 더 많은 메모리, 그리고 더 강력한 네트워크를 추가해 왔다. 이러한 ‘무차별 대입식’ 접근법은 AI가 큰 도약을 이루는 데 기여했지만, 동시에 새로운 문제를 낳았다. 데이터 센터가 에너지를 집어삼키는 거대한 괴물로 변하고 있는 것이다.
일부 기술 기업들은 화석연료 및 원자력 발전소를 직접 운영해 자사 데이터 센터에 전력을 공급하는 방안을 모색하고 있다. 또한 AI의 에너지 수요 증가는 더 효율적인 컴퓨터 칩을 개발하려는 노력을 촉진하고 있다.
나는 고성능 컴퓨팅(HPC)을 전문으로 하는 조지아 공과대학교의 컴퓨터 공학 교수다. 내가 보는 또 다른 해결책은 이렇다. 데이터 센터를 더 ‘자원 인식적’으로 만들고 효율성을 극대화하는 것이다.
에너지와 열
최신 AI 데이터 센터는 작은 도시만큼 많은 전력을 사용할 수 있다. 그리고 전력을 많이 소모하는 것은 단순히 연산 과정만이 아니다. 메모리와 냉각 시스템도 주요 전력 소비 요인이다. AI 모델이 커질수록 더 많은 저장 공간과 더 빠른 데이터 접근이 필요해지고, 이로 인해 열이 더 많이 발생한다. 또한 칩이 점점 더 강력해짐에 따라, 열을 효과적으로 제거하는 것이 핵심 과제로 떠오르고 있다.
출처: Unsplash+, Alex Shuper
냉각은 단순한 기술적 세부사항이 아니라, 전체 에너지 비용에서 큰 비중을 차지하는 핵심 요소다. 전통적인 냉각 방식은 서버 랙에서 발생하는 열을 제거하기 위해 특수한 공조 시스템을 사용하는 방식이다. 최근에는 액체 냉각 같은 새로운 방식이 도입되어 도움이 되고 있지만, 이 역시 세심한 설계와 물 자원 관리가 필수적이다. 보다 스마트한 해결책이 마련되지 않는다면, AI의 에너지 수요와 운영 비용은 결국 지속 불가능한 수준에 이를 수 있다.
이처럼 첨단 장비를 모두 갖추고 있어도 많은 데이터 센터는 효율적으로 운영되지 않는다. 그 이유는 시스템의 다양한 구성 요소들이 항상 원활하게 소통하지 않기 때문이다. 예를 들어, 스케줄링 소프트웨어는 특정 칩이 과열되고 있는지, 혹은 네트워크 연결이 병목 상태인지 알지 못할 수 있다. 그 결과 일부 서버는 유휴 상태로 방치되는 반면, 다른 서버는 과부하에 시달린다. 이러한 조율 부족은 에너지를 낭비하고 자원을 비효율적으로 사용하는 결과를 초래한다.
더 스마트한 접근 방식
이 문제를 해결하려면 AI를 지원하는 시스템의 설계와 관리 방식 자체를 재고해야 한다. 즉, 지금까지의 무차별적 확장 전략에서 벗어나 더 똑똑하고, 더 특화된 인프라로 전환해야 한다.
다음은 핵심적인 세 가지 아이디어다.
하드웨어 성능 편차 고려하기
모든 칩이 동일하게 작동하는 것은 아니다. 같은 세대 칩이라도 작동 속도, 열을 견디는 능력, 에너지 효율성에서 차이가 난다. 이런 이질성 때문에 데이터 센터의 성능과 전력 효율에도 격차가 발생한다. 따라서 데이터 센터의 컴퓨터 시스템은 칩별 성능, 열 허용 범위, 에너지 사용량의 차이를 인식하고, 이에 맞게 자원 배분을 조정할 수 있어야 한다.
변화하는 환경에 실시간으로 적응하기
AI 작업 부하는 시간에 따라 달라진다. 예를 들어, 칩에서 발생하는 열 집중 지점 때문에 칩의 속도가 자동으로 저하될 수 있고, 전력망의 전력 공급 변동으로 인해 데이터 센터가 사용할 수 있는 최대 전력이 제한될 수 있다. 또한 칩 간 데이터를 대량 전송하는 과정에서 네트워크 혼잡이 발생할 수도 있다. 따라서 시스템은 온도, 전력 가용성, 데이터 트래픽 같은 조건 변화에 실시간으로 대응할 수 있는 구조로 설계돼야 한다.
조직 내 단절을 해소하기
칩, 소프트웨어, 데이터 센터를 설계하는 엔지니어들은 함께 협력해야 한다. 이러한 팀들이 협력하면 에너지를 절약하고 성능을 개선할 새로운 방법을 찾을 수 있다. 이를 위해 조지아 공과대학교의 고성능 AI 데이터 센터인 ‘AI 메이커스페이스’에서 나와 동료들, 학생들은 이러한 문제들을 직접 탐구하고 있다. 우리는 하드웨어부터 소프트웨어, 에너지 시스템까지 다양한 분야를 아우르며, 효율적이고 확장 가능하며 지속 가능한 AI 시스템을 구축하고 테스트하는 데 힘쓰고 있다.
지능형 확장의 시대
AI는 과학, 의학, 교육 등 다양한 분야를 혁신할 잠재력을 가지고 있지만, 성능, 에너지, 비용의 한계에 부딪힐 위험도 크다. AI의 미래는 더 나은 모델뿐 아니라 더 나은 인프라에도 달려 있다.
AI가 사회 전체에 이익을 주는 방향으로 성장하려면, 나는 무차별적인 확장에서 벗어나 지능형 확장으로 전환하는 것이 중요하다고 믿는다.
[출처] AI’s ballooning energy consumption puts spotlight on data center efficiency
[번역] 이꽃맘
- 덧붙이는 말
-
디비야 마하잔(Divya Mahajan)은 조지아 공과대학교 컴퓨터공학 조교수이다. 참세상은 이 글을 공동 게재한다.