• 구름많음동두천 16.2℃
  • 흐림강릉 11.5℃
  • 구름많음서울 16.8℃
  • 구름많음대전 16.6℃
  • 흐림대구 15.1℃
  • 흐림울산 12.9℃
  • 맑음광주 17.5℃
  • 구름많음부산 16.3℃
  • 구름많음고창 15.9℃
  • 구름많음제주 14.7℃
  • 구름많음강화 15.3℃
  • 흐림보은 15.5℃
  • 구름많음금산 16.2℃
  • 구름많음강진군 17.0℃
  • 흐림경주시 13.5℃
  • 구름많음거제 16.3℃
기상청 제공

AI 판도 흔드는 ‘터보퀀트’…카이스트 교수, 핵심 기술 참여

AI 메모리 병목 해소 기대…반도체 수요 변화 변수
데이터 6분의 1 압축에도 정확도 유지 성과
GPU 환경서 연산 속도 최대 8배 향상 확인
구글, 2분기 공식 코드 공개…상용화 속도전

지이코노미 강매화 기자 | 구글이 인공지능(AI) 메모리 사용량을 획기적으로 줄이는 기술 ‘터보퀀트(TurboQuant)’를 공개하면서 AI 산업과 반도체 시장이 동시에 출렁이고 있다. AI 확산의 핵심 제약으로 꼽혀온 메모리 병목을 해소할 수 있다는 기대와 함께, 메모리 반도체 수요 감소 가능성에 대한 우려도 제기된다.

 

 

이번 기술 개발에는 한국인 과학자로는 유일하게 한국과학기술원(KAIST) 전기및전자공학부 한인수 교수가 참여했다. 그는 “AI 효율화는 소프트웨어와 하드웨어 최적화가 함께 가야 완성된다”며, 메모리 수요 감소 우려에 대해선 신중한 입장을 보였다. 기술 발전이 오히려 새로운 수요를 창출할 수 있다는 의미로 해석된다.

 

터보퀀트의 핵심은 AI 추론 과정에서 사용되는 ‘키값(KV) 캐시’의 메모리 사용을 최적화하는 알고리즘이다. 이를 적용하면 데이터를 최대 6분의 1 수준으로 압축 저장할 수 있다. 그럼에도 불구하고 정확도 저하는 거의 발생하지 않는 것이 특징이다.

 

특히 성능 개선 효과도 뚜렷하다. 엔비디아 H100 GPU 환경에서 실험한 결과, 터보퀀트를 적용할 경우 연산 속도가 기존 대비 최대 8배까지 향상되는 것으로 나타났다. 이는 대규모 AI 서비스 운영 비용과 속도 경쟁력에 직접적인 영향을 미칠 수 있는 수준이다.

 

기술의 범용성도 주목된다. 기존 최적화 기술이 데이터 특성에 따라 별도의 미세조정이 필요했던 것과 달리, 터보퀀트는 별도의 조정 없이 다양한 AI 모델에 적용할 수 있다. 이에 따라 상용화까지 걸리는 시간도 크게 단축될 것으로 전망된다.

 

핵심 차별점은 ‘2중 양자화’ 기술이다. 먼저 ‘폴라퀀트’ 방식으로 데이터를 1차 압축한 뒤, 이 과정에서 발생하는 오차 정보를 ‘양자화 존슨-린덴스트라우스 변환(QJL)’으로 추가 저장해 정확도를 유지한다. 단순히 데이터를 줄이는 것이 아니라, 손실된 정보까지 복원 가능하도록 설계한 구조다.

 

이 기술은 AI 검색 및 검색증강생성(RAG) 등 다양한 분야에도 활용될 수 있다. 특히 수십억 건의 데이터에서 유사 정보를 찾는 벡터 검색 성능을 높이는 데 기여할 수 있어, 향후 AI 서비스 전반에 영향을 미칠 것으로 보인다.

 

한 교수는 “이 기술 하나가 글로벌 하드웨어 시장에 영향을 줄 것이라고는 예상하지 못했다”고 밝히면서도, 향후 영향력에 대해서는 말을 아꼈다. 다만 구글 리서치와의 협력을 바탕으로 AI 추론 효율화 분야 후속 연구를 이어갈 계획이다.

 

구글은 현재 공개된 오픈소스에 이어, 오는 2분기 중 터보퀀트의 공식 코드를 공개할 예정이다. AI 성능 경쟁이 격화되는 가운데, 이번 기술이 시장의 균형을 바꿀 ‘게임체인저’가 될지 주목된다.