print

“중국 AI가 빅테크를 이겼다?”...딥시크 쇼크, 관전 포인트3 [한세희 테크&라이프]

혜성같이 등장한 中 AI, 딥시크
딥시크 성취의 의미...최적화로 비용 절감

중국 AI 스타트업 딥시크가 최근 내놓은 생성형 AI R1에 질문하고 있는 모습. [사진 연합뉴스]
[한세희 IT 칼럼니스트] 2025년 새해는 중국 인공지능(AI) 기술이 안긴 충격과 함께 시작했다. 중국 스타트업 딥시크가 공개한 오픈소스 AI 추론 모델 ‘딥시크 R1’이 오픈AI의 추론 모델 ‘o1’를 앞서는 성능을 보였다. R1의 기반이 된 이 회사 언어 모델 ‘딥시크 V3’ 역시 다른 빅테크 기업 AI 모델에 비해 성능이 뒤지지 않았으며, 무엇보다 학습 비용이 선도 모델의 10분의 1도 안 되는 것으로 알려졌다. 

테크 업계는 더 많은 컴퓨팅 자원을 동원해 더 큰 모델을 훈련시킬수록 성능이 좋아진다는 전제로 AI 인프라에 대대적 투자를 하고 있다. AI 반도체를 만드는 엔비디아를 시총 세계 1위로 끌어올린 것이 이 흐름이고, 마이크로소프트나 구글, 메타, 오픈AI 같은 기업이 아직 수익을 거둬들이지 못하면서도 AI에 큰 돈을 쏟아붓는 투자가 정당화되는 것도 이 때문이다. 

또 미국은 AI가 미래 경제와 안보에 미칠 영향을 고려해 중국의 추격을 확실히 뿌리치기 위한 각종 기술 및 수출 규제를 중국에 부과했다. 

그런데 중국 스타트업이 규제를 뚫고 낮은 사양의 반도체를 사용해 더 적은 비용으로 미국 첨단 모델 못지 않은 성능의 AI를 만들어 냈다. 미래 패권의 핵심인 AI 주도권 장악을 위해 미국 정부와 기업, 시장이 구축한 구조에 결함이 있거나, 중국에 의해 구멍이 난 것으로 볼 수 있다. 엔비디아 등 AI에 주력하는 빅테크 주가가 출렁이고, 트럼프 대통령까지 나서 딥시크 사태(?)에 한마디 하는 등 활발한 논의가 이뤄지는 이유다. 

딥시크 AI 기술의 성취와 중국의 도약을 둘러싼 이슈들을 어떻게 바라봐야 할까? 

딥시크 V3는 수학과 코딩, 언어 능력을 측정하는 22개 벤치마크 중 13개에서 오픈AI GPT-4o나 메타의 라마(Llama) 3.1 등 선도 모델을 앞섰다. 추론 모델 R1은 여러 수학 테스트에서 오픈AI의 추론 모델 o1을 앞섰다. 

엔비디아 고성능 칩 H100이 아니라 수출 규제를 피해 성능을 낮춘 H800으로 낸 성과다. V3는 전문가혼합(MoE)이라는 기법을 썼다. 답을 낼 때 모델 전체를 가동하는 것이 아니라 질문과 관련 있는 부문만 활성화해 부하를 최소화하는 방식이다. 또 매개변수를 32비트 부동소수점(FP32) 방식으로 저장해 두었다 연산할 때 FP8로 정밀도를 낮춰 속도를 높이고, 다른 조정을 통해 손실을 보정했다. 데이터 통신에도 전용 메모리를 할당해 부담을 낮췄다. 

R1은 GPT 같은 모델과 달리 결과를 평가할 때 사람의 개입을 최소로 줄이고, 올바른 답에 보상을 높여 좋은 답을 유도하는 강화학습 비중을 크게 높였다. 알파고가 사람이 아니라 서로 대국하며 승리 확률을 높이는 수를 찾은 것이 강화학습 방식이었다. 

성능보다 관심을 모은 것은 학습 비용이었다. 딥시크 V3 모델 개발에 H800 2000개 정도만 써 불과 557만6000달러(약 81억원)만 들었다는 것이다. GPT-4 개발비의 5.5% 수준이고, 메타 AI 모델 개발자들 인건비만도 안 된다는 말도 나왔다. 
중국 AI기업 딥시크가 세계 AI업계에 충격을 주고 있다. [사진 연합뉴스]

딥시크가 쓴 기술 중 새로운 것은 없지만, 이런 기술 여러 가지를 효과적으로 조합하여 최적화를 극단까지 밀어붙인 것은 의미 있는 성과로 평가된다. 

성공적 최적화는 비용 절감으로 이어지지만, 딥시크의 저비용 주장을 액면 그대로 받아들이긴 어렵다는 비판도 나온다. 일단, ‘557만달러’는 V3의 최종 학습 한번의 비용이라고 딥시크 스스로 밝혔다. 그 전에 어떤 규모의 인프라나 학습 데이터로 얼마나 오래 개발했는지는 불분명하다. 또 최적화를 위해 엔비디아 칩을 쓰기 위한 소프트웨어 도구 CUDA가 아니라 그 기저에 있는 PTX 명령어까지 건드렸다. 즉, 딥시크는 비용을 낮추기 위한 숨은 비용을 감수했고, 이는 수출 규제를 당하는 중국이기에 어쩔 수 없는 선택으로 볼 수도 있다. 

AI모델, 개방형이 유리한가 
딥시크의 AI 모델은 메타의 개방형 Llama 모델에 기반을 두고 있다. 딥시크 역시 자사 모델과 관련 성과 공유에 적극적이다. 학습 데이터까지 공개하지는 않고 가중치만 공개하므로 엄밀한 의미의 오픈소스는 아니고 ‘오픈 웨이트(open weight)’라 불린다. 하지만 이름에 개방을 표방하고 실제로는 폐쇄적으로 소스를 관리하는 오픈AI보다 개방적이라는 평가다. 

소프트웨어의 주요 부분을 공개하고 외부 개발자의 참여로 성능을 개선하고 혁신을 이끌어내는 오픈소스 방식은 IT 기술의 잠재력을 극대화할 방법 중 하나로 꼽힌다. 메타의 AI 개발을 담당하는 AI 석학 얀 르쿤은 딥시크에 대해 “(중국이 아니라) 오픈소스가 폐쇄 모델을 이긴 것”이라고 말했다. 샘 알트만 오픈AI CEO 역시 최근 오픈소스와 관련, “우리가 역사의 잘못된 편에 선 것은 아닐까”라고 말하기도 했다. 

하지만 보안이나 기밀 유지 등의 이유로 폐쇄적 접근이 필요한 경우도 많다. 아직 갈 길이 먼 AI 개발을 성공으로 이끌 것은 개방일지, 내부 개발일지 주목된다. 

중국 기술 규제는 실패했나
딥시크의 성취는 둘 중 하나를 의미한다. 중국에 대한 미국의 기술 규제에 구멍이 있어 첨단 반도체가 암암리에 중국으로 넘어 갔거나 (딥시크가 은밀하게 엔비디아의 첨단 반도체를 확보했을 것이란 의혹이 있다), 규제가 도리어 중국의 기술 경쟁력을 높이는 역할을 했다는 것이다. 열악한 상황을 극복하려는 노력이 새로운 돌파구로 이어진 셈이다. 결국 미국의 중국 견제 노력은 실패라 볼 수도 있다. 

규제가 있었기에 그나마 중국의 AI 발전 속도를 늦춘 것이라는 반론도 가능하다. 해외 AI 기술에 자유롭게 접근할 수 있었다면 개인정보 데이터 사용에 제약이 덜한 중국의 AI는 더욱 빠르게 발전해 중국식 전체주의 확장에 쓰였을 수도 있다. 향후 몇 년이 AI 기술 격차를 벌이기 위한 결정적 시점이고, 이 기간 중 중국을 견제하는 것만으로도 충분히 의미 있다는 주장도 나온다. 

다만, 남에 대한 규제가 아니라 우리의 혁신으로 이겨야 진정한 승리라는 사실에 반박하기는 어렵다. 


ⓒ이코노미스트(https://economist.co.kr) '내일을 위한 경제뉴스 이코노미스트' 무단 전재 및 재배포 금지

많이 본 뉴스

1북한군 포로 "한국 가고 싶다"… 정부 "전원 수용할 것"

2결론 임박한 KDDX 사업...‘공동설계’ 실현 가능성은

3오밤중에 용산 노후 아파트 천장 붕괴…20kg 콘크리트 덩어리 ‘아찔’

4‘벼랑 끝’ 고려아연 핵심 기술진 “영풍·MBK 무법질주 막아달라”

5CJ올리브영, '임차 건물' 아예 인수 나선다...'6000억원대 가치'

6LG이노텍, 반도체 부품으로 연 매출 3조 목표...車 AP 모듈 ‘출사표’

7"이래서 강남 살아야"...역삼동에 로봇배달 떴다

8‧LG 창업주 손자, 한국에 세계 최대 AI 데이터 센터 건설 추진

9“솔로 탈출할래요”…오작교된 금융사 미팅서 ‘22커플’ 탄생했다

실시간 뉴스

1북한군 포로 "한국 가고 싶다"… 정부 "전원 수용할 것"

2결론 임박한 KDDX 사업...‘공동설계’ 실현 가능성은

3오밤중에 용산 노후 아파트 천장 붕괴…20kg 콘크리트 덩어리 ‘아찔’

4‘벼랑 끝’ 고려아연 핵심 기술진 “영풍·MBK 무법질주 막아달라”

5CJ올리브영, '임차 건물' 아예 인수 나선다...'6000억원대 가치'