[중국 AI 점검 (中)] 딥시크, 서버 소재지인 중국의 개인 정보 국가 독점관리가 문제

최봉 산업경제 전문기자 입력 : 2025.02.17 00:30 ㅣ 수정 : 2025.02.18 10:44

[기사요약]
딥시크, 개발비용 과소 계상했다는 의구심 들어..
전혀 새로운 혁신 기술이 아닌 기존 기술 활용
개인정보 이슈도 우려 사항 많아..
정보를 국가 독점하는 중국 변수가 가장 심각한 문제

트럼프는 취임과 동시에 AI 분야에 5천억달러를 투자하는 ‘스타게이트 프로젝트’를 발표했다. 그러나 하루 앞서 중국 AI 기업 ‘딥시크(DeepSeek)’는 불과 560만달러만 소요되었음에도 1억달러 이상 투입된 챗지피티-4(ChatGPT-4) 이상의 성능을 갖고 있다고 발표해 트럼프의 계획 공표에 찬물을 끼얹은 모양새가 되었다. 현재 중국의 AI 관련 능력은 미국과 1위를 다툴 정도로 강력한 것으로 알려져 있다. 이러한 관점에서 중국의 AI 관련 기업들의 움직임을 자세히 알아본다. <편집자 주>

오픈AI의 1억달러 대비 560만달러라는 저렴한 비용으로 더 우월한 성능을 갖고 있다고 발표해 글로벌 AI 시장을 강타한 ‘딥시크’ [출처=npr]

[뉴스투데이=곽대종 산업연구원 명예 KIET Fellow] 딥시크가 공개한 논문을 바탕으로 살펴보면 560만달러의 비용은 각종 연구비용, 알고리듬 설계비용 및 데이터의 반복 테스트 비용을 제외한 것으로 추정된다.

즉 엔비디아가 미국의 대중국 수출 규제를 회피하기 위해 H100의 사양을 낮춰 개발해 공급한 H800으로 약 28만시간을 자동 수행에 사용했다고 발표했는데 이는 H800을 시간당 2달러로 썼다는 것일 뿐, 훈련 및 사전훈련 클러스터 비용은 제외된 것이다.

• 딥시크, 발표된 비용 560만달러가 아닌 수십억달러가 들어갔을 수도..

딥시크는 실제로 H100은 물론 H20 및 H800 등 첨단 GPU 5만개를 보유한 것으로 추정되는데 만약 이들 5만개의 GPU를 클러스터링해 2개월간 작업하는 비용을 미국 기준으로 산출할 경우 20억달러 이상에 달한다.

뿐만 아니라 딥시크가 기존에 보유해 왔던 1만개에 달하는 GPU A100도 AI 트레이닝에 사용된 것으로 추정되므로 이 비용을 계상할 경우 10억달러 정도가 추가되어 총비용은 30억달러까지 늘어날 수도 있다.

< 딥시크와 챗GPT 등 여타 AI 모델의 훈련비용 비교 >

곧 출시될 10만달러가 넘는 H100의 경우 4억달러, Llama-3.1-405B는 5천만달러, 클로드-3.5-소넷은 3천만달러, 오리지널 GPT-4의 경우 3천만달러, 그리고 GPT-4o와 O1은 15백만달러 정도까지 비용이 드는 반면 딥시크 V3와 R1은 560만달러에 불과하다고 발표되었다. [출처=reddit]

일반적으로 AI 모델 개발을 위한 자본투자 비용은 AI 서버 클러스터를 구축하는 데 약 70%가 소요되고 나머지는 데이터센터 부지 관련, 전력 인프라 및 기타 인프라 구축에 소요되는 것으로 알려져 있다.

따라서 딥시크가 발표한 560만달러라는 금액은 이러한 비용을 모두 제외하고 성공한 개발 케이스에 해당하는 일회성 비용만 산정한 것으로 추정된다.

• 딥시크, 전혀 새로운 것이 아닌 기존 기술들을 조합

딥시크의 핵심 기술은 전혀 새로운 기술이 아닌 기존 AI 기술을 기반으로 하는데 트랜스포머 아키텍처, 강화 학습, 키-값 캐시 및 전문가 혼합 등 이미 검증된 방법론을 활용해 모델을 개발했다.

비용 절감과 효율성 개선은 기존의 산업적 추세에 부합하는 결과일 뿐, 새로운 기술적 돌파구는 아니므로 딥시크의 성과는 기존 기술의 최적화와 적용에 기반한 것으로 평가해야 할 것이다.

자세히 분야별로 살펴보면 기존 모델 아키텍처 활용에 있어서 트랜스포머 아키텍처를 기반으로 한 모델을 사용하고 있는데 이는 ‘오픈AI’의 GPT 시리즈와 같은 기존 AI 모델에서 널리 사용되는 기술이다.

딥시크의 R1 모델은 강화 학습을 통해 추론 능력을 강화했는데 이 역시 오픈AI의 GPT-4나 ‘엔트로픽’의 ‘클로드’ 모델에서 이미 사용된 기술이며 특히 오픈AI의 o1 모델과 유사한 방식으로 강화 학습을 적용해 추론 능력을 개선했다.

효율성 개선을 위해서도 딥시크는 키-값 캐시 관리와 전문가 혼합(MoE) 기술을 개선해 모델의 효율성을 높였는데, 이는 기존 AI 연구에서 이미 검증된 기술들을 더욱 최적화한 것일 뿐이며 기존에 구글, 오픈AI 및 메타 등 주요 AI 기업들에서도 이미 사용되고 있는 방법론이다.

또한, 딥시크가 채택한 비용 절감을 위한 방법은 알고리듬 개선과 하드웨어 효율성 향상으로 인해 AI 모델의 학습 비용이 지속적으로 감소하는 기존의 산업적 추세를 따른 것이다.

예를 들어 ‘딥시크-V3’는 ‘챗GPT-4’나 ‘클로드 3.5 Sonnet’보다 저렴한 비용으로 비슷한 성능을 달성했음에도 불구하고 이는 기존의 비용 절감 곡선에 부합하는 결과일 뿐 새로운 혁신은 아니다.

• 정보를 국가가 독점하는 중국 정부가 전폭 지원하는 기업이라는 문제

무엇보다 딥시크는 서버가 중국 내에 있기 때문에 모든 정보를 국가가 독점해 관리하는 중국 체제하에서 개인 정보의 활용과 관련되어 제대로 된 비용을 지불하지도 않을뿐더러 보안에서도 매우 취약하다는 점이 본질적인 문제라고 할 수 있다.

딥시크는 사용자의 개인식별정보, 자동 수집정보 및 제3자로부터의 정보를 자동 수집하고 있다고 스스로 밝히고 있다.

개인식별정보에는 사용자 이름, 생년월일, 이메일주소, 전화번호 및 비밀번호가 포함되며 이 외에도 사용자가 딥시크를 이용하는 동안 입력하는 텍스트와 음성 데이터, 업로드 파일은 물론 채팅 기록까지 자동 저장하고 있다.

문제는 사용자가 딥시크를 사용하지 않더라도 IP주소, 컴퓨터 모델, 운영체계 및 언어는 물론 키를 입력하는 패턴, 사용빈도, 체류시간, 클릭 패턴 및 검색어 기록까지 자동으로 수집된다는 점이다.

딥시크가 제3자로부터 수집하는 정보는 소셜 미디어 정보와 구매 기록 등이 있다.

진짜 심각한 점은 광고 파트너와 분석 회사와 데이터를 공유할 뿐만 아니라 법적 기관과도 공유가 가능하다고 명시되어 있다는 점이다. 결국 중국 정부와 공유가 가능하다는 것을 스스로 인정하고 있는 것이다.

코로나 펜데믹 과정에서 정보를 은폐하고 통제함으로써 확산을 초래했던 중국의 상황을 미루어 볼 때 중국이 개인정보를 무차별적으로 수집해 관리하는 데 따른 정보 보안의 위험성은 딥시크에서도 그대로 예상되고 있다. [출처=Getty Images]

이러한 개인 정보 보안과 관련된 본질적으로 심각한 문제에 비해 천안문 사태나 시진핑의 독재 등의 질문에 대해 대답을 회피한다는 것은 개발기업이 속한 국가의 성격을 미루어 볼 때 충분히 예상할 수 있다는 면에서 오히려 심각성의 정도가 미약하다고 할 수 있다.

다음에는 딥시크 이외에 주목할 만한 중국 AI 기업이 얼마나 있는지 살펴본다.

[정리=최봉 산업경제 전문기자]

◀ 곽대종(Daejong Gwak) ▶ 한국외국어대학교 경제학박사 / 산업연구원 명예 KIET Fellow / (전) 산업연구원 연구위원 / (전) 한국자동차산업협회 환경·기술분과 위원 / (전) 국가과학기술위원회 평가위원 / (전) 산자부 연구개발사업 평가위원 / (전) 규제개혁위원회 전문위원

[email protected] 이 기자의 다른 기사 보기

[관련기사] [중국 AI 점검 (中)] 딥시크, 서버 소재지인 중국의 개인 정보 국가 독점관리가 문제

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.

- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

0 /250