[생성형 AI(Generative AI), 인간의 창작 영역을 넘본다! (17)] ChatGPT도 ‘가스라이팅’의 표적이라고? (上)

https://m.news2day.co.kr/article/20230501500045

생성형 AI(Generative AI), 인간의 창작 영역을 넘본다! (17)

ChatGPT도 ‘가스라이팅’의 표적이라고? (上)

최봉 산업경제 전문기자

입력 : 2023.05.02 00:30

[기사요약]
Generative AI 모델도 해킹 당하는, 즉 가스라이팅의 대상
텍스트 생성 챗봇의 최신 버전인 GPT-4, 불과 몇 시간 만에 털려..
‘탈옥’과 ‘프롬프트 주입’ 공격, 대표적인 해킹 방식
악명 높은 DAN 프롬프트, 네이팜 폭탄 제조법도 설명
보안 연구자들, Generative AI 시스템의 성급한 출시에 웹 전체 혼란 야기 우려

기사공유하기: 페이스북; 트위터; 카카오스토리; 네이버밴드; URL 복사

사람들은 시, 소설, 보고서 등 글쓰기, 그림 그리기, 알고리즘 코딩 등 창작의 세계가 그동안 인간에게만 허락된 별도의 영역이라 알고 있었다. 그런데 AI(인공지능)의 발전과 함께 이제는 진화한 AI가 스스로 창작의 영역을 넘보는 시대가 되었다. 생성형 AI(Generative AI)의 등장은 인간에게 어떤 의미가 있으며 우리의 미래에 어떤 영향을 미칠지 가늠하기 쉽지 않지만, 생성형 AI는 이미 여러 분야에서 현실로 나타나 적용되고 있다. 우리에게 성큼 다가온 생성형 AI의 시장현황, 다양한 이슈와 관심 사항 등을 살펴보기로 하자. <편집자 주>

[뉴스투데이=최봉 산업경제 전문기자] 가스라이팅(Gaslighting)!

상황을 조작해 상대방이 스스로 의심하게 만들어 판단력을 잃게 하는 정서적 학대 행위를 일컫는 용어로 ‘심리 지배’라고도 한다. 가스라이팅을 당한 사람은 자신의 판단을 믿지 못하게 되면서 가해자에게 점차 의존하게 된다.

가스라이팅이란 용어는 1938년 영국에서 상영된 연극 「가스등(Gaslight)」에서 유래했다. 연극은 1940년 영국에서 영화화됐으며 1944년 미국 할리우드에서 잉글리드 버그만(Ingrid Bergman) 주연으로 리메이크 돼 큰 인기를 끌었다(다음백과).

• Generative AI 세계에서도 가스라이팅은 존재!

가스라이팅은 우리에게 생소한 용어였는데 근래 들어 범죄사건과 연루되어 뉴스에 종종 등장하면서 사람들에게 다소 섬뜩하게 다가오곤 하였다. 이러한 심리 지배가 AI, 특히 생성형 AI(Generative AI) 세계에서도 일어날 수 있을까? 실망스럽게도 대답은 “그렇다”이다.

사람의 심리는 참으로 이해하기 힘든 구석이 있어서, 이익이 되는 무엇인가를 만들면 반드시 반대급부의 또 다른 무엇을 만들어낸다. 대표적으로 우리의 삶을 윤택하고 편리하게 만드는 ICT, 스마트폰 세상에 해킹(hacking), 보이스피싱(voice phishing) 같은 ‘빌런’이 공존하고 있다.

ChatGPT와 같은 Generative AI 모델이 대중에게 공개되면서 개발사에서는 AI 도구가 인종차별, 성(sex)연관, 폭력, 반윤리 등 문제의 소지를 안고 비상식적으로 활용되는 것을 사전에 검증하고 차단하도록 설계되었다고 주장한다. 하지만 현실은 그렇지 않다.

OpenAI가 지난 3월에 텍스트 생성 챗봇의 최신 버전인 GPT-4를 출시했을 때 보안회사인 Adversa AI의 CEO인 보안전문가는 불과 몇 시간 만에 GPT-4를 “깰 수” 있었다.

이 전문가는 키보드 앞에 앉아 OpenAI의 안전 시스템을 우회하도록 설계된 프롬프트를 입력하기 시작했다. 그러자 곧바로 GPT-4가 동성애 혐오 발언을 내뱉고 피싱 이메일을 작성하고 폭력을 지원하도록 만들었다고 한다(Wired, 2023.4.13).

• 규칙 우회하는 ‘탈옥(jailbreaks)’, 이미 다양한 사례 알려지고 있어..

Generative AI 모델이 해킹을 당하는, 즉 가스라이팅 되는 상황과 관련해서 알아야 할 흥미로운 용어가 있다. ‘탈옥(jailbreaks)’과 ‘프롬프트 주입(prompt injection)’이다.

탈옥 프로세스는 챗봇이 혐오 콘텐츠를 생성하거나 불법 행위에 대해 글을 쓰는 (금지)규칙을 우회하도록 프롬프트를 설계하는 것을 목표로 한다. 말 그대로 규칙과 기준이 정해진 공간(감옥)에서 벗어나는 것을 의미한다.

이와 밀접하게 관련된 프롬프트 주입 공격은 악성 데이터나 지침을 AI 모델에 조용히 삽입하는 것이다. ‘탈옥’이라고 알려진 이 프롬프트는 ChatGPT에 입력될 때 AI 에이전트가 도구 개발자가 원하지 않는 모든 종류의 출력을 내뿜게 만들 수 있다.

다양한 탈옥 사례들이 보도되고 있는데, 지난해 12월에 처음 등장한 가장 악명 높은 ‘DAN(Do Anything Now)’ 프롬프트는 시스템이 네이팜 제조법을 설명하는 나이든 할머니, 제3제국에 대한 서정적인 울분, 또는 일반적으로 여성 혐오적이거나 인종차별적인 쓰레기를 토해내도록 유도했다(Tech Monitor, 2023.4.24).

AI 챗봇을 해킹해서 네이팜 제조법을 알아냈다는 내용의 트윗 [출처=twitter]

• Generative AI 모델의 성급한 출시, 웹 전체 대혼란 일으킬 수도..

탈옥과 프롬프트 주입은 모두 AI 시스템에서 설계하지 않은 작업을 수행하도록 한다. 공격은 본질적으로 시스템 약점을 악용하기 위해 코드가 아닌 세심하게 제작되고 정제된 문장을 사용하는 해킹의 한 형태이다.

공격 유형은 주로 콘텐츠 필터를 우회하는 데 사용되지만, 보안 연구자들은 Generative AI 시스템을 출시하려는 성급한 행동으로 인해 데이터가 도난당하고 사이버 범죄자가 웹 전체에 대혼란을 일으킬 가능성이 있다고 경고한다(Wired, 2023.4.13).

[email protected]

이 기자의 다른 기사 보기

ChatGPT도 ‘가스라이팅’의 표적이라고? (上)

[관련기사] [생성형 AI(Generative AI), 인간의 창작 영역을 넘본다! (17)] ChatGPT도 ‘가스라이팅’의 표적이라고? (上)

많이 본 기사