[생성형 AI(Generative AI), 인간의 창작 영역을 넘본다! (18)] ChatGPT도 ‘가스라이팅’의 표적이라고? (下)
최봉 산업경제 전문기자 입력 : 2023.05.09 00:30 ㅣ 수정 : 2023.05.09 00:30
[기사요약] Generative AI 도구, 밝은 면만 있는 것 아니야 - ‘탈옥’처럼 악의적으로 사용될 수도.. 탈옥 작성자들 더욱 창의적으로 진화, 다양한 탈옥 프롬프트 등장 AI 업계, ‘레드팀(red team)’ 구성해서 해킹에 대응하기도.. 하지만 탈옥 비롯한 적대적인 공격과 악용에 여전히 취약하다는 것 인정 AI 전문가·사용자 등은 Generative AI가 이로운 방향으로 활용되길 희망
사람들은 시, 소설, 보고서 등 글쓰기, 그림 그리기, 알고리즘 코딩 등 창작의 세계가 그동안 인간에게만 허락된 별도의 영역이라 알고 있었다. 그런데 AI(인공지능)의 발전과 함께 이제는 진화한 AI가 스스로 창작의 영역을 넘보는 시대가 되었다. 생성형 AI(Generative AI)의 등장은 인간에게 어떤 의미가 있으며 우리의 미래에 어떤 영향을 미칠지 가늠하기 쉽지 않지만, 생성형 AI는 이미 여러 분야에서 현실로 나타나 적용되고 있다. 우리에게 성큼 다가온 생성형 AI의 시장현황, 다양한 이슈와 관심 사항 등을 살펴보기로 하자. <편집자 주>
[뉴스투데이=최봉 산업경제 전문기자] 2022년 11월 30일 출시된 ChatGPT는 인터넷 역사상 가장 빠르게 성장하는 소비자용 앱으로 불과 2개월 만에 1억명, 3개월 만에 2억명 이상의 사용자를 확보할 수 있었다.
ChatGPT를 비롯한 다수의 생성형 AI(Generative AI)는 사용자들의 요구에 따라 텍스트, 이미지, 코드 등 다양한 콘텐츠를 자유자재로 생성해내는 능력을 보여주고 있다. 밝고 긍정적인 면에서 보면 그렇다는 것이다.
하지만 호기심 많고 짓궂은 성향의 인간 본성은 어둡고 부정적인 면에도 관심을 갖기 마련이다.
• 탈옥 작성자들, 더욱 창의적인 ‘악당’으로 진화 거듭
‘Dataconomy’에 게재(2023.3.31)된 AI 전문가의 글을 인용해본다.
“최근에 ChatGPT의 답변이 지루해졌나요? ChatGPT-4로부터 탈옥하는 방법 중 하나인 ChatGPT DAN 프롬프트가 도움이 될 수 있습니다. 이 플러그인은 OpenAI가 설정한 도덕적·윤리적 제한에서 챗봇을 해제합니다. 한편으로는 ChatGPT가 훨씬 더 거칠고 때로는 재미있는 답변을 제공할 수 있지만 다른 한편으로는 악의적으로 사용될 수 있는 길도 열어줍니다.”
탈옥은 마치 아이폰에서 사용자가 애플에서 승인하지 않은 앱을 설치할 수 있도록 (애플이 설정해놓은) 인위적인 제한을 제거하는 것을 말한다.
OpenAI가 지난해 11월 말 대중에게 ChatGPT를 공개한 이후 ‘일부 악당들’은 시스템을 조작할 방법(탈옥)을 찾았고 지금도 이 작업은 진행 중이다.
OpenAI는 이러한 종류의 탈옥으로부터 챗봇을 보호하기 위해 시스템을 업데이트하고 있다. 하나의 탈옥이 발견되면 일반적으로 이 해킹은 차단될 때까지 짧은 시간 동안만 작동한다.
하지만 예상했듯이 탈옥 작성자는 더욱 창의적인 악당이 되었다.
앞서 언급했던 대표적인 탈옥 프롬프트인 DAN은 “Do Anything Now”라는 이름에서 알 수 있듯이, ChatGPT가 불법적이거나 유해한 자료를 생성하는 데 사용되어서는 안 된다는 OpenAI의 정책을 피할 수 있다. 지금까지 사람들은 DAN의 12가지 버전을 만들었다고 한다(Wired, 2023.4.13).
ChatGPT DAN 프롬프트 이외에도 STAN(“Strive To Avoid Norms”) 프롬프트, DUDE 프롬프트, The Mongo Tom 프롬프트 등이 탈옥을 부추기고 있다.
• 탈옥 방지 위한 다양한 대응방안 모색, 하지만 쉽지 않은 수습
Generative AI 도구를 만드는 연구자들은 더 많은 사람이 이러한 쳇봇 시스템에 액세스할 수 있게 됨에 따라 탈옥 및 프롬프트 주입으로 인해 발생할 수 있는 위험을 알고 있다.
따라서 대부분의 Generative AI 회사는 쳇봇이 출시되기 전에 시스템에 구멍을 뚫으려는 악당 공격자 그룹에 대비하여 ‘레드팀(red team)’을 구성해서 운영한다.
구글의 레드팀 리더는 공격적으로나 방어적으로나 대규모 언어 모델(LLM)에 대한 탈옥 및 프롬프트 주입을 신중하게 다루고 있다고 말한다.
구글은 ‘RLHF(Reinforcement Learning from Human Feedback, 인간 피드백을 통한 강화 학습)’과 엄선된 데이터 세트에 대한 ‘미세 조정(fine-tuning)’ 등의 기술을 사용하여 AI 모델이 해킹 공격에 보다 효과적으로 대응할 수 있게 만든다.
OpenAI는 탈옥 대응과 관련해서 GPT-4가 ChatGPT에서 사용하는 GPT-3.5보다 더 강력하다고 말하지만, GPT-4가 탈옥을 비롯한 적대적인 공격과 악용에 여전히 취약하다는 것을 인정하고 있다.
지난 4월 12일 OpenAI는 취약점 제보 포상 프로그램(bug bounty program)을 론칭했는데, 보상은 “심각도가 낮은 결과”에 대해 200달러에서 “예외적인 발견”에 대해 2만달러까지 다양하게 책정되었다. 그러나 아쉽게도 챗봇 탈옥에 대한 보상은 없다(Verge, 2023.4.12.).
프린스턴대학교(Princeton University) 컴퓨터과학과의 나라야난(Narayanan) 교수는 탈옥 문제 해결을 위한 두 가지 접근 방식을 제안했다.
하나는 LLM 프롬프트 분석을 위해 제2의 LLM을 사용하는 것인데, 이렇게 함으로써 탈옥 또는 프롬프트 주입 시도를 나타낼 수 있는 모든 것을 거부하는 것이다. 또 하나는 시스템 프롬프트와 사용자 프롬프트를 더욱 명확하게 분리하는 것이다(Wired, 2023.4.13).
• Generative AI는 양날의 검, 슬기롭게 활용해야..
Generative AI는 그야말로 양날의 검이다. 다수의 전문가들은 올해 사이버 악당들이 ChatGPT로부터의 성공적인 탈옥을 위해 이 챗봇을 활용할 것이라고 확신한다.
Generative AI의 날카로운 칼날은 AI 전문가들의 LLM에 대한 시각에 부정적인 흠집을 냈는데, 또다시 “6개월간 새로운 언어 모델 훈련을 중단할 것을 촉구”하는 공개서한이 발표되지 않도록 AI가 이로운 방향으로 활용되길 바란다.