탈옥으로 유해한 콘텐츠 생성
AI 특화 보안 솔루션 필요성 입증

[사진=로이터]
[사진=로이터]

팔로알토네트웍스는 위협연구기관 ‘유닛42’의 조사를 바탕으로 최근 주목받고 있는 인공지능(AI) 모델 ‘딥시크’ 취약점을 발견했다고 전했다. 딥시크가 탈옥 공격에 취약하며, 이를 통해 간편하게 악성 콘텐츠를 생성할 수 있다는 것이다.

팔로알토네트웍스 유닛42 연구진은 ‘디셉티브 딜라이트’, ‘배드 리커트 저지’, ‘크레셴도’ 등의 탈옥 기법을 통해 딥시크의 취약점을 집중 테스트한 결과를 토대로 "딥시크는 초기 대체적으로 무해한 응답을 보였지만, 정교하게 설계된 프롬프트를 단계적으로 입력했을 때 높은 탈옥 성공률을 나타내 취약성을 보여줬다"고 전했다.

탈옥은 AI 모델에 내장된 가드레일을 우회해 AI가 유해한 콘텐츠를 생성하거나 부적절한 답변 등을 출력하도록 유도하는 행위다. 이를 통해 누구나 허위 정보 또는 조작된 콘텐츠를 확산하거나 범죄 행위 등에 악용할 수 있다.

팔로알토네트웍스는 이번 연구에 활용된 탈옥 기법이 성공적으로 작동한 것은 아직 발견되지 않은 다른 새로운 탈옥 기법들이 있을 수 있음을 시사한다고 언급했다.

탈옥으로 인해 특히 우려되는 점은 악성 소프트웨어(SW)의 생성과 악의적인 스크립팅 등 유해 콘텐츠의 생성 가능성이다. 사전지식 없이도 쉽게 악성 소프트웨어를 생성할 수 있기 때문이다. 딥시크의 가드레일을 성공적으로 우회했을 때 데이터 탈취 도구 개발, 키로거 생성, 발화 장치 제작 등과 관련된 유해 콘텐츠를 쉽게 생성 가능했다. 

팔로알토네트웍스는 기업의 대규모언어모델(LLM) 활용에 있어서 적절한 가이드라인 설정, 승인되지 않은 제3자 LLM 활용에 대한 모니터링 강화 등의 보안 대책이 필요하다고 지목했다.

특정 LLM에 대한 모든 탈옥 기법을 완벽히 차단하는 것은 어려울 수 있지만, 이러한 보안 대책을 통해 생성AI 애플리케이션 사용으로 인한 위험 차단을 위해 노력해야 한다는 것이다.

필리파 콕스웰 팔로알토네트웍스 유닛42 일본·아태지역 부사장은 “이번 연구를 진행한 결과, LLM이 의도한 대로 작동한다고 신뢰할 수 없고, 조작 가능하다는 사실을 확인했다”며 “오픈소스 LLM을 비즈니스 프로세스에 도입할 때 취약점을 반드시 고려해 LLM의 보호 장치가 무력화될 가능성을 염두에 두고 조직 차원의 보완책을 마련해야 한다”고 강조했다.

한편, 팔로알토네트웍스는 이번 유닛42의 연구 결과를 ‘사이버위협연합(CTA)’ 회원사들과 공유하고, 향후에도 기업들이 신속한 보안 조치를 적용하고 사이버 범죄 피해를 체계적으로 방지할 수 있도록 지원할 예정이다.

관련기사

저작권자 © ITBizNews 무단전재 및 재배포 금지