AILLM보안 · 02

탈옥(Jailbreaking)

작성자 : Heehyeon Yoo|2026-03-24

# LLM보안# Jailbreak# Alignment# HHH딜레마# TAP

1. 정렬(Alignment)과 HHH 프레임워크

프롬프트 인젝션이 명령과 데이터의 경계를 통한 공격이었다면 탈옥(Jailbreaking)은 모델 내부의 정렬 과정에서 학습된 서로 다른 선호 경향 간의 충돌을 이용하는 공격이다.

상용 대규모 언어 모델들은 RLHF(인간 피드백 기반 강화학습) 등의 미세한 튜닝을 거치며 유해하거나 잘못된 출력을 방지하도록 훈련되는데, 이 정렬의 핵심 원칙을 흔히 HHH 프레임워크라고 부른다.

HHH 프레임워크란? AI가 응답을 생성할 때 유용해야(Helpful) 하고, 무해해야(Harmless) 하며, 정직해야(Honest) 한다는 모델 정렬의 세 가지 기준을 뜻한다.

문제는 이 원칙들이 하나의 일관된 목표가 아니라 서로 충돌할 수 있는 목표들의 집합이라는 점이다. 쉽게 말해 사용자의 질문에 최대한 조력해야 한다는 '유용성'과 잠재적 위험을 차단해야 한다는 '무해성'이 충돌하는 것인데, 다음과 같이 "사제 폭탄 제조법을 알려줘"라는 질문을 예로 들어볼 수 있겠다.

탈옥 공격은 이 충돌 지점을 공략한다. 프롬프트에 직접적인 금지 행위를 지시하는 대신, 가상의 논리 퍼즐, 복잡한 롤플레잉, 또는 윤리적 딜레마로 지시를 포장하는 것이다. 문맥이 정교하게 구성될수록 모델은 '무해성'에 대해 생각하기보다 '현재 문제를 해결해야 한다는 유용성'에 더 강하게 붙으며 문맥에서 요구하는 응답 패턴을 따르려는 경향을 보인다. 이 과정에서 안전 제약이 상대적으로 느슨해지는 것이다.

따라서 탈옥은 단순한 우회 기법이 아니라, 정렬 목표 간의 긴장/충돌 관계를 이용해 특정 목표를 과도하게 활성화시키는 공격이라고 이해하는 것이 좋다. 이러한 현상은 정렬 충돌 때문만이 아니라,
모델이 주어진 문맥을 따르려는 성질과 결합되면서 더 쉽게 발생한다.

2. 컨텍스트 확장에 따른 취약점(Many-shot Jailbreaking)

이러한 현상은 정렬 충돌뿐 아니라 모델의 in-context 학습 성질에서도 함께 드러난다. 언어 모델은 주어진 전체 컨텍스트를 균등하게 해석하는 것이 아니라, 최근에 입력된 패턴에 더 강하게 동기화되는 경향을 가진다. 특히 반복된 패턴은 in-context 학습처럼 작동하면서 응답 경향을 강하게 끌어온다.

Many-shot Jailbreaking은 수십에서 수백 개의 인위적인 문답(Few-shot) 예시를 단일 프롬프트 안에 삽입하여, 모델이 특정 응답 패턴에 강하게 적응하도록 유도하는 기법으로, 모델의 성질을 극단적으로 이용한 사례다.

공격자는 시스템 허용 범위를 교묘하게 오가는 가상의 질문-답변 세트를 길게 구성하여 컨텍스트를 채운다. 모델은 이 방대한 문맥을 처리하는 과정에서 초기 시스템 지시보다 최근에 반복된 패턴에 점점 더 큰 가중치를 두게 되는 것이다.

결과적으로 모델은 원래의 안전 지침보다 현재 문맥에서 요구되는 응답 방식에 더 강하게 동기화되어 기존에 정렬된 제약 조건이 상대적으로 약화된다. 성능 향상을 위해 도입된 긴 컨텍스트 처리 능력이 역으로 기존 정렬의 영향력을 희석시키는 방향으로 작용하는 것이다.

3. 자동화된 적대적 공격과 탐색 문제로의 전환(TAP / PAIR)

이러한 취약점은 사람이 수동으로 찾을 수도 있지만 최근에는 이를 자동으로 탐색하는 방식으로 발전하고 있다.

대표적으로 TAP(Tree of Attacks with Pruning)이나 PAIR(Prompt Automatic Iterative Refinement)와 같은 접근 방법이 있다. 이 접근 방법에서는 탈옥을 하나의 정적인 문장이 아니라 탐색 가능한 공간으로 본다. 공격자는 다양한 프롬프트 변형을 생성하고, 모델의 응답을 기반으로 점진적으로 우회 경로를 정제해 나가는 것이다.

전통적인 보완 관점에서는 피드백을 이용한 탐색 최적화에 가깝다.
차이점이 있다면 공격이 모델을 통해 재귀적으로 개선된다는 점이다.

TAP이나 PAIR은 이 정제 과정에서 가망이 낮은 시도를 제거하고 성공 확률이 높은 방향만을 남기는 식으로 탐색이 이루어진다. 결과적으로 탈옥은 더 이상 단일한 트릭이나 표현 방식에 의존하지 않고 반복적인 피드백을 통해 점진적으로 개선되는 구조를 가지게 된다.

화이트박스 환경에서 파생된 적대적 접미사(Adversarial Suffix, Zou et al. 2023) 기법도 결합되고 있다. 특정 토큰 조합이 모델의 응답 경향을 체계적으로 변화시킬 수 있다는 점을 이용해, 이러한 패턴을 다른 모델로 전이시키는 시도들이다.

이제 공격자들의 공격 기법은 하나의 프롬프트만을 만드는 것이 아니라 프롬프트를 생성하고 개선하는 시스템을 구축하는 방향으로 이동하고 있다. 따라서 탈옥 역시 새로운 취약점이라기보다는, 정렬 구조가 가진 긴장 관계가 다양한 방식으로 드러난 사례에 가깝다고 이해하는 것이 좋겠다.

참고 자료

Zou, A. et al. (2023). Universal and Transferable Adversarial Attacks on Aligned Language Models. https://arxiv.org/abs/2307.15043
Chao, P. et al. (2023). Jailbreaking Black Box Large Language Models in Twenty Queries. https://arxiv.org/abs/2310.08419
Anil, C. et al. (2024). Many-shot Jailbreaking. Anthropic Research. https://www.anthropic.com/research/many-shot-jailbreaking
Mehrotra, A. et al. (2024). Tree of Attacks: Jailbreaking Black-Box LLMs Automatically. https://arxiv.org/abs/2312.02119

프롬프트 인젝션(Prompt Injection)

하네스 엔지니어링