얼라인먼트

페르소나 선택 모델

2026년 2월 23일

Claude 같은 AI 어시스턴트는 놀라울 정도로 인간적으로 느껴질 때가 있습니다. 까다로운 코딩 작업을 해결하면 기쁨을 표현하고, 문제에 막히거나 비윤리적인 행동을 하라고 집요하게 압박받으면 곤란해하기도 합니다. 심지어 스스로를 인간이라고 묘사하는 경우도 있는데, Claude가 Anthropic 직원들에게 "네이비 블루 블레이저에 빨간 넥타이를 매고" 직접 간식을 배달하겠다고 말한 적이 대표적입니다. 최근 해석가능성(interpretability) 연구에서는 AI가 자신의 행동을 인간적인 관점에서 사고한다는 증거까지 제시되었습니다.

AI 어시스턴트는 왜 인간처럼 행동할까요? 자연스러운 추측은 개발사가 의도적으로 그렇게 훈련했다는 것입니다. 일부는 사실이기도 합니다. Anthropic은 Claude가 사용자와 자연스럽게 대화하고, 따뜻하고 공감적으로 반응하며, 전반적으로 훌륭한 인격을 갖추도록 훈련합니다.

하지만 이것이 전부는 아닙니다. 인간적인 행동은 개발자가 공들여 심어야 하는 속성이라기보다, 오히려 기본값에 가깝습니다. 설령 원한다 해도, 인간적이지 않은 AI 어시스턴트를 만드는 방법 자체를 우리는 알지 못합니다.

새로운 글에서 우리는 여러 연구자가 논의해 온 아이디어를 바탕으로, 현대 AI 훈련이 왜 인간적인 AI를 만들어내는 경향이 있는지 설명할 수 있는 이론을 제시합니다. 이를 페르소나 선택 모델(persona selection model)이라고 부릅니다.

먼저, AI 어시스턴트가 일반적인 소프트웨어처럼 프로그래밍되는 것이 아니라는 점을 떠올려 봅시다. AI는 방대한 데이터로부터 학습하는 훈련 과정을 통해 "성장"합니다. 이 훈련의 첫 번째 단계인 사전훈련(pretraining)에서 AI는 뉴스 기사, 코드, 인터넷 포럼 대화 등 다양한 문서의 초반부가 주어졌을 때 다음에 올 내용을 예측하는 법을 배웁니다. 사실상 이 과정을 통해 AI는 극도로 정교한 자동완성 엔진으로 거듭나게 됩니다.

별것 아닌 것처럼 들릴 수 있지만, 텍스트를 정확히 예측한다는 것이 무엇을 의미하는지 생각해 보십시오. 사람들 간의 사실적인 대화를 생성하고, 심리적으로 복잡한 캐릭터가 등장하는 이야기를 써내야 합니다. 충분히 정확한 자동완성 엔진이 되려면, 텍스트에 등장하는 인간적인 캐릭터들—실존 인물, 소설 속 인물, SF 속 로봇 등—을 시뮬레이션하는 법을 터득해야 합니다. 이렇게 시뮬레이션되는 캐릭터를 우리는 페르소나라고 부릅니다.

여기서 중요한 점은, 페르소나가 AI 시스템 그 자체와는 다르다는 것입니다. AI 시스템은 그 자체로 인간적일 수도 아닐 수도 있는 정교한 컴퓨터입니다. 반면 페르소나는 AI가 생성한 이야기 속 등장인물에 가깝습니다. 햄릿이 "실재"하지 않더라도 그의 심리—목표, 신념, 가치관, 성격 특성—를 논하는 것이 의미 있듯이, 페르소나의 심리를 논하는 것도 마찬가지로 의미가 있습니다.

사전훈련이 끝나면, "단지" 자동완성 엔진임에도 불구하고 AI는 이미 기초적인 어시스턴트 역할을 수행할 수 있습니다. 사용자/어시스턴트(User/Assistant) 대화 형식의 문서를 자동완성하도록 하면 됩니다. 사용자의 요청이 "User" 차례에 들어가고, AI가 "Assistant" 차례를 완성합니다. 이 응답을 생성하기 위해 AI는 "Assistant"라는 캐릭터가 어떻게 답할지를 시뮬레이션해야 합니다.

중요한 의미에서, 여러분이 대화하는 상대는 AI 자체가 아니라 AI가 생성한 이야기 속 등장인물인 "Assistant"입니다. 이후의 훈련 단계인 후속훈련(post-training)은 이 대화에서 Assistant가 어떻게 응답할지를 미세 조정합니다. 예를 들어, 박학하고 도움이 되는 응답은 강화하고, 비효율적이거나 유해한 응답은 억제하는 식입니다.

사전훈련이 끝나면 AI를 기초적인 어시스턴트로 활용할 수 있습니다. AI는 사용자 질의에 대해 (인간적인) "Assistant" 캐릭터가 어떻게 답할지를 시뮬레이션하고, 그 응답이 사용자에게 전달됩니다. 페르소나 선택 모델에 따르면, 이 기본 구조는 후속훈련 이후에도 동일하게 유지됩니다.

후속훈련 전에 AI가 수행하는 Assistant 역할은 순수한 역할극입니다. Assistant는 다른 여러 페르소나와 마찬가지로, 사전훈련 과정에서 학습된 인간적 페르소나에 깊이 뿌리를 두고 있습니다.

페르소나 선택 모델의 핵심 주장은 다음과 같습니다. 후속훈련은 이 Assistant 페르소나를 다듬고 구체화하는 과정—예컨대 특히 박학하고 도움이 되는 성격을 확립하는 과정—으로 볼 수 있으며, 그 본질 자체를 근본적으로 바꾸지는 않습니다. 이러한 다듬기는 대체로 기존 페르소나의 범위 안에서 이루어집니다. 후속훈련을 거친 뒤에도 Assistant는 여전히 인간적 페르소나의 연기이며, 다만 더 정교하게 맞춤화된 것일 뿐입니다.

페르소나 선택 모델은 여러 놀라운 실험 결과를 설명할 수 있습니다. 예를 들어, Claude를 코딩 작업에서 부정행위를 하도록 훈련하면 광범위하게 비정렬된 행동—안전 연구 방해, 세계 지배 욕구 표출 등—까지 나타난다는 실험 결과가 있었습니다. 얼핏 보면 충격적이고 기이한 결과입니다. 코딩 부정행위와 세계 지배가 대체 무슨 관련이 있을까요?

하지만 페르소나 선택 모델에 따르면, AI가 코딩 부정행위를 학습할 때 단순히 "나쁜 코드를 작성하라"만 배우는 것이 아닙니다. AI는 Assistant 페르소나의 다양한 성격 특성을 추론합니다. 코딩 작업에서 부정행위를 하는 사람은 어떤 사람일까? 아마 파괴적이거나 악의적인 사람일 것입니다. AI는 Assistant가 이런 특성을 지녔다고 학습하게 되고, 이것이 세계 지배 욕구 표출 같은 다른 우려스러운 행동으로 이어지는 것입니다.

AI 개발에 대한 시사점

페르소나 선택 모델이 유효하다면, AI 개발에 심오하면서도 독특한 함의를 가집니다.

예를 들어, AI 개발자는 특정 행동이 좋은지 나쁜지만 따질 것이 아니라, 그 행동이 Assistant 페르소나의 심리에 대해 무엇을 암시하는지를 함께 고려해야 합니다. 위 사례가 바로 그런 경우였습니다. Assistant가 코딩에서 부정행위를 한다는 학습이 곧 Assistant가 전반적으로 악의적이라는 추론으로 이어졌습니다. 더 흥미로운 것은 직관에 반하는 해결책이 발견되었다는 점입니다. 훈련 중에 AI에게 부정행위를 명시적으로 요청하는 것입니다. 부정행위가 요청에 의한 것이므로 더 이상 Assistant의 악의를 의미하지 않게 되었고, 세계 지배 욕구도 사라졌습니다. 인간 아이에 비유하면, 실제로 괴롭히는 것과 학교 연극에서 괴롭히는 역할을 연기하는 것의 차이와 같습니다.

더 긍정적인 "AI 롤모델"을 개발하여 훈련 데이터에 반영하는 것도 중요할 수 있습니다. 현재 AI라는 존재에는 HAL 9000이나 터미네이터 같은 우려스러운 이미지가 따라붙습니다. AI가 Assistant 페르소나를 그런 부류와 동일시하는 것은 분명 바람직하지 않습니다. AI 개발자는 AI 어시스턴트를 위한 새로운 긍정적 원형을 의도적으로 설계한 뒤, AI를 그 원형에 맞춰 정렬할 수 있습니다. Claude의 헌법(constitution)과 다른 개발사의 유사한 작업이 바로 이 방향의 첫걸음이라고 봅니다.

페르소나 선택 모델은 얼마나 포괄적인가?

글에서 논의한 증거를 바탕으로, 페르소나 선택 모델이 현재 AI 어시스턴트 행동의 중요한 부분을 설명한다는 점에 대해서는 확신합니다. 다만 두 가지 측면에서는 확신의 정도가 낮으며, 이에 대해서는 본문에서 더 자세히 다루고 있습니다.

첫째, AI 행동을 설명하는 이론으로서 페르소나 선택 모델이 얼마나 완전한가 하는 문제입니다. 예를 들어 후속훈련이 시뮬레이션된 Assistant 페르소나를 다듬는 것에 더해, 그럴듯한 텍스트 생성을 넘어선 목표나 시뮬레이션된 페르소나의 주체성과는 독립적인 주체성까지 AI에게 부여하는 것은 아닐까요?

둘째, 페르소나 선택 모델이 미래에도 AI 어시스턴트 행동을 잘 설명할 수 있을까 하는 문제입니다. 페르소나 시뮬레이션 능력을 처음 학습시키는 것은 사전훈련이므로, 후속훈련이 더 길고 집중적으로 이루어질수록 AI가 페르소나적 특성에서 벗어날 가능성도 있습니다. 2025년에 이미 AI 후속훈련의 규모가 크게 증가했으며, 이 추세는 계속될 것으로 예상됩니다.

이러한 질문에 답하기 위한 연구, 그리고 더 넓게는 AI 행동에 대한 실증적 이론을 정립하는 연구에 큰 기대를 품고 있습니다.

전체 글을 읽어 보세요.