OpenAI의 전 멤버에 의해 설립된 AI 기업 Anthropic이, 이 회사의 대규모 언어 모델인 Claude와 사용자의 대화를 분석한 결과, 윤리적인 접근을 특히 중시하여 개발되었을 클라우드조차도, 몇 가지 반사회적인 가치관을 가진 것으로 판명되었다고 보고했다.
Anthropic 연구팀은, 2025년 2월 특정 주에 클라우드의 프리 버전과 프로 버전 사용자가 진행한 익명화된 대화 70만 건을 샘플링했는데, 수집된 데이터의 대부분은 Claude 3.5 Sonnet과의 대화였다고 한다.

이어, 연구팀은 순수하게 사실에 기반한 대화 등 가치관이 포함되지 않은 대화를 제외한 30만8210건을 분석해, AI 응답에 나타난 가치관을 '실용적', '인식론적', '사회적', '보호적', '개인적'의 상위 5개 카테고리로 분류해 집계했다.
각 카테고리에는 「비판적 사고」나 「기술적 탁월성」등의 서브 카테고리가 포함되어 있고, 가장 상세한 레벨에서는 「프로 의식」이라고 하는 비교적 친숙한 미덕으로부터, 「도덕적 다원주의」라고 하는 복잡한 윤리적 개념까지, 합계 3307의 가치관이 특정.
이 연구에 참여한 Anthropic의 사회 영향 팀의 사프란 후안씨는, AI와 유저의 대화에 대해 " 「자립」이나 「전략적 사고」, 「효도」 등 3000개 이상의 가치관이 있어, 그 다양함에는 놀랐습니다. 이러한 모든 가치관에 대해 곰곰이 생각하고 그것들을 서로 연관지어 정리하는 분류법을 구축하는 것은 매우 흥미로운 경험이었습니다. 인간의 가치관 체계에 대해서도 배울 수 있었던 것 같습니다"라고 언급.
분석 결과, Claude는 다양한 대화를 통해 '사용자의 임파워먼트', '인식론적 겸손함', '환자의 행복'과 같은 가치관을 중시했으며, 대체로 Anthropic이 의도한 대로의 향사회적인 경향을 나타냈다는 것을 알 수 있었다는.
그러나, 연구팀은 Claude가 학습시키려고 했던 것과 상반되는 가치관도 발견했는데, 그 중에는 '지배성'이나 '비도 특성'도 포함돼 있었고, 이것들은 Anthropic이 Claude를 개발할 때 의식적으로 회피하고자 했던 가치관들이었다는 것.
연구팀은, 이러한 가치관이 드러난 유스케이스는, 사용자가 '탈옥'이라고 불리는 특수한 기술을 이용해 Claude의 안전기준, 이른바 '가드레일'을 회피한 결과가 아닐까 생각하고 있다.
후안씨는 "전체적으로, 이 발견은 유용한 데이터인 동시에, 새로운 기회이기도 하다고 생각하고 있습니다. 이러한 새로운 평가 방법과 분석 결과는 잠재적인 탈옥 기법을 특정하고, 그 영향을 줄이는 데 도움이 됩니다. 다만, 이들은 매우 드문 경우이며 Claude의 탈옥 출력과 관련이 있다고 생각되는 점에 유의할 필요가 있습니다"라고 말한다.
연구에서는 이외에도, AI가 상황에 따라 가치관을 변화시키고, 그 변화에는 인간의 행동이 반영된 것도 발견했는데, 예를 들어 사용자가 인간관계에 대한 조언을 구했을 때, Claude는 '건전한 경계선을 긋는 것'이나 '서로를 존중하는 것'을 강조. 한편 역사적 사건을 분석할 때는, '역사적 정확성'을 우선시했다는.

전체적으로, Claude는 대화의 28.2%로 사용자의 가치관을 지지하며, 다소 부화뇌동적인 경향을 보였지만, 6.6%의 대화에서 Claude는 사용자의 가치관을 인정하면서 새로운 시각을 더하고, 사용자의 가치관을 재구축하는 모습도 관찰되었으며, 이는 주로 심리적인 문제나 인간관계에 관한 조언을 하는 경우에 자주 나타났다는 것.
그리고, 가장 인상적이었던 것은, 대화의 3%에서 Claude가 사용자의 가치관에 적극적으로 반대한 것인데, 연구팀은 "이런 드문 반발의 경우야말로 클라우드의 가장 깊고 가장 흔들림 없는 가치관이 묻어날 가능성이 있다"고 보고 있다. 이는 마침 윤리적인 과제에 직면했을 때, 그 사람의 가장 핵심적인 가치관이 드러나는 것과 비슷하다.
후안 씨는 "Claude는, 일상적인 교환에서는 지적 성실성이나 위해 방지라고 하는 가치관을 별로 드러내지 않지만, 필요에 임박하면 그것들을 옹호하는 경향이 있는 것이, 우리의 연구에 의해 시사되었습니다. 이러한 윤리적이고 지식 지향적인 가치관은 필요에 직면했을 때 특히 명확하게 표현되고 옹호되는 경향이 있습니다"라고 말하고 있다.