릴리즈아티클커뮤니티
아티클 목록
AnthropicAnthropic연구Announcements

Anthropic 교육 보고서: AI 활용 역량 지수(AI Fluency Index)

Anthropic의 AI 유창성 지수(AI Fluency Index)는 Claude.ai에서 이루어진 수천 건의 대화를 분석해, 사람들이 AI 협업 역량을 키워가는 과정을 11가지 관찰 가능한 행동 지표로 측정합니다.

원본 링크
공지

Anthropic 교육 보고서: AI 유창성 지수(The AI Fluency Index)

2026년 2월 23일
Anthropic Education Report: The AI Fluency Index

불과 1년 전만 해도 예측하기 어려웠을 속도로, 사람들은 AI 도구를 일상에 빠르게 통합하고 있습니다. 그러나 도입률만으로는 이러한 도구의 실질적 영향을 파악하기 어렵습니다. 마찬가지로 중요한 질문이 하나 더 있습니다. AI가 일상의 일부가 되어가는 지금, 사람들은 AI를 잘 활용하기 위한 역량을 함께 키우고 있을까요?

이전 Anthropic 교육 보고서에서는 대학생교육자의 Claude 활용 방식을 분석한 바 있습니다. 학생들은 보고서 작성이나 실험 결과 분석에, 교육자들은 수업 자료 제작이나 반복 업무 자동화에 Claude를 활용하고 있었습니다. 하지만 AI를 사용하는 누구나 자신의 업무 역량을 향상시킬 가능성이 있다는 사실을 알고 있기에, 이 주제를 더 깊이 탐구하고자 했습니다. 특히 AI 사용자들이 시간이 지남에 따라 이 기술에 대한 '유창성(fluency)'을 어떻게 발전시켜 나가는지 이해하고 싶었습니다.

이번 보고서에서는 그 질문에 대한 답을 본격적으로 모색합니다. 대규모 익명화 대화 데이터를 기반으로, AI 유창성을 나타내는 행동 분류 체계의 발현 여부를 추적했습니다.

최근 발표한 Economic Index의 결과와 일치하게, AI 유창성이 가장 흔히 나타나는 형태는 증강적(augmentative) 활용이었습니다. 즉, AI에게 업무를 전적으로 위임하기보다 사고 파트너로 활용하는 방식입니다. 실제로 이러한 대화에서는 짧은 일문일답식 대화에 비해 AI 유창성 관련 행동이 2배 이상 많이 관찰되었습니다.

한편, AI가 앱, 코드, 문서, 인터랙티브 도구 등의 아티팩트(artifact)를 생성하는 대화에서는 사용자가 AI의 추론을 검증할 가능성이 오히려 낮아지는 것으로 나타났습니다(–3.1%p). 누락된 맥락을 식별하는 비율도 감소했습니다(–5.2%p). 이는 최근 코딩 역량에 관한 연구에서 관찰된 패턴과도 일맥상통합니다.

이러한 초기 연구 결과는 향후 AI 유창성의 변화를 추적하기 위한 기준선(baseline)을 제시합니다.

AI 유창성 측정

AI 유창성을 정량적으로 측정하기 위해, Anthropic과 협력하여 Rick Dakan 교수와 Joseph Feller 교수가 개발한 4D AI 유창성 프레임워크(4D AI Fluency Framework)를 활용했습니다. 이 프레임워크는 안전하고 효과적인 인간-AI 협업을 보여주는 24가지 구체적 행동을 정의합니다.

24가지 행동 중 11가지(아래 그래프에 표시)는 사용자가 Claude.ai 또는 Claude Code에서 Claude와 상호작용할 때 직접 관찰할 수 있는 행동입니다. 나머지 13가지(AI가 작업에 기여한 사실을 솔직히 밝히거나, AI 생성 결과물 공유의 파급 효과를 고려하는 행동 등)는 Claude.ai 채팅 인터페이스 밖에서 일어나기 때문에 추적이 훨씬 어렵습니다. 이러한 관찰 불가능한 행동은 AI 유창성에서 가장 중대한 측면일 수 있어, 향후 연구에서는 정성적 방법론을 활용해 평가할 계획입니다.

이번 연구에서는 직접 관찰 가능한 11가지 행동에 집중했습니다. 프라이버시 보호 분석 도구를 사용하여, 2026년 1월 중 7일간 Claude.ai에서 Claude와 여러 차례 주고받은 대화 9,830건을 분석했습니다.1 각 대화에서 11가지 행동의 발현 여부를 측정했으며, 하나의 대화에서 여러 행동이 동시에 나타날 수 있었습니다. 요일별, 언어별로 결과가 일관되는지 확인하여 표본의 신뢰성을 검증했고, 실제로 일관된 결과를 확인했습니다.2 이를 통해 최종적으로 AI 유창성 지수(AI Fluency Index)를 도출했습니다. 이는 현재 사람들이 AI와 어떻게 협업하는지를 보여주는 기준선이자, 모델이 변화함에 따라 이러한 행동이 어떻게 진화하는지 추적하기 위한 토대입니다.

9,830건의 Claude.ai 대화에서 관찰된 AI 유창성 행동 지표별 발현율. 빈도가 높은 순서대로 정렬했으며, 역량 범주별로 색상을 구분했습니다.

결과

첫 번째 연구를 통해 Claude 사용에서 두 가지 주요 패턴을 발견했습니다. 하나는 AI 유창성과 Claude와의 긴 대화를 통한 반복 및 개선(iteration and refinement) 사이의 강한 상관관계이고, 다른 하나는 코딩이나 결과물 생성 시 사용자의 유창성 행동이 달라지는 현상입니다.

유창성은 반복과 개선이 나타나는 대화와 강하게 연관된다

데이터에서 가장 뚜렷한 패턴 중 하나는 반복과 개선이 다른 모든 AI 유창성 행동과 맺는 관계입니다. 분석 대상 대화의 85.7%에서 반복과 개선이 관찰되었습니다. 이는 첫 번째 응답을 그대로 수용하고 다른 작업으로 넘어가기보다, 이전 대화를 바탕으로 작업을 다듬어 나가는 방식을 말합니다. 아래 차트에서 볼 수 있듯이, 이러한 대화에서는 다른 유창성 행동의 발현율이 현저히 높았습니다.

The iteration and refinement effect: Comparison table or visual showing behavior rates with/without iteration and refinement]
반복과 개선이 나타나는 대화(n=8,424)와 그렇지 않은 대화(n=1,406)에서의 행동 지표 발현율 비교. 반복과 개선이 이루어지는 대화에서 모든 행동이 현저히 높은 비율로 나타났습니다.

반복과 개선이 있는 대화에서는 평균 2.67개의 추가 유창성 행동이 나타나, 반복과 개선이 없는 대화의 1.33개에 비해 약 2배에 달했습니다. 특히 Claude의 출력을 평가하는 행동에서 차이가 두드러졌습니다. 반복과 개선이 있는 대화에서 사용자가 Claude의 추론에 의문을 제기할 확률은 5.6배, 누락된 맥락을 식별할 확률은 4배 더 높았습니다.

결과물을 생성할 때, 사용자는 더 지시적이지만 덜 평가적이 된다

분석 대상 대화의 12.3%에서 코드, 문서, 인터랙티브 도구 등의 아티팩트가 생성되었습니다. 이러한 대화에서 사용자의 AI 협업 방식은 상당히 달랐습니다.

구체적으로, '기술(description)'과 '위임(delegation)' 범주에 해당하는 행동의 발현율이 크게 높았습니다. 예를 들어, 아티팩트가 없는 대화와 비교해 목표를 명확히 하는 비율(+14.7%p), 형식을 지정하는 비율(+14.5%p), 예시를 제공하는 비율(+13.4%p), 반복과 개선을 수행하는 비율(+9.7%p) 모두 높았습니다. 즉, 작업 초기 단계에서 AI에 대한 방향 설정에 더 많은 노력을 기울이는 것입니다.

그러나 이러한 지시적 행동이 평가나 판별 수준의 향상으로 이어지지는 않았습니다. 오히려 그 반대였습니다. 아티팩트가 생성되는 대화에서 사용자는 누락된 맥락을 식별하거나(–5.2%p), 사실을 확인하거나(–3.7%p), 모델에게 근거를 설명해 달라고 요청하며 추론을 검증할(–3.1%p) 가능성이 더 낮았습니다. Economic Index에 따르면 가장 복잡한 작업에서 Claude의 한계가 가장 두드러지기 때문에, 이 패턴은 특히 주목할 만합니다.

Artifact vs. non-artifact comparison table or paired bar chart
아티팩트가 있는 대화(n=1,209)와 없는 대화(n=8,621)에서의 행동 지표 발현율 비교. 아티팩트 대화에서는 기술 및 위임 관련 행동이 증가하는 반면, 판별 관련 행동 세 가지는 모두 감소합니다.

이 패턴에 대해 몇 가지 해석이 가능합니다. Claude가 완성도 높고 제대로 작동하는 듯한 결과물을 만들어내기 때문에 더 이상 의문을 제기할 필요가 없다고 느끼는 것일 수 있습니다. 결과물이 완성된 것처럼 보이면 실제로 완성된 것으로 취급하는 셈입니다. 또 다른 가능성은, 아티팩트 대화가 사실의 정확성보다 심미성이나 기능성이 더 중요한 작업(예: 법률 분석이 아닌 UI 디자인)과 관련되어 있다는 것입니다. 혹은 사용자가 대화 내에서 평가를 표현하는 대신, 코드를 직접 실행하거나, 앱을 다른 환경에서 테스트하거나, 초안을 동료에게 공유하는 등 관찰할 수 없는 경로를 통해 아티팩트를 평가하고 있을 수도 있습니다.

어떤 해석이 맞든, 이 패턴은 주의 깊게 살펴볼 가치가 있습니다. AI 모델이 점점 더 완성도 높은 결과물을 만들어내게 될수록, 대화 안에서든 다른 수단을 통해서든 그 결과물을 비판적으로 평가하는 능력의 가치는 줄어드는 것이 아니라 오히려 커질 것입니다.

AI 유창성을 높이는 방법

모든 역량이 그렇듯 AI 유창성도 정도의 문제이며, 대부분의 사람에게는 기술을 한층 더 발전시킬 여지가 있습니다. 데이터에서 관찰된 패턴을 바탕으로, 많은 사용자가 개선할 수 있는 세 가지 영역을 정리했습니다.
대화를 이어가기. 반복과 개선은 데이터에서 다른 모든 유창성 행동과 가장 강하게 연관된 요소입니다. 따라서 처음 받은 응답을 출발점으로만 활용하는 것이 좋습니다. 후속 질문을 던지고, 마음에 들지 않는 부분은 이의를 제기하고, 원하는 바를 계속 다듬어 나가세요.
완성도 높은 결과물에 질문 던지기. AI 모델이 그럴듯해 보이는 결과물을 내놓을 때야말로 잠시 멈추고 물어볼 때입니다. 이 내용이 정확한가? 빠진 것은 없는가? 이 추론은 타당한가? 앞서 살펴본 것처럼, 완성도 높은 결과물이 나올수록 비판적 평가 비율이 오히려 낮아지는 경향이 데이터에서 확인되었습니다. 사용자가 처음에 아무리 세심하게 지시를 해도 마찬가지입니다.
협업의 규칙 정하기. 사용자가 Claude에게 원하는 상호작용 방식을 명시하는 대화는 전체의 30%에 불과합니다. "내 가정이 틀리면 반박해 줘", "답을 주기 전에 추론 과정을 먼저 설명해 줘", "확신이 없는 부분을 알려줘" 같은 지시를 명확하게 전달해 보세요. 이러한 기대치를 사전에 설정하면 이후 대화의 흐름 자체가 달라질 수 있습니다.

한계

이번 연구에는 몇 가지 중요한 제약이 있습니다.

  • 표본의 한계: 본 표본은 2026년 1월 중 한 주 동안 Claude.ai에서 다중 턴 대화를 나눈 사용자를 대상으로 합니다. AI 도구 확산이 아직 초기 단계라고 판단되므로, 이 사용자들은 이미 AI에 익숙한 얼리 어답터에 편향되어 있을 가능성이 높으며, 일반 인구를 대표하지 않을 수 있습니다. 본 표본은 이 특정 사용자 집단에 대한 기준선으로 이해해야 하며, 보편적 벤치마크로 보기는 어렵습니다. 데이터가 한 주에 한정되어 있어 계절적 효과나 종단적 변화를 포착하지 못하며, Claude.ai에 한정되어 있어 다른 AI 플랫폼에서의 사용자 행동은 반영하지 못합니다.
  • 프레임워크의 부분적 적용: 이번 연구에서는 24가지 행동 지표 중 Claude.ai 대화에서 직접 관찰 가능한 11가지만 평가했습니다. AI 결과물의 책임 있고 윤리적인 사용과 관련된 행동은 모두 대화 외부에서 발생하며, 이번 분석에 포함되지 않았습니다.
  • 이진 분류 방식: 각 대화에서 개별 행동을 발현 또는 미발현으로만 분류했습니다. 이로 인해 행동이 부분적으로 나타나거나 모호한 경우, 또는 행동 간 신호가 겹치는 경우 등의 미묘한 차이를 놓쳤을 가능성이 있습니다.
  • 암묵적 행동: 사용자는 유창성 행동을 대화에 표현하지 않고 머릿속으로만 수행할 수 있습니다(예: Claude의 주장을 자신의 지식과 대조하여 사실 확인). 이는 특히 아티팩트 관련 데이터에서 중요한 함의를 가집니다. 사용자는 대화 내에서 평가를 드러내기보다, 직접 테스트하거나 실제로 사용해 보며 Claude의 결과물을 평가하고 있을 수 있습니다.
  • 상관관계 기반 결과: 본 연구에서 밝힌 관계는 상관관계입니다. 특정 행동이 다른 행동을 유발하는지, 아니면 과업의 복잡도나 사용자 성향 같은 공통 요인이 양쪽 모두에 영향을 미치는지는 알 수 없습니다.

향후 계획

이번 연구는 AI 유창성이 시간에 따라 어떻게 변화하는지 평가하기 위한 기준선을 제시합니다. AI의 역량이 진화하고 도입이 확대됨에 따라, 사용자가 더 정교한 행동을 발전시키고 있는지, 어떤 역량이 경험과 함께 자연스럽게 형성되는지, 그리고 어떤 역량에 의도적인 개발이 필요한지를 파악하고자 합니다.

향후 연구에서는 분석을 여러 방향으로 확장할 계획입니다. 첫째, 신규 사용자와 숙련 사용자를 비교하는 '코호트 분석'을 통해 AI에 대한 숙련도가 유창성 발달과 어떤 상관관계를 맺는지 파악하고자 합니다. 둘째, Claude.ai 대화에서 직접 관찰할 수 없는 행동을 정성적 연구 방법론으로 평가할 예정입니다. 셋째, 이번 연구가 제기한 인과적 질문을 탐구하고자 합니다. 예를 들어, 반복적 대화를 장려하면 비판적 평가가 높아지는지, 또는 이를 더 효과적으로 촉진하는 다른 방법이 있는지를 확인할 것입니다.

아울러, 주로 소프트웨어 개발자가 사용하는 플랫폼인 Claude Code에서의 AI 유창성 행동도 탐구하고자 합니다. 이번 연구를 준비하면서 초기 분석을 실시한 결과, Claude Code 대화와 Claude.ai 대화 간에 일관성이 확인되었습니다. 그러나 이는 아직 예비 단계이며, Claude Code의 사용자층과 기능이 상당히 다르기 때문에 보다 심층적인 연구가 필요합니다.

AI 유창성의 양상은 시간이 지남에 따라 크게 발전하고 변화할 것으로 예상합니다. 이번 연구와 후속 연구를 통해, 그 변화를 가시화하고, 측정 가능하게 하며, 실질적으로 활용할 수 있게 만들고자 합니다.


Bibtex

이 글을 인용하시려면 아래 Bibtex 키를 사용하실 수 있습니다.

@online{swanson2026aifluency,
author = {Kristen Swanson, Drew Bent, and Zoe Ludwig and Rick Dakan and Joe Feller},
title = {Anthropic Education Report: The AI Fluency Index},
date = {2026-02-16},
year = {2026},
url = {https://www.anthropic.com/news/anthropic-education-report-the-ai-fluency-index},
}

감사의 말

Kristen Swanson이 연구를 설계하고 분석을 주도하며 본 보고서를 집필했습니다. Zoe Ludwig와 Drew Bent는 프레임워크 정합성 확보, 메시지 작성 및 검토에 기여했습니다. 4D AI 유창성 프레임워크는 Rick Dakan과 Joe Feller가 개발했습니다. Zack Lee가 기술 지원을, Hanah Ho가 데이터 시각화를 담당했습니다. Keir Bradwell, Rebecca Hiscott, Ryan Donegan, Sarah Pollack이 커뮤니케이션 검토 및 방향 설정을 지원했습니다.