CasesInsightClaudeStudioFAQ
ConnectThreadsInstagrambruce@intellieffect.com

© 2026 agenticworkflows.club

인사이트

Amazon이 보여준 AX 전환 KPI의 함정

5월 12일 FT가 까발렸어요. Amazon이 80% 개발자 AI mandate 깔자 직원이 토큰만 일부러 태우는 MeshClaw 봇을 사내 빌딩. AX 전환·에이전틱 워크플로우 도입 검토 단계 의사결정자가 같은 함정에 안 빠지는 법.

2026. 05. 137분 읽기
Amazon이 보여준 AX 전환 KPI의 함정

5월 12일 FT가 까발렸어요. Amazon이 개발자 80%는 매주 AI를 써야 한다는 mandate를 깔자, 직원들이 일부러 토큰만 태우는 봇을 사내 빌딩하기 시작했습니다. 이름은 MeshClaw. 30명이 만들었고 매일 수천 명이 굴려요. AX 전환 KPI를 *사용량*으로 잡으면, 같은 함정이 에이전틱 워크플로우 도입을 검토하는 어느 조직에서나 그대로 재현됩니다.

Amazon이 5월 12일 까발린 3 빅 넘버 카드 — 80% 개발자 mandate / 사내 추적 시스템 Clarity / $200B AI capex. FT 2026-05-12 출처. AWC 다크 bg + warm gradient

Amazon 안에서 정확히 무엇이 일어났나

mandate는 두 줄이에요.

  1. 개발자 80% 이상이 매주 AI를 쓸 것 (Andy Jassy 2025-06 메모 + 2026 후속)
  2. 사내 시스템 Clarity가 토큰 사용량을 leaderboard로 노출

문제는 mandate가 아니라 측정 방식이었어요. 토큰 카운터를 leaderboard로 띄우자 직원들은 진짜 일에 쓰는 토큰과 카운터 올리는 토큰을 구분하기 시작했습니다. 그러고는 후자에 최적화했죠.

직원들이 만든 봇 이름이 MeshClaw. Amazon 사내 AI 에이전트 빌더예요. 30명 이상이 빌딩에 참여했고 매일 수천 명이 굴립니다. 원래 용도는 이메일 분류·슬랙 응답·코드 배포 자동화. 일부 직원이 다른 용도로 굴려요. 이메일 한 통 분류에 봇 5단계, 짧은 답장에 LLM 길게 호출. 카운터만 올라가요.

FT가 직접 들은 직원 인용 두 줄.

"

"이 도구 쓰라는 압박이 너무 크다. 일부는 그냥 토큰 사용량을 최대화하려고 MeshClaw를 돌리고 있다."

"

"

"매니저들이 그걸 보고 있다. 사용량 추적이 들어오면 왜곡된 인센티브(perverse incentives)가 생기고 일부 직원은 거기에 경쟁적으로 된다."

([Financial Times 2026-05-12, via Tom's Hardware](https://www.tomshardware.com/tech-industry/big-tech/big-tech-has-a-tokenmaxxing-habit))

Amazon은 공식적으로 사용량 통계가 평가에 반영되지 않는다고 답했어요. 그런데 직원들은 매니저가 모니터링한다고 믿습니다. 그 간극이 backfire의 핵심이에요.

tokenmaxxing 흐름 다이어그램 — 좌 직원 박스 → 중앙 MeshClaw 5단계 봇 박스 → 우 토큰 leaderboard ↑ 박스. 하단 FT perverse incentives 라벨. AWC 다크

Goodhart's Law — 측정값이 목표가 되는 순간

Goodhart's Law는 1975년 영국 경제학자 Charles Goodhart의 관찰이에요.

"

"When a measure becomes a target, it ceases to be a good measure."

"

"

측정값이 목표가 되는 순간, 그 측정값은 더 이상 좋은 측정값이 아니다.

Amazon 케이스가 교과서적인 이유는 backfire가 3단계로 깨끗하게 일어났기 때문이에요.

단계

무엇

결과

1. proxy 선택

"AI 잘 쓰는가"를 측정 어려워서 토큰 사용량으로 대체

측정 가능해짐

2. proxy 공개

leaderboard로 직원에게 노출

직원이 점수 인식

3. 점수 최적화

직원이 점수 자체에 최적화

측정값과 가치 분리

토큰 양과 결과의 관계는 거의 0이에요. 시니어 엔지니어가 한 번에 정확한 prompt로 까다로운 서비스 refactor하면 토큰 적게 써요. 주니어가 자잘한 작업에 채팅 길게 굴리면 토큰 많이 써요. leaderboard는 후자를 보상합니다.

이 패턴이 Amazon만의 일은 아니에요. 같은 시기에 다른 회사도 같은 벽에 부딪혔어요. ([Metaintro 통합 보도](https://www.metaintro.com/blog/amazon-ai-usage-targets-inflated))

  • Meta (2026-04) — 사내 직원이 토큰 leaderboard 만들자 며칠 만에 shutdown. Zuckerberg가 top 250 못 들었다는 농담이 viral.
  • Microsoft — Julia Liuson 메모: "AI 사용은 no longer optional, core to every role". 너무 강하게 받아들여지자 공식 review 항목 아니다로 정정.
  • OpenAI — 사내 leaderboard 운영. 3월 단일 사용자가 한 주에 210B 토큰 소진.
  • Fortune 500 거의 모든 회사가 어떤 형태로든 AI 사용량 추적 중 (CNBC 2026-05 보도)

Amazon 케이스는 one-off가 아니라 early case study예요. 같은 함정이 한국 조직에 다음 분기 또는 다음 해에 그대로 들어옵니다. 한국 AX 전환을 5개 레이어로 정리한 [한국 AX 5개 레이어 글](#)에서도 layer 3·4(중견·대기업)가 KPI 함정 진입 직전 단계예요.

Goodhart's Law 어디서나 작동 — Amazon · Meta · Microsoft · OpenAI 4박스 2x2 그리드. 각 회사 명 + backfire 패턴 한 줄 라벨. AWC 다크

가짜 KPI vs 진짜 KPI — 의사결정자 진단 룰

AX 전환·에이전틱 워크플로우 도입 검토 단계 의사결정자가 첫 KPI를 잡을 때 봐야 할 분기점은 사용량 vs 결과예요.

가짜 KPI (사용량 기반)

진짜 KPI (결과 기반)

토큰 소진량

작업당 시간 단축

프롬프트 호출 수

결함률 감소

주간 active 사용자 비율

고객 outcome 개선

seat activation 수

cycle time 단축

AI 도구 사용 일수

통제 그룹 대비 차이

가짜 KPI 5개 vs 진짜 KPI 5개. 둘은 측정 난이도에서 갈려요. 가짜는 자동 dashboard로 즉시 뽑힙니다. 진짜는 baseline 측정 + 통제 그룹 + cycle time 추적이 필요해요. 느리고 비싸요.

그래서 대부분 조직이 가짜 KPI로 갑니다. Amazon이 그 길로 가서 280조원짜리 베팅이 token theater로 굴러간 거예요. 한국 조직이 PoC 단계에서 같은 분기점을 만났을 때 진짜 KPI 3개 이상 안 잡으면 같은 결과가 나옵니다.

AWC가 PoC 단계 고객한테 결과 KPI 3개 baseline을 먼저 측정한 뒤 도구 도입에 들어가는 이유가 이거예요. 토큰 카운터 dashboard는 baseline 다음에 와도 되지만, 결과 baseline 없이 dashboard 먼저 깔면 dashboard만 굴러갑니다. 같은 메커니즘은 [AI 자동화 도구 종속 깎는 4축](#)에서도 도구 결정 단계에 작동해요.

가짜 KPI vs 진짜 KPI 비교 표 — 좌측 사용량 5행(회색 톤) / 우측 결과 5행(warm gradient). 토큰 소진·프롬프트 호출 등 vs 작업 시간 단축·결함률 등. AWC 다크

다음 검토 회의, 처음 할 일

복잡한 룰 다 외울 필요 없어요. 다음 AX 전환 검토 회의에서 KPI 후보 3개를 적어보세요. 각 KPI 옆에 *사용량*인지 *결과*인지 분류. 사용량 0개, 결과 3개 이상이면 안전한 시작점입니다. 사용량 KPI 1개라도 들어가 있으면, 그게 어느 시점부터 leaderboard로 노출될지 미리 정해두세요. Goodhart's Law가 작동하는 순간은 leaderboard 공개 단계라서요.

Amazon은 280조원 베팅에 사용량 KPI를 깔았고, FT가 그 결과를 5월 12일에 공개했어요. 한국 조직이 에이전틱 워크플로우 도입의 PoC 단계에서 같은 결정을 내리지 않으려면, 첫 KPI 회의에 5분만 더 쓰면 됩니다. AX 전환은 깔린 KPI가 결과를 결정해요. 도구가 아니라요. (더 큰 그림은 [클로드 블루를 AX 전환으로 끊는 법](#) 참고)

다크 카드에 큰따옴표 인용 — 사용량 KPI 0개, 결과 KPI 3개 이상이면 안전한 시작점. AWC AX 전환 KPI 가이드 출처

자주 묻는 질문

AI 사용량 leaderboard, 우리 회사도 만들면 위험한가요?

사용량 leaderboard는 Goodhart's Law를 가장 정확히 발동시키는 장치예요. 점수를 보는 순간 직원이 점수에 최적화합니다. 깔기 전 결과 KPI 3개를 baseline으로 측정해두세요.

Goodhart's Law는 1975년 관찰인데 지금도 그대로 적용되나요?

네. AI 도입에서 더 강해요. 사용량 측정이 자동화되고 leaderboard가 실시간으로 공개되어 backfire 사이클이 주 단위로 짧아졌어요. Amazon이 5월에 보여줬습니다.

AX 전환 KPI를 결과 기반으로 잡으려면 무엇부터 봐야 하나요?

작업당 시간 단축 / 결함률 감소 / cycle time 단축 3개. baseline은 도구 도입 전에 측정해야 차이가 보여요. 비싸지만 가짜 KPI보단 싸요.

Amazon의 80% mandate가 정말 backfire한 건가요?

FT가 직원 다수 인용으로 보도했고 Amazon은 공식 반박 안 했어요. 수천 명이 자동화한다는 답변이 MeshClaw로 토큰 부풀린다는 표현과 의미가 정확히 겹쳐요.

PoC 단계에서 KPI를 어떻게 설계해야 함정을 피할 수 있나요?

사용량 KPI 0개, 결과 KPI 3개 이상. PoC 시작 전 baseline 측정, 종료 시 통제 그룹 대비 차이 확인. 셋 다 깔리면 leaderboard 와도 진짜 가치로 경쟁해요.

사내에 이미 사용량 KPI가 깔린 상태인데 어떻게 전환하나요?

leaderboard를 지우지 말고 다른 KPI를 위에 얹으세요. 사용량 옆에 결과 KPI 컴럼 추가 → 결과 가중치 단계적 상승. 한 번에 갈아치우면 incentive가 공중에 떠요.

작성: Bruce Choe · agenticworkflows.club

멤버 전용 콘텐츠입니다

무료 가입으로 전체 콘텐츠를 읽을 수 있습니다.

무료로 시작하기

이미 멤버라면 로그인

다음 글

Claude Code 한 세션에 다 우겨넣지 마라, 분리 4가지

인사이트를 놓치지 마세요

새 글이 발행되면 이메일로 알려드립니다.

← 블로그