GLM-5.1 후기 — 진짜 SOTA 모델을 잡았을까?

사실 GLM을 Claude Code에 연결해서 써본 건 이번이 처음이 아닙니다 ! z.ai 의 GLM-4.5가 처음 나왔을 때 여러 후기들을 통해 Claude Sonnet 4.5를 앞선다는 벤치마크가 돌아다녔고, 거기다 Claude Code와 호환까지 된다는 말까지 들으니 호기심이 안 생길 수가 없더군요

LiveCodeBench Pass@1 비교 (출처: livecodebench.github.io)

중국 모델이라 보안 같은 부분에서 걱정이 없진 않았지만, $3이라는 금액 정도는 부담이 안 되기 때문에 호기심에 바로 결제까지 해서 체험을 해봤었습니다. 그러나…

짧게 바로 후기를 남겨보자면 벤치마크와 달리 실제 체감 성능이 생각보다 너무 아쉬워서 바로 해지했습니다^^ 특히 가끔식 중국어를 뱉거나 시키지도 않은 일을 하거나 자꾸 엇나가는 경우가 너무 많아서 쓸게 못된..

그런데 최근 Threads를 보다가 GLM-5.1이 출시되면서 국내외 후기와 벤치마크에서 GPT-4.5, Claude Opus 4.6을 따라잡았다는 이야기가 올라오길래, 또야..? 이번에도 벤치마크만 좋은 거 아니야? 그래도 궁금하니까 다시 한 번 써볼까 싶어서 결제하려고 들어갔습니다.

뭔가 이상했습니다..분명 $3이었는데 오랜만에 다시 들어가니 $10으로 3배나 올라있지 뭐예요?!ㅡㅡ 슬슬 자기들도 돈을 받겠다는 건가 🤔 그래도 $10까진 오케이, 벤치마크가 사실이라면 그 정도는 지불하지 뭐 싶어서 그냥 질렀습니다.

이 포스트는 Threads에 올렸던 짧은 후기를 블로그 버전으로 정리한 글입니다.

GLM-5.1, 벤치마크는?

SOTA에 근접했다는 주장, 숫자로 확인해봤습니다. 두 가지 코딩 벤치마크를 기준으로 GLM-5.1, GPT-5.4, Claude Opus 4.6을 비교해봤습니다.

코딩 벤치마크 비교 (출처: Scale AI / swebench.com)

벤치마크상으로는 근소하게 GLM-5.1이 앞서고 있다고 하는데, 매번 느끼는 거지만 벤치마크는 벤치마크일 뿐 실사용이 중요하다고 생각합니다. 더 까다로운 SWE-bench Pro에서는 GLM-5.1이 소폭 앞서고, SWE-bench Verified에서는 Opus 4.6이 선두로 순위가 뒤집힙니다. “SOTA를 잡았다”기보다는 SOTA 직전까지 따라붙었다는 표현이 더 정확해 보입니다.

z.ai + Claude Code, 어떻게 쓰는 건가요?

z.ai — Claude Code 연동 공식 문서z.ai와 Claude Code를 연결하는 방법, 환경 변수 설정, 모델 매핑 등 공식 가이드

docs.z.ai

Claude Code는 ANTHROPIC_BASE_URL 환경변수를 통해 커스텀 엔드포인트로 요청을 보낼 수 있습니다. z.ai가 Anthropic API 호환 엔드포인트(/api/anthropic)를 제공하기 때문에, Claude Code의 UI와 워크플로우는 그대로 유지하면서 실제 요청은 GLM-5.1 모델로 보내는 구조입니다.

쉽게 말하면, Claude Code의 껍데기는 그대로, 엔진만 GLM-5.1로 교체하는 셈입니다.

저는 글로벌 설정을 건드리지 않고 필요할 때만 실행하는 방식으로 아래처럼 쉘 스크립트 하나로 정리했습니다.

#!/usr/bin/env bash
export ANTHROPIC_AUTH_TOKEN="YOUR_ZAI_API_KEY"
export ANTHROPIC_BASE_URL="https://api.z.ai/api/anthropic"
export API_TIMEOUT_MS="3000000"
export ANTHROPIC_DEFAULT_HAIKU_MODEL="glm-4.5-air"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.1"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.1"

exec claude "$@"

ANTHROPIC_BASE_URL을 z.ai 엔드포인트로 바꾸고, 모델 티어를 GLM으로 매핑하는 게 전부입니다. Haiku 티어는 더 저렴한 glm-4.5-air로, Sonnet/Opus 티어는 glm-5.1로 연결했습니다. 이 스크립트를 실행하면 해당 세션 동안만 z.ai로 동작하고, 평소 Claude Code 설정에는 영향을 주지 않습니다.

z.ai GLM-5.1로 Claude Code 실행 화면 — 이메일 및 파일 경로는 개인정보 보호를 위해 제거했습니다.

사용 구조

z.ai 요금제는 쿼터 기반으로 구성되어 있습니다.

5 Hours Quota: 5시간 단위 롤링 쿼터 (단기 집중 사용 시 병목)
Weekly Quota: 주간 총사용량 상한 (장기적으로 더 중요한 지표)
Monthly Quota: 웹 검색 / Reader / Zread 등 부가 기능

$10 Lite 플랜 기준에서는 Weekly Quota가 실질적인 병목이 됩니다. 짧은 시간에 집중해서 쓰면 5 Hours Quota가 먼저 걸리기도 합니다.

3일 사용 후기

3일간 하루 1회 세션을 초기화하면서 사용했습니다. 도커/컴포즈 기반 인프라 세팅, 프론트엔드 간단한 작업 위주로 돌렸습니다.

쿼터 소모 속도:

z.ai 사용량 대시보드 — Weekly Quota 48%, 5 Hours Quota 68%

3일 만에 주간 쿼터 약 50% 소모
GLM-5.1 단일 모델 사용 시 메시지당 세션 리밋 7~8% 내외
- 완전 간단한 작업은 1~2% 다는 경우도 있긴한데 코딩 관련 작업은 조금만 시켜도 최소 5% 사용
처음엔 5% 정도인가 싶었는데 실제로 재보니 7~8%에 가까운 느낌

z.ai 사용량 대시보드 — Weekly Quota 50%, 5 Hours Quota 80% — 위 이미지 기준 2번 정도 메세지 요청 후 결과입니다. 시간 참고.

이 속도라면 주간 쿼터가 3일 반~4일 만에 바닥날 것으로 예상됩니다. 한번 더 강조하자면 1일 1세션 체감상 공식 Claude Code $20 요금제와 사용량이 비슷하거나 약간 여유로운(?) 수준이었습니다.

z.ai Lite 플랜 설명에는 Claude $20 Pro 플랜보다 3배 더 쓸 수 있다고 나와 있지만… 글쎄요. 주관적인 느낌으로는 아무리 좋게 봐도 10% 정도 더 쓸까 말까 한 수준이었습니다.

성능 체감:

간단한 인프라 세팅이나 프론트엔드 작업에서는 무난했습니다. 복잡한 로직은 아직 시켜보지 않아서 성능 판단은 보류 중입니다. 적어도 “못 쓰겠다”는 느낌은 아니긴 했습니다.

근데… 가격이 올랐습니다

쓰레드에 후기를 올린 게 불과 일주일 전인데, 그 시점에 $10이었던 Lite 플랜이 2026년 4월 기준 $18/월로 인상됐습니다. 약 50% 인상입니다.

시기	가격
출시 초기	$6/월 (이벤트 기간에 $3/월)
일주일 전	$10/월
현재 (2026-04-11)	$18/월

처음 z.ai가 주목받았던 이유가 “$3~6 수준의 갓성비”였는데, $10일 때도 이미 살짝 미묘한 느낌이었는데 $18이 되면 이야기가 완전히 달라지죠.

공식 Claude Pro 요금제가 $20/월인 걸 감안하면, z.ai $18 vs Anthropic $20, 차이는 고작 $2입니다. 그 $2를 아끼자고 Claude 대신 GLM-5.1을 쓰는 게 맞는 선택인지는 각자 판단의 몫이지만, 저는 아니라고 봅니다.^^7

솔직히 $20 요금제 선택지에서 OpenAI Codex까지 고려하면, 사용량이나 성능을 종합했을 때 Codex나 Claude를 택하지 GLM을 고르진 않을 것 같아요 ㅎㅎ

정리

Claude Code UX를 그대로 쓸 수 있다는 점에서 진입 장벽이 낮은 건 맞음
간단한 작업에는 GLM-5.1도 충분하지만, 복잡한 코드 작업에서는 아직 Claude Sonnet/Opus와 격차가 있을 것으로 예상
가격이 $10 이하로 유지됐다면 “캐주얼한 대안”으로 충분히 추천할 수 있었겠지만…
$18이 된 지금은 그냥 공식 요금제 쓰는 게 낫습니다

1달 체험 자체는 나쁘지 않았습니다. 다만 추가 결제는 하지 않을 예정입니다. ^^7