2026년 5~6월, 온프레미스·폐쇄망·온디바이스 AI의 흐름을 정리했습니다. 키워드는 오픈 웨이트의 프론티어 진입, 로컬 추론 도구의 성숙, 그리고 주권 AI(Sovereign AI)입니다.

들어가며

"우리 데이터를 외부 API에 보낼 수는 없다." 규제 산업(금융·국방·의료·제조)에서 늘 나오던 이 말이, 2026년 들어 '그래서 어떻게'에 대한 구체적 답으로 바뀌고 있습니다.

세 가지가 동시에 일어났기 때문입니다.

  1. 다운로드해서 직접 돌릴 수 있는 오픈 웨이트 모델이 프론티어급에 도달했고,
  2. 그걸 자체 하드웨어에서 돌리는 도구(vLLM·Ollama 등)가 프로덕션 수준으로 성숙했으며,
  3. 국가·기업이 '데이터 주권'을 전략 의제로 끌어올렸습니다.

하나씩 보겠습니다.


1. 이제 '프론티어급'을 다운로드할 수 있다

Private 환경의 출발점은 결국 "쓸 만한 모델을 손에 넣을 수 있는가"입니다. 그 답이 바뀌었습니다.

GLM-5.2 — MIT 라이선스의 공개 모델 1위

6월 13일, Zhipu AI(Z.ai)가 GLM-5.2를 공개했습니다. 744B-total / 40B-active MoE, 1M 토큰 컨텍스트, 그리고 MIT 라이선스. 독립 측정(Artificial Analysis Intelligence Index)에서 공개 모델 중 가장 높은 점수(51점)를 받아 MiniMax-M3·DeepSeek V4 Pro 등을 앞섰습니다.

핵심은 사용량·지역 제한 없이 다운로드해 자체 호스팅이 가능한 프론티어급 모델이 생겼다는 점입니다. 폐쇄망에 그대로 넣을 수 있습니다.

출처: TrendingTopics, DataNorth

Apple Foundation Models 3세대 — 20B 온디바이스 + Linux 지원

WWDC 2026(6/8~12)에서 Apple은 AFM 3를 공개했습니다. 'Core Advanced' 20B 온디바이스 모델은 sparse 아키텍처로 요청당 1~4B 파라미터만 활성화하며, 네이티브 멀티모달입니다. 특히 Foundation Models 프레임워크를 Linux로 확장해 Apple 하드웨어 밖에서도 온디바이스·프라이빗 추론의 문을 열었습니다.

출처: Apple ML Research, 9to5Mac

Gemma 4 — 노트북에서 돌아가는 멀티모달

Google Gemma 4가 6월 업데이트로 로컬 하드웨어를 정조준했습니다.

  • QAT 릴리스 (6/5): E2B 변형은 1GB 미만으로 로드(텍스트), 26B-A4B MoE는 16GB 노트북에 적재
  • dense Gemma 4 12B (6/3): 16GB RAM에 맞고, 중형 Gemma 최초로 네이티브 오디오 입력 지원
  • 멀티모달, 256K 컨텍스트, 140개+ 언어

QAT(양자화 인식 학습) 덕에 고품질 멀티모달 오픈 모델을 소비자·엣지 기기로 밀어 넣을 수 있게 됐습니다.

출처: Gemma 4 모델 카드, Google 블로그

한편, '오픈 웨이트의 한계'도 분명해졌다 — Qwen의 분기

Alibaba Qwen의 전략이 시사적입니다. 현재 오픈 웨이트 중간 티어(0.6B~235B-A22B, Apache 2.0, Hugging Face/ModelScope 다운로드, qwen3:8b는 ~6GB VRAM)는 자유롭게 자체 호스팅이 가능하지만, 최상위 Qwen 3.7-Max/Plus는 폐쇄형으로 다운로드되지 않습니다.

데이터 주권의 트레이드오프: "프론티어 티어는 폐쇄, 한 세대 아래는 오픈"이라는 구도가 반복되고 있습니다. Private 환경은 '최신 최강' 대신 '충분히 강한 자체 호스팅 가능 모델'을 택하게 됩니다.

출처: Qwen3 GitHub, InsiderLLM


2. 돌리는 도구가 프로덕션 수준으로 성숙했다

모델이 있어도 '돌리는 게' 일입니다. 2026년 상반기, 이 레이어가 크게 단단해졌습니다.

vLLM — 온프레미스 서빙의 사실상 표준

6월 말 기준 최신 릴리스에서 vLLM은:

  • Qwen3 dense 모델 대상 Model Runner V2 기본화
  • 데이터 병렬 서빙용 Rust 프론트엔드 + DP Supervisor
  • Cutlass FP8 기반 batch-invariant 추론 (E2E 지연 ~28.9% 개선)
  • CPU 메모리를 넘어서는 다계층 KV-cache 오프로딩
  • 광범위한 하드웨어 매트릭스: NVIDIA·AMD·x86/ARM/PowerPC CPU·TPU·Intel Gaudi·Huawei Ascend·Rebellions NPU·Apple Silicon

6월 3일에는 DeepLearning.AI의 vLLM 강좌도 출시됐습니다. 자체 호스팅·온프레미스 서빙의 프로덕션 표준으로 자리 잡았습니다.

출처: vLLM 블로그, vLLM Releases

Ollama — 로컬 추론의 진입 장벽을 계속 낮춘다

5~6월 동안 Ollama는 v0.30 라인을 이어갔습니다(v0.30.8, 6/12).

  • Apple Silicon을 넘어 GGUF/llama.cpp 하드웨어 지원 확대
  • 가장 빠른 Apple Silicon 추론을 위한 MLX 엔진 업그레이드 (6/11)
  • Gemma 4 QAT(6/5), Hermes Desktop(6/7), 프롬프트/KV-cache 재사용 개선
  • MiniMax M3·NVIDIA Nemotron 3 Ultra·DeepSeek V4 Pro 등 신규 로컬 모델 추가

출처: PromptQuorum, Ollama Releases

마지막 1마일 — Open WebUI / LibreChat

자체 호스팅 추론 앞단에 놓는 팀용 UI도 성숙했습니다.

  • Open WebUI (GitHub 100K+ stars): 네이티브 Ollama 지원, 내장 RAG, 모델 권한, 사용자 관리
  • LibreChat (35K+ stars): vLLM·Claude·Azure로의 멀티 프로바이더 라우팅, 강화된 감사 로깅

권장 하드닝: vLLM은 사설망에 두고(포트 8000 비공개), UI만 HTTPS로 노출, 관리자 설정 후 가입 비활성화, OIDC/SSO 강제.

출처: Spheron, Requesty

풀뿌리 신호 — "내 PC에서 뭐가 돌아가지?"

긱뉴스(news.hada.io)와 Show HN에 오른 whichllm — PC 사양을 분석해 실제로 돌릴 수 있는 로컬 모델을 벤치마크 기준으로 순위화하는 CLI — 가 큰 토론을 일으켰습니다. "내 PC에서 실제로 뭐가 돌아가나"라는 질문이 그만큼 보편적이라는 방증입니다.

출처: GeekNews, Hacker News


3. 아키텍처 — 폐쇄망·기밀 컴퓨팅이 '기본값'이 되다

폐쇄망 Private AI 아키텍처

에어갭 AI는 이제 '옵션'이 아니라 '조달 기본값'

2026년 업계 논의는 에어갭(air-gapped) AI를 '플래그'가 아니라 '아키텍처'로 규정합니다. 모든 런타임 의존성을 엔클레이브 안에 두는 방식으로, 규제 워크로드(국방·금융·제약)에서 사실상 조달 기본값이 됐습니다.

자체 호스팅 오픈 모델(Llama·Mistral·Qwen·Phi)이 로컬 GPU에서 추출·요약·분류·RAG를 수행하고, 접근 제어는 기존 권한 체계를 그대로 상속합니다 — 모델은 사용자가 이미 볼 수 있는 것만 검색합니다. 사례로 UC San Diego가 Onyx를 에어갭으로 로컬 GPU에 올려 37,000명+ 사용자를 지원한다고 언급됩니다.

출처: TrueFoundry, Onyx

기밀 컴퓨팅(Confidential Computing) — 하드웨어를 다 갖지 않아도 'Private'

전부 자체 하드웨어로 가져가지 못하는 조직을 위한 절충안도 성숙했습니다. CPU TEE(Intel TDX, AMD SEV-SNP, AWS Nitro Enclaves)와 NVIDIA H100/H200 GPU Confidential Computing(암호화 VRAM)을 아우르는 복합 어테스테이션(composite attestation) 패턴이 프로덕션 가이드로 정리됐고, 추론 처리량 오버헤드는 약 1~7% 수준으로 보고됩니다.

왜 중요한가 "데이터·모델 가중치를 암호학적으로 격리한 채 공유/클라우드 GPU에서 LLM을 돌린다" — 모든 하드웨어를 소유하지 않고도 'Private AI'를 구현하는 핵심 enabler입니다.

출처: AppScale, Spheron


4. 주권 AI(Sovereign AI) — 국가가 모델을 짓는다

한국 — '국가대표 AI'

MSIT/NIPA의 소버린 AI 프로그램이 2026년 내내 진행됐습니다. 5개 팀의 초기 모델로 SK텔레콤 A.X K1(한국 첫 500B급 LLM), LG AI연구원 K-EXAONE(236B), 네이버클라우드 Omni 멀티모달, 업스테이지 Solar Open, NC AI가 거론됐고, 상반기 4개 팀으로 좁혀 2027년부터 글로벌 소버린 AI 수출을 노린다는 계획입니다. 5월 26일 보도는 이 모델들이 공공·산업·일상으로 들어가는 단계를 다뤘습니다.

출처: 에너지경제, 딜사이트

파라미터 수치(A.X K1 500B, K-EXAONE 236B 등)는 단일 매체 보도에 의존하므로, 인용 시 MSIT/기업 1차 자료 확인을 권합니다.

한국 기업의 폐쇄망 하이브리드 — sLLM + 프라이빗 RAG

5~6월 국내 사례·가이드는 폐쇄망 안에 sLLM + 독립 RAG를 올리는 구성을 다룹니다.

  • LG U+: 온디바이스 음성 AI 'ixi-O'와 sLLM 'ixi-GEN'을 내부 인프라에 내재화
  • 반도체/정밀기계 제조사: 공장 서버에 ~14B 프라이빗 sLLM, 엣지 기기엔 초소형 모델로 초당 수천 건 센서값 분석

핵심 경쟁력은 API 비용 없는 무제한 내부 추론 루프 + 데이터의 경계 밖 유출 제로입니다.

출처: aibevy, Mondrian AI (국내 마케팅/개발 블로그 기반 — 세부 수치는 검증 권장)

유럽 — Mistral과 'AI Gigafactory'

6월 기준 Mistral AI가 유럽 소버린 AI 선두로, ~$830M 부채 조달과 13,800기 NVIDIA GB300(44MW) 데이터센터(2026년 가동), 2029~2030년 1GW 목표, ~€20B 밸류에이션에 ~€3B 조달이 보도됐습니다. 반면 EU의 €20B InvestAI 'AI Gigafactory' 입찰은 준비 단계에서 지연(제안 공모가 Q2 2026으로 밀림)됐습니다. NVIDIA GTC Paris/VivaTech(6/17~20)도 소버린 AI·AI 팩토리를 전면에 내세웠습니다.

자본·컴퓨트가 유럽 데이터 주권 AI로 결집하는 가운데, 국가 주도 인프라는 민간 빌드아웃에 뒤처지는 모습입니다.

출처: Raconteur, CTOL


마치며 — 3줄 요약

  1. 모델이 손에 들어왔다: GLM-5.2(MIT)·Gemma 4 QAT·Apple AFM 3(Linux 지원). 프론티어급을 다운로드해 폐쇄망에서 돌릴 수 있게 됐다. 단, 최상위 티어는 폐쇄형으로 가는 추세.
  2. 돌리는 도구가 성숙했다: vLLM(프로덕션 표준)·Ollama·Open WebUI/LibreChat. 기밀 컴퓨팅으로 '하드웨어를 다 갖지 않아도 Private'.
  3. 주권 AI가 의제가 됐다: 한국 '국가대표 AI', 유럽 Mistral·Gigafactory, 기업 폐쇄망 sLLM+RAG. 핵심 동기는 비용·데이터 주권.

참고: 본 문서는 2026년 5~6월 기준입니다. 일부 사례·수치(국내 기업 sLLM, 주권 AI 파라미터, 벤더 사례 수치)는 2차/마케팅 출처에 의존하므로, 인용 시 1차 출처 교차 확인을 권합니다. DeepSeek V4·Kimi K2.6은 4월 공개로 비교 맥락으로만 사용했습니다.