에이전트PoC2026-01 ~ 2026-04

폐쇄망 오프라인 로컬 AI 어시스턴트

오픈소스 Jan 기반 커스터마이즈 개발 (fork base)

폐쇄망 오프라인 로컬 AI 어시스턴트

지표

  • HWPX 정부문서 7종 자동생성LLM tool_call→.hwpxinternal-exp
  • 100% 오프라인 로컬추론텔레메트리 0demo-env
  • Q4_K_M 양자화 ~2–3GB 경량화Mistral 3B·Qwen 4B dense, 폐쇄망 로컬 배포public-benchmark

페인

폐쇄망 환경에서는 외부 API를 못 쓴다. 상용 LLM 서비스는 데이터가 망 밖으로 나가는 순간 보안 정책에 걸리고, 정부·기업 문서 업무는 그 제약 안에서 돌아가야 한다. 게다가 결과물이 한글 공문서(HWP/HWPX) 형식이어야 실무에 쓸 수 있었다.

접근

오픈소스 Jan을 fork 베이스로 잡고 폐쇄망용으로 다시 깎았다. 클라우드 provider를 전부 제거하고 텔레메트리를 끊어 망 밖 통신이 없도록 보안화했다. 그 위에 정부문서 업무 기능을 얹었다. LLM이 tool_call로 HWPX 양식을 채워 7종 공문서를 만들고, HWP/HWPX 원문에서 텍스트를 뽑아 RAG에 태운다. 배포 환경이 제각각이라 NPU·CPU·SYCL·CUDA 멀티백엔드와 한국어 로컬라이제이션까지 맞췄다.

지표

  • HWPX 정부문서 7종 자동생성 — LLM tool_call→.hwpx (internal-exp)
  • 100% 오프라인 로컬추론 — 텔레메트리 0 (demo-env)
  • Q4_K_M 양자화 ~2–3GB 경량화 — Mistral 3B·Qwen 4B dense, 폐쇄망 로컬 배포 (public-benchmark)

오프라인 동작은 텔레메트리 0으로 확인했다. 망 밖 통신이 한 건도 없이 로컬 추론만으로 문서 생성과 RAG가 돈다. 모델은 Mistral 3B·Qwen 4B dense를 Q4_K_M GGUF로 양자화해 2–3GB대로 줄였고, 성능 손실을 크게 키우지 않으면서 폐쇄망 단일 장비에서 돌 수준으로 맞췄다.

스택 표

회고

까다로웠던 건 HWPX였다. 공문서 양식은 구조가 빡빡해서 LLM 출력이 조금만 어긋나도 양식이 깨졌고, tool_call 스키마를 양식별로 고정한 뒤에야 안정적으로 채워졌다. 멀티백엔드는 디바이스마다 빌드·드라이버가 달라 통합 빌드 파이프라인을 잡는 데 시간이 들었다.

시각 자산

커버는 imagegen(0b), 본문은 빈 정부문서 양식(HWPX 생성 증빙)과 한국어 로컬 추론 UI를 자산으로 사용.

스택

OSWindows, Linux
LangTypeScript, Python
Libllama.cpp, RAG 파이프라인
FWJan (fork base), Electron
Tech폐쇄망, NPU/CPU/SYCL/CUDA 멀티백엔드, HWPX 생성, 양자화 Q4_K_M