CVPoC2026-03 ~ 2026-03

고정 CCTV 장기 인물 재식별·검색

단독 개발

지표

HOTA 70.9%100시퀀스 TrackEval (YOLO11m+StrongSORT, 3fps)internal-exp
MOTA 85.6% · IDF1 80.5%동일 평가 세팅internal-exp
텍스트검색 Rank-1 59.5% / Rank-2 85.4%per-video gallery(2~5명) TBPS-CLIP, 378쿼리internal-exp

페인

고정 CCTV에서 한 사람을 오래 따라가는 건 추적만으로 안 된다. 사람이 화면 밖으로 나갔다 다시 들어오면 추적 ID가 끊기고, 나중에 "이 사람이 언제 어디 찍혔나"를 되짚으려면 영상 전체를 사람이 돌려봐야 했다.

접근

YOLO11m + StrongSORT를 3fps로 돌려 추적 비용을 낮추고, gallery·re-entry 로직으로 끊긴 ID를 같은 사람으로 다시 묶었다. 검색은 두 방식을 붙였다. 이미지로 찾는 query-by-image와, TBPS-CLIP 기반 텍스트 검색("검은 상의 남성" 같은 자연어). 분석가가 바로 쓸 수 있게 PySide6로 검색 UI를 만들었다.

지표

HOTA 70.9% — 100시퀀스 TrackEval (YOLO11m+StrongSORT, 3fps) (internal-exp)
MOTA 85.6% · IDF1 80.5% — 동일 평가 세팅 (internal-exp)
텍스트검색 Rank-1 59.5% / Rank-2 85.4% — per-video gallery(2~5명) TBPS-CLIP, 378쿼리 (internal-exp)

3fps라는 낮은 프레임에서도 HOTA 70.9%를 유지한 게 핵심이었다. 텍스트 검색은 영상 내 추적 인물(2~5명)을 gallery로 두는 실사용 시나리오에서 Rank-1 59.5%, Rank-2 85.4%, Rank-3 96.3%를 기록했다. 상위 2~3개 후보만 봐도 대부분 정답이 포함돼, 사람이 확인할 분량을 크게 줄였다.

스택 표

회고

re-entry가 제일 어려웠다. 옷 색이나 체형이 비슷하면 다른 사람을 같은 ID로 묶는 오류가 났고, gallery 갱신 주기를 조절하면서 균형을 맞췄다. 텍스트 검색은 gallery를 넓힐수록 약해졌다. 공원 CCTV 특성상 검은·어두운 캐주얼이 대다수라 의류 설명만으로는 변별력이 떨어지고, CUHK-PEDES로 학습한 TBPS-CLIP과 탑뷰 도메인 갭도 컸다. 영상 단위 소규모 gallery에서는 실용적이었지만, 글로벌 검색까지 가려면 속성 인식(PAR)이나 도메인 파인튜닝을 얹어야 한다는 게 다음 과제다.

시각 자산

실제 검색 UI 캡처를 커버로(얼굴 블러 후), 트래킹 GT 분석 차트를 본문 자산으로 사용.

스택

OS	Ubuntu
Lang	Python 3.11
Lib	Ultralytics YOLO11m, StrongSORT, TrackEval, OpenCV
FW	PyTorch 2.x, TBPS-CLIP, PySide6
Tech	MOT, gallery·re-entry, query-by-image, 텍스트 검색, uv