HoViT는 트랜스포머 기반 모델의 연산 복잡도와 추론 지연 문제를 해결하기 위해 제안된 경량화 Vision Transformer 구조입니다. CNN과 트랜스포머를 결합하고, Attention 블록 수 감소, 1x1 Conv 기반 다운샘플링, Gumbel-Softmax 기반 학습형 가지치기, LoRA 기반 효율적 파인튜닝 기법을 도입했습니다. 실험 결과, 기존 모델 대비 추론 속도를 최대 41.4% 개선하며 정확도도 유지하여 의료 영상 등 실시간 환경에 적합한 성능을 입증했습니다.