Hugging Face의 오픈 소스 도구로 CV 프로젝트 구동하기
Hugging Face의 오픈 소스 도구가 AI 개발을 어떻게 발전시키고 있는지 탐구하는 YOLO Vision 2024의 기조 연설을 다시 살펴보십시오.

올바른 알고리즘을 선택하는 것은 영향력 있는 컴퓨터 비전 솔루션을 구축하는 과정의 일부일 뿐입니다. AI 엔지니어는 종종 방대한 데이터셋을 다루고, 특정 작업을 위해 모델을 미세 조정하며, 실제 환경에서의 성능을 위해 AI 시스템을 최적화합니다. AI 애플리케이션 채택이 가속화됨에 따라 이러한 과정을 간소화하는 도구에 대한 수요도 증가하고 있습니다.
Ultralytics가 주관하는 연례 하이브리드 이벤트인 YOLO Vision 2024 (YV24)에서 AI 전문가와 기술 애호가들이 모여 컴퓨터 비전 분야의 최신 혁신을 탐구했습니다. 이 행사는 AI 애플리케이션 개발 속도를 높이는 방법과 같은 다양한 주제에 대한 논의를 촉발했습니다.
행사의 핵심 하이라이트는 모델 학습, 최적화 및 배포를 간소화하는 오픈 소스 AI 플랫폼인 Hugging Face에 관한 기조연설이었습니다. Hugging Face의 머신 러닝 엔지니어인 Pavel Iakubovskii는 Hugging Face의 도구가 이미지 내 객체 탐지, 이미지를 그룹별로 분류, 사전 학습 없이 예측하는 제로샷 학습(zero-shot learning)과 같은 컴퓨터 비전 작업의 워크플로를 어떻게 개선하는지 공유했습니다.
Hugging Face Hub는 Ultralytics YOLO11과 같은 다양한 AI 및 computer vision models을 호스팅하고 액세스를 제공합니다. 이 기사에서는 Pavel의 발표에서 얻은 핵심 내용을 요약하고, 개발자가 Hugging Face의 오픈 소스 도구를 활용하여 AI 모델을 신속하게 구축하고 배포하는 방법을 살펴봅니다.

그림 1. YV24 무대 위의 Pavel.
Link to this sectionHugging Face Hub를 통한 AI 개발 가속화 지원#
Pavel은 다양한 애플리케이션을 위한 사전 학습된 모델을 제공하는 오픈 소스 AI 플랫폼으로서 Hugging Face를 소개하며 발표를 시작했습니다. 이러한 모델은 자연어 처리(NLP), 컴퓨터 비전, 멀티모달 AI를 포함한 AI의 다양한 분야를 위해 설계되었으며, 이를 통해 텍스트, 이미지, 오디오와 같은 다양한 유형의 데이터를 처리할 수 있습니다.
Pavel은 현재 Hugging Face Hub에 100만 개 이상의 모델이 호스팅되어 있으며, 개발자는 자신의 프로젝트에 적합한 모델을 쉽게 찾을 수 있다고 언급했습니다. Hugging Face는 모델 학습, 미세 조정 및 배포를 위한 도구를 제공하여 AI 개발을 간소화하는 것을 목표로 합니다. 개발자가 다양한 모델을 실험할 수 있게 되면 실제 애플리케이션에 AI를 통합하는 과정이 단순해집니다.
Hugging Face는 초기에는 NLP로 유명했지만, 이후 computer vision 및 멀티모달 AI로 영역을 확장하여 개발자가 더 폭넓은 AI 작업을 수행할 수 있도록 지원하고 있습니다. 또한 포럼, Discord, GitHub를 통해 개발자들이 협업하고 인사이트를 공유하며 지원을 받을 수 있는 강력한 커뮤니티를 보유하고 있습니다.
Link to this section컴퓨터 비전 애플리케이션을 위한 Hugging Face 모델 탐색#
상세한 내용으로 넘어가서 Pavel은 Hugging Face의 도구가 어떻게 컴퓨터 비전 애플리케이션 구축을 더 쉽게 만드는지 설명했습니다. 개발자는 이를 이미지 분류, 객체 탐지 및 비전-언어 애플리케이션과 같은 작업에 사용할 수 있습니다.
그는 또한 이러한 computer vision tasks의 상당수가 Hugging Face Hub에서 제공되는 사전 학습된 모델로 처리될 수 있어 처음부터 학습해야 하는 수고를 덜어 시간을 절약할 수 있다고 강조했습니다. 실제로 Hugging Face는 식품 분류, 반려동물 분류, 감정 분석 등을 포함한 이미지 분류 작업을 위해 13,000개 이상의 사전 학습된 모델을 제공합니다.
그는 이러한 모델의 접근성을 강조하며 "프로젝트를 위해 모델을 직접 학습할 필요조차 없을지도 모릅니다. 이미 커뮤니티의 누군가가 학습시켜 놓은 모델을 Hub에서 찾을 수도 있으니까요."라고 말했습니다.
Link to this section객체 탐지를 위한 Hugging Face 모델#
다른 예를 들어 Pavel은 이미지 내 객체를 식별하고 위치를 파악하는 컴퓨터 비전의 핵심 기능인 object detection에 Hugging Face가 어떻게 도움을 줄 수 있는지 자세히 설명했습니다. 라벨링된 데이터가 부족하더라도 Hugging Face Hub에서 제공되는 사전 학습된 모델을 사용하면 객체 탐지를 훨씬 더 효율적으로 수행할 수 있습니다.
그는 또한 Hugging Face에서 찾을 수 있는 이 작업을 위해 구축된 몇 가지 모델에 대해 간략히 소개했습니다:
- 실시간 객체 탐지 모델: 속도가 중요한 동적 환경을 위해 Detection Transformer(DETR)와 같은 모델이 실시간 객체 탐지 기능을 제공합니다. DETR은 COCO 데이터셋으로 학습되었으며 효율적인 다중 스케일 특징 처리를 위해 설계되어 시간 민감형 애플리케이션에 적합합니다.
- Vision-language models: 이 모델들은 이미지와 텍스트 처리를 결합하여 AI 시스템이 이미지를 설명과 일치시키거나 학습 데이터 범위를 벗어난 객체를 인식할 수 있도록 합니다. 텍스트를 시각적 요소와 연결하여 이미지 검색을 개선하고 AI 솔루션이 문맥을 이해하여 새로운 객체를 식별할 수 있게 해주는 CLIP 및 SigLIP이 그 예입니다.
- 제로샷 객체 탐지 모델: 이미지와 텍스트 간의 관계를 이해하여 이전에 본 적 없는 객체를 식별할 수 있습니다. OwlVit, GroundingDINO, OmDet 등이 그 예이며, zero-shot learning을 사용하여 라벨링된 학습 데이터 없이도 새로운 객체를 탐지합니다.
Link to this sectionHugging Face 모델 사용 방법#
Pavel은 이어서 Hugging Face 모델을 실질적으로 활용하는 방법에 초점을 맞춰 개발자가 모델을 탐색하고, 신속하게 테스트하며, 추가적으로 커스텀하는 세 가지 방식을 설명했습니다.
그는 개발자가 코드를 작성하지 않고도 Hugging Face Hub에서 직접 모델을 탐색하여 대화형 인터페이스를 통해 즉시 모델을 테스트할 수 있는 방법을 시연했습니다. "단 한 줄의 코드도 작성하거나 컴퓨터에 모델을 다운로드하지 않고도 시도해 볼 수 있습니다."라고 Pavel은 덧붙였습니다. 일부 모델은 용량이 크기 때문에 Hub에서 직접 실행하면 저장 공간과 처리 제약을 피하는 데 도움이 됩니다.

그림 2. Hugging Face 모델 사용 방법.
또한 Hugging Face Inference API를 통해 개발자는 간단한 API 호출로 AI 모델을 실행할 수 있습니다. 복잡한 설정 없이 빠른 테스트, 개념 증명(PoC) 프로젝트, 신속한 프로토타이핑에 매우 유용합니다.
더 고급 사례의 경우, 개발자는 텍스트, 비전 및 오디오 작업을 위한 사전 학습된 모델을 제공하며 PyTorch와 TensorFlow를 모두 지원하는 오픈 소스 도구인 Hugging Face Transformers 프레임워크를 사용할 수 있습니다. Pavel은 단 두 줄의 코드로 Hugging Face Hub에서 모델을 가져와 이미지 프로세서와 같은 전처리 도구에 연결하여 Vision AI 애플리케이션용 이미지 데이터를 분석할 수 있다고 설명했습니다.
Link to this sectionHugging Face로 AI 워크플로 최적화하기#
다음으로 Pavel은 Hugging Face가 어떻게 AI 워크플로를 간소화할 수 있는지 설명했습니다. 그가 다룬 핵심 주제 중 하나는 딥러닝 모델의 핵심 기능이자 입력 데이터의 가장 관련성 높은 부분에 집중하게 해주는 Transformers의 어텐션 메커니즘을 최적화하는 것이었습니다. 이는 언어 처리 및 컴퓨터 비전 작업의 정확도를 향상시키지만, 자원 소모가 많을 수 있습니다.
어텐션 메커니즘을 최적화하면 속도를 높이는 동시에 메모리 사용량을 크게 줄일 수 있습니다. Pavel은 "예를 들어, 더 효율적인 어텐션 구현으로 전환하면 최대 1.8배 더 빠른 성능을 얻을 수 있습니다."라고 지적했습니다.
Hugging Face는 Transformers 프레임워크 내에서 더 효율적인 어텐션 구현에 대한 내장 지원을 제공합니다. 개발자는 모델을 로드할 때 대체 어텐션 구현을 지정하기만 하면 이러한 최적화를 활성화할 수 있습니다.
Link to this sectionOptimum 및 Torch Compile#
그는 또한 성능에 큰 영향을 주지 않으면서 모델이 사용하는 수치의 정밀도를 낮춰 AI 모델을 더 작게 만드는 기법인 양자화(quantization)에 대해 이야기했습니다. 이는 모델이 메모리를 적게 사용하고 더 빠르게 실행되도록 도와 스마트폰이나 임베디드 시스템과 같이 처리 능력이 제한된 장치에 더 적합하게 만듭니다.
효율성을 더욱 높이기 위해 Pavel은 모델을 최적화하고 배포하기 위해 설계된 도구 모음인 Hugging Face Optimum 라이브러리를 소개했습니다. 몇 줄의 코드만으로 개발자는 양자화 기법을 적용하고 모델을 ONNX (Open Neural Network Exchange)와 같은 효율적인 형식으로 변환하여 클라우드 서버와 에지 장치를 포함한 다양한 하드웨어 유형에서 원활하게 실행할 수 있습니다.

그림 3. Pavel이 Optimum 라이브러리와 그 기능에 대해 발표했습니다.
마지막으로 Pavel은 AI 모델이 데이터를 처리하는 방식을 최적화하여 더 빠르고 효율적으로 실행되도록 하는 PyTorch의 기능인 Torch Compile의 이점에 대해 언급했습니다. Hugging Face는 Transformers 및 Optimum 라이브러리 내에 Torch Compile을 통합하여 개발자가 최소한의 코드 변경만으로 이러한 성능 향상 효과를 누릴 수 있도록 합니다.
Torch Compile은 모델의 연산 구조를 최적화함으로써 정확도나 품질을 저하시키지 않으면서 추론 시간을 단축하고 프레임 속도를 초당 29프레임에서 150프레임으로 향상시킬 수 있습니다.
Link to this sectionHugging Face 도구로 모델 배포하기#
계속해서 Pavel은 올바른 모델을 선택하고 최적의 개발 방식을 결정한 후, 개발자가 Hugging Face 도구를 사용하여 어떻게 Vision AI 모델을 확장하고 배포할 수 있는지 간략하게 다루었습니다.
예를 들어, 개발자는 Gradio와 Streamlit을 사용하여 대화형 AI 애플리케이션을 배포할 수 있습니다. Gradio는 머신 러닝 모델을 위한 웹 기반 인터페이스를 만들 수 있게 해주며, Streamlit은 간단한 Python 스크립트로 대화형 데이터 애플리케이션을 구축할 수 있도록 돕습니다.
Pavel은 또한 "처음부터 모든 것을 작성할 필요는 없습니다."라고 말하며 Hugging Face가 제공하는 가이드, 학습 노트북, 예제 스크립트를 언급했습니다. 이러한 리소스는 개발자가 모든 것을 바닥부터 구축할 필요 없이 빠르게 시작할 수 있도록 돕습니다.

그림 4. YV24에서 Hugging Face의 기능에 대해 논의하는 Pavel.
Link to this sectionHugging Face Hub의 이점#
기조연설을 마무리하며 Pavel은 Hugging Face Hub 사용의 이점을 요약했습니다. 그는 Hub가 모델 관리와 협업을 얼마나 간소화하는지 강조했습니다. 또한 초보자와 전문가 모두가 AI 모델을 이해하고 구현하는 데 도움이 되는 가이드, 노트북, 튜토리얼의 활용 가능성에 대해서도 주의를 환기했습니다.
"Hub에는 이미 멋진 스페이스가 많이 있습니다. 유사한 것을 찾아 공유된 코드를 복제하고, 몇 줄을 수정하고, 모델을 자신의 것으로 대체한 다음 다시 푸시할 수 있습니다."라고 그는 설명하며 개발자들이 플랫폼의 유연성을 활용하도록 독려했습니다.
Link to this section핵심 요약#
YV24 발표 중 Pavel은 Hugging Face가 AI 모델 학습, 최적화 및 배포를 지원하는 도구를 어떻게 제공하는지 공유했습니다. 예를 들어, Transformers, Optimum, Torch Compile과 같은 혁신은 개발자가 모델 성능을 향상시키는 데 도움을 줄 수 있습니다.
AI 모델이 더욱 효율적으로 변함에 따라 양자화 및 에지 배포의 발전으로 리소스가 제한된 장치에서도 실행하기가 더 쉬워지고 있습니다. 이러한 개선 사항은 Hugging Face와 같은 도구 및 Ultralytics YOLO11과 같은 고급 컴퓨터 비전 모델과 결합되어 확장 가능하고 고성능인 Vision AI 애플리케이션을 구축하는 핵심 요소가 됩니다.
성장하는 저희 community에 참여하세요! GitHub repository를 탐색하여 AI에 대해 알아보고, YOLO licenses를 확인하여 Vision AI 프로젝트를 시작해 보세요. computer vision in healthcare 또는 computer vision in agriculture와 같은 혁신에 관심이 있으신가요? 솔루션 페이지를 방문하여 더 많은 정보를 확인해 보세요!






