욜로 비전 선전
선전
지금 참여하기

Hugging Face의 오픈 소스 도구를 사용한 CV 프로젝트 강화

Abirami Vina

5분 분량

2025년 2월 11일

Hugging Face의 오픈 소스 도구가 AI 개발을 어떻게 발전시키고 있는지 탐구하는 데 초점을 맞춘 YOLO Vision 2024의 기조 연설을 다시 살펴보는 데 동참하세요.

영향력 있는 컴퓨터 비전 솔루션을 구축하는 데는 올바른 알고리즘을 선택하는 것이 한 부분일 뿐입니다. AI 엔지니어는 종종 대규모 데이터 세트로 작업하고, 특정 작업을 위해 모델을 미세 조정하며, 실제 성능을 위해 AI 시스템을 최적화합니다. AI 애플리케이션이 더 빠르게 채택됨에 따라 이러한 프로세스를 단순화하는 도구에 대한 필요성도 커지고 있습니다.

Ultralytics에서 주최하는 연례 하이브리드 행사인 YOLO Vision 2024 (YV24)에서 AI 전문가와 기술 애호가들이 모여 컴퓨터 비전의 최신 혁신 기술을 탐구했습니다. 이 행사에서는 AI 애플리케이션 개발 속도를 높이는 방법과 같은 다양한 주제에 대한 논의가 이루어졌습니다.

이번 행사의 주요 하이라이트는 모델 학습, 최적화 및 배포를 간소화하는 오픈 소스 AI 플랫폼인 Hugging Face에 대한 기조 연설이었습니다. Hugging Face의 머신 러닝 엔지니어인 Pavel Lakubovskii는 Hugging Face의 도구가 이미지에서 객체 감지, 이미지를 여러 그룹으로 분류, 특정 예제에 대한 사전 학습 없이 예측(제로샷 학습)과 같은 컴퓨터 비전 작업의 워크플로우를 어떻게 개선하는지 공유했습니다.

Hugging Face Hub는 Ultralytics YOLO11과 같은 다양한 AI 및 컴퓨터 비전 모델을 호스팅하고 액세스를 제공합니다. 이 기사에서는 Pavel의 강연에서 얻은 주요 내용을 요약하고 개발자가 Hugging Face의 오픈 소스 도구를 사용하여 AI 모델을 신속하게 구축하고 배포하는 방법을 알아봅니다.

그림 1. YV24 무대 위의 Pavel.

Hugging Face Hub는 더 빠른 AI 개발을 지원합니다.

Pavel은 다양한 애플리케이션을 위한 사전 훈련된 모델을 제공하는 오픈 소스 AI 플랫폼으로 Hugging Face를 소개하면서 강연을 시작했습니다. 이러한 모델은 자연어 처리(NLP), 컴퓨터 비전 및 멀티모달 AI를 포함한 다양한 AI 분야를 위해 설계되었으며 시스템이 텍스트, 이미지 및 오디오와 같은 다양한 유형의 데이터를 처리할 수 있도록 지원합니다.

Pavel은 Hugging Face Hub가 현재 100만 개 이상의 모델을 호스팅하고 있으며 개발자는 특정 프로젝트에 적합한 모델을 쉽게 찾을 수 있다고 언급했습니다. Hugging Face는 모델 훈련, 미세 조정 및 배포를 위한 도구를 제공하여 AI 개발을 단순화하는 것을 목표로 합니다. 개발자가 다양한 모델을 실험할 수 있으면 AI를 실제 애플리케이션에 통합하는 프로세스가 단순화됩니다.

Hugging Face는 원래 NLP로 알려졌지만, 이후 컴퓨터 비전 및 멀티모달 AI로 확장하여 개발자들이 더 광범위한 AI 작업을 처리할 수 있게 되었습니다. 또한 개발자들이 포럼, Discord 및 GitHub를 통해 협업하고, 정보를 공유하고, 지원을 받을 수 있는 강력한 커뮤니티를 보유하고 있습니다.

컴퓨터 비전 애플리케이션을 위한 Hugging Face 모델 살펴보기

Pavel은 더 자세히 설명하면서 Hugging Face의 도구를 통해 컴퓨터 비전 애플리케이션을 얼마나 쉽게 구축할 수 있는지 설명했습니다. 개발자는 이미지 분류, 객체 탐지 및 비전-언어 애플리케이션과 같은 작업에 이러한 도구를 사용할 수 있습니다.

그는 또한 이러한 컴퓨터 비전 작업 중 다수는 Hugging Face Hub에서 사용할 수 있는 사전 훈련된 모델로 처리할 수 있으므로 처음부터 훈련할 필요성을 줄여 시간을 절약할 수 있다고 지적했습니다. 실제로 Hugging Face는 음식 분류, 애완 동물 분류 및 감정 감지를 위한 모델을 포함하여 이미지 분류 작업을 위한 13,000개 이상의 사전 훈련된 모델을 제공합니다.

이러한 모델의 접근성을 강조하면서 그는 "프로젝트를 위해 모델을 훈련할 필요조차 없을 것입니다. 커뮤니티의 누군가가 이미 훈련한 모델을 허브에서 찾을 수 있을 것입니다."라고 말했습니다. 

객체 탐지를 위한 Hugging Face 모델 

또 다른 예로 Pavel은 Hugging Face가 이미지 내에서 객체를 식별하고 찾는 데 사용되는 컴퓨터 비전의 핵심 기능인 객체 탐지에 어떻게 도움이 되는지 자세히 설명했습니다. 레이블이 지정된 데이터가 제한적인 경우에도 Hugging Face Hub에서 사용할 수 있는 사전 훈련된 모델을 통해 객체 탐지를 더욱 효율적으로 수행할 수 있습니다. 

그는 또한 Hugging Face에서 찾을 수 있는 이 작업을 위해 구축된 여러 모델에 대한 간략한 개요를 제공했습니다.

  • 실시간 객체 감지 모델: 속도가 중요한 동적 환경의 경우 Detection Transformer(DETR)와 같은 모델은 실시간 객체 감지 기능을 제공합니다. DETR은 COCO 데이터 세트에서 훈련되었으며 다중 스케일 특징을 효율적으로 처리하도록 설계되어 시간에 민감한 애플리케이션에 적합합니다.
  • Vision-language 모델: 이러한 모델은 이미지와 텍스트 처리를 결합하여 AI 시스템이 이미지와 설명을 일치시키거나 훈련 데이터 외의 객체를 인식할 수 있도록 합니다. 예로는 텍스트를 시각 자료에 연결하여 이미지 검색을 개선하고 AI 솔루션이 컨텍스트를 이해하여 새로운 객체를 식별할 수 있도록 하는 CLIP 및 SigLIP이 있습니다.
  • Zero-shot 객체 탐지 모델: 이미지와 텍스트 간의 관계를 이해하여 이전에 본 적 없는 객체를 식별할 수 있습니다. 예로는 OwlVit, GroundingDINO 및 OmDet이 있으며, 이들은 레이블이 지정된 학습 데이터 없이도 zero-shot learning을 사용하여 새로운 객체를 탐지합니다.

Hugging Face 모델 사용 방법

그런 다음 Pavel은 Hugging Face 모델을 직접 사용하는 데 초점을 맞춰 개발자가 모델을 활용할 수 있는 세 가지 방법(모델 탐색, 빠른 테스트 및 추가 사용자 정의)을 설명했습니다.

그는 개발자가 코드를 작성하지 않고도 Hugging Face Hub에서 직접 모델을 탐색하여 대화형 인터페이스를 통해 즉시 모델을 테스트할 수 있는 방법을 시연했습니다. Pavel은 "단 한 줄의 코드를 작성하거나 모델을 컴퓨터에 다운로드하지 않고도 사용해 볼 수 있습니다."라고 덧붙였습니다. 일부 모델은 크기가 크기 때문에 Hub에서 실행하면 저장 및 처리 제한을 피할 수 있습니다.

Fig 2. Hugging Face 모델 사용 방법.

또한 Hugging Face Inference API를 사용하면 개발자가 간단한 API 호출로 AI 모델을 실행할 수 있습니다. 복잡한 설정 없이도 빠른 테스트, 개념 증명 프로젝트 및 신속한 프로토타입 제작에 유용합니다.

보다 고급 사용 사례의 경우 개발자는 PyTorch와 TensorFlow를 모두 지원하면서 텍스트, 비전 및 오디오 작업에 대한 사전 훈련된 모델을 제공하는 오픈 소스 도구인 Hugging Face Transformers 프레임워크를 사용할 수 있습니다. Pavel은 단 두 줄의 코드로 개발자가 Hugging Face Hub에서 모델을 검색하고 이미지 프로세서와 같은 전처리 도구에 연결하여 Vision AI 애플리케이션을 위한 이미지 데이터를 분석할 수 있다고 설명했습니다.

Hugging Face를 활용한 AI 워크플로우 최적화

다음으로, Pavel은 Hugging Face가 AI 워크플로우를 어떻게 간소화할 수 있는지 설명했습니다. 그가 다룬 핵심 주제 중 하나는 Transformer의 어텐션 메커니즘 최적화였습니다. 이는 딥 러닝 모델의 핵심 기능으로, 입력 데이터에서 가장 관련성이 높은 부분에 집중하도록 돕습니다. 이는 언어 처리 및 컴퓨터 비전과 관련된 작업의 정확도를 향상시킵니다. 그러나 리소스 집약적일 수 있습니다.

어텐션 메커니즘을 최적화하면 속도를 향상시키면서 메모리 사용량을 크게 줄일 수 있습니다. Pavel은 "예를 들어, 더 효율적인 어텐션 구현으로 전환하면 최대 1.8배 더 빠른 성능을 얻을 수 있습니다."라고 지적했습니다.

Hugging Face는 Transformers 프레임워크 내에서 보다 효율적인 어텐션 구현을 위한 기본 지원을 제공합니다. 개발자는 모델을 로드할 때 대체 어텐션 구현을 지정하기만 하면 이러한 최적화를 활성화할 수 있습니다.

Optimum 및 Torch Compile

그는 또한 양자화에 대해 이야기했는데, 이는 AI 모델이 사용하는 숫자의 정밀도를 낮추어 성능에 큰 영향을 주지 않으면서 모델 크기를 줄이는 기술입니다. 이는 모델이 더 적은 메모리를 사용하고 더 빠르게 실행되도록 하여 스마트폰 및 임베디드 시스템과 같이 처리 능력이 제한된 장치에 더 적합하게 만듭니다.

효율성을 더욱 향상시키기 위해 Pavel은 모델을 최적화하고 배포하도록 설계된 도구 세트인 Hugging Face Optimum 라이브러리를 도입했습니다. 개발자는 몇 줄의 코드만으로 양자화 기술을 적용하고 모델을 ONNX(Open Neural Network Exchange)와 같은 효율적인 형식으로 변환하여 클라우드 서버 및 에지 장치를 포함한 다양한 유형의 하드웨어에서 원활하게 실행할 수 있습니다.

그림 3. Pavel이 Optimum 라이브러리 및 해당 기능에 대해 발표했습니다.

마지막으로, Pavel은 AI 모델의 데이터 처리 방식을 최적화하여 더 빠르고 효율적으로 실행되도록 하는 PyTorch의 기능인 Torch Compile의 이점에 대해 언급했습니다. Hugging Face는 Transformers 및 Optimum 라이브러리 내에 Torch Compile을 통합하여 개발자가 최소한의 코드 변경으로 이러한 성능 향상을 활용할 수 있도록 합니다. 

Torch Compile은 모델의 연산 구조를 최적화하여 정확성이나 품질 저하 없이 추론 시간을 단축하고 프레임 속도를 초당 29프레임에서 150프레임으로 높일 수 있습니다.

Hugging Face 도구를 사용하여 모델 배포

다음으로 Pavel은 개발자가 올바른 모델을 선택하고 개발에 가장 적합한 접근 방식을 선택한 후 Hugging Face 도구를 사용하여 Vision AI 모델을 확장하고 배포하는 방법에 대해 간략하게 언급했습니다.

예를 들어, 개발자는 Gradio 및 Streamlit을 사용하여 대화형 AI 애플리케이션을 배포할 수 있습니다. Gradio를 사용하면 개발자가 머신 러닝 모델을 위한 웹 기반 인터페이스를 만들 수 있으며, Streamlit은 간단한 Python 스크립트로 대화형 데이터 애플리케이션을 구축하는 데 도움이 됩니다. 

Pavel은 또한 Hugging Face에서 제공하는 가이드, 교육 노트북 및 예제 스크립트를 언급하면서 "모든 것을 처음부터 작성할 필요가 없습니다."라고 지적했습니다. 이러한 리소스는 개발자가 모든 것을 처음부터 구축하지 않고도 빠르게 시작할 수 있도록 도와줍니다.

Fig 4. YV24에서 Pavel이 Hugging Face의 기능에 대해 토론하고 있습니다.

Hugging Face Hub의 이점 

기조 연설을 마무리하면서 Pavel은 Hugging Face Hub 사용의 장점을 요약했습니다. 그는 모델 관리 및 협업을 어떻게 단순화하는지 강조했습니다. 또한 초보자와 전문가 모두가 AI 모델을 이해하고 구현하는 데 도움이 되는 가이드, 노트북 및 튜토리얼의 가용성에 주목했습니다.

"허브에는 이미 멋진 공간들이 많이 있습니다. 비슷한 공간을 찾거나, 공유된 코드를 복제하고, 몇 줄을 수정하고, 모델을 자신의 것으로 교체한 다음, 다시 푸시할 수 있습니다."라고 그는 설명하며 개발자들이 플랫폼의 유연성을 활용하도록 장려했습니다.

주요 내용 

YV24 강연에서 파벨은 Hugging Face가 AI 모델 학습, 최적화 및 배포를 지원하는 도구를 제공하는 방법을 공유했습니다. 예를 들어 Transformers, Optimum 및 Torch Compile과 같은 혁신 기술은 개발자가 모델 성능을 향상시키는 데 도움이 될 수 있습니다.

AI 모델이 더욱 효율적으로 변모함에 따라 양자화 및 에지 배포의 발전으로 리소스가 제한된 장치에서 AI 모델을 더 쉽게 실행할 수 있습니다. 이러한 개선 사항은 Hugging Face와 같은 도구 및 Ultralytics YOLO11과 같은 고급 컴퓨터 비전 모델과 결합되어 확장 가능하고 고성능 Vision AI 애플리케이션을 구축하는 데 핵심적인 역할을 합니다.

지금 바로 성장하는 커뮤니티에 참여하세요! GitHub 저장소를 탐색하여 AI에 대해 알아보고, YOLO 라이선스를 확인하여 Vision AI 프로젝트를 시작해 보세요. 헬스케어 분야의 컴퓨터 비전 또는 농업 분야의 컴퓨터 비전과 같은 혁신에 관심이 있으신가요? 솔루션 페이지를 방문하여 자세히 알아보세요!

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기
클립보드에 링크가 복사되었습니다.