Hugging Face의 트랜스포머로 오픈 소스 컴퓨터 비전 강화하기
Hugging Face와 함께 오픈 소스 컴퓨터 비전을 시작하십시오! 전이 학습(transfer learning), 트랜스포머(transformers)에 대해 배우고 8,000개 이상의 모델을 살펴보십시오. Merve Noyan과 함께 인사이트와 실용적인 데모를 확인하고 개발자가 AI 탐색 분야에서 혁신할 수 있도록 역량을 강화하십시오.

As we keep exploring highlights from the YOLO VISION 2023 (YV23) event, let’s meet Merve Noyan, Developer Advocacy Engineer at Hugging Face, the leading NLP platform with pre-trained models for efficient development of language applications. In her talk, Merve shared some incredible insights into the world of open-source computer vision.
전이 학습(transfer learning), Transformer 및 오픈 소스 컴퓨터 비전 생태계의 매혹적인 세계로 여러분을 안내합니다.
Link to this section전이 학습의 공개: 간단한 요약#
Merve는 한 신경망에서 다른 신경망으로 지식을 전달할 수 있게 해주는 마법의 도구인 전이 학습에 대한 간단한 입문으로 발표를 시작했습니다. 초기 레이어의 가장자리나 모서리와 같은 보편적인 특징을 바탕으로 모델을 학습시킨 다음, 특정 작업에 맞게 미세 조정(fine-tuning)하는 것을 상상해 보십시오. 이것이 바로 데이터 의존성을 줄이고 정확도를 높이는 전이 학습의 핵심입니다.
Merve는 ResNet 및 Inception과 같은 고전적인 컨볼루션 백본을 강조하며 앞으로 펼쳐질 혁신적인 여정을 위한 토대를 마련했습니다.
Link to this sectionTransformer의 등장: 수수께끼의 해답#
무엇이 Transformer를 특별하게 만들까요? Merve는 이를 수수께끼에 비유하며 전통적인 컨볼루션 기반 모델과 어떻게 다른지 보여주었습니다. 그 비결은 레이블이 지정된 데이터 없이도 특징을 포착하는 자기 지도 학습(self-supervised learning) 능력에 있습니다. Vision Transformer, Data Efficient Transformer, CLIP, Swin Transformer 등이 그녀가 소개한 Transformer 기반의 대표적인 모델들입니다.
객체 탐지를 위해 설계된 transformer 모델을 지원하는 Ultralytics와 공통 기반을 마련합니다. 이 모델은 효과적인 하이브리드 인코더, IOU 인식 쿼리 선택, 조절 가능한 추론 속도를 특징으로 합니다. 특히 기존의 다른 Ultralytics YOLOv8 모델과 동일한 패턴을 따르며 예측, 학습, 검증, 내보내기(export)를 위한 옵션을 제공합니다.
Link to this section원스톱 서비스#
이어 Merve는 Hugging Face가 제공하는 방대한 리소스를 소개했습니다. 8,000개 이상의 고전적 컴퓨터 비전 모델과 10,000개 이상의 멀티모달 애플리케이션 모델이 존재합니다. Hugging Face Hub는 3,000개 이상의 데이터셋을 자랑하며 개발자와 애호가 모두를 위한 놀이터 역할을 합니다. Merve는 Hugging Face의 일관된 API 덕분에 다양한 사용 사례에 바로 사용할 수 있는 모델을 제공하며, 이로 인해 원활한 경험이 가능하다고 강조했습니다.
Link to this sectionHugging Face와 함께하는 실습#
발표는 모델을 얼마나 쉽게 다룰 수 있는지 보여주는 실제 시연으로 전환되었습니다. 모델 및 프로세서 인스턴스화부터 Trainer API를 이용한 미세 조정까지, Merve는 Hugging Face Transformers 라이브러리가 개발자에게 최고의 친구임을 명확히 했습니다. 또한 사용자를 위해 워크플로우를 단순화하는 개인적으로 가장 좋아하는 Pipeline API도 소개했습니다.

그림 1. 마드리드 Google for Startups Campus에서 열린 YV23에서 발표 중인 Merve Noyan.
Link to this section애플리케이션에 대한 엿보기#
Merve는 시각적 질의 응답(visual question answering)을 위한 Plot 모델, 이미지 캡셔닝을 위한 Blip, 강력한 이미지 세그멘테이션을 위한 Segment Anything 모델을 포함한 몇 가지 환상적인 애플리케이션을 소개하며 발표를 마무리했습니다. Hugging Face 생태계의 Pipeline API가 중심이 되어 복잡한 기술적 세부 사항에 깊이 빠져들지 않고도 모델을 매우 쉽게 사용할 수 있게 되었습니다.
발표의 하이라이트는 Elysian Diffusion을 사용하여 착시 현상을 만드는 Merve의 시연이었으며, 이는 AI 세계에 재미있는 요소를 더하는 매혹적인 경험이었습니다.
Link to this section요약하자면!#
결론적으로, Merve의 발표는 우리에게 영감을 주었으며 오픈 소스 컴퓨터 비전의 끝없는 가능성을 탐구하고 싶은 열망을 불러일으켰습니다. Hugging Face는 AI를 누구나 접근 가능하고 재미있고 흥미롭게 만들었으며, 개발자가 창의성을 발휘할 수 있도록 지원합니다. 오픈 소스 커뮤니티의 미래와 그 안에 담긴 놀라운 혁신을 위해 건배합니다!






