YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024

컴퓨터 비전 작업을 위해 Google Gemini 2.5를 직접 사용해 보세요.

Abirami Vina

5분 분량

2025년 3월 31일

객체 탐지, 이미지 캡셔닝, Vision AI 솔루션용 OCR과 같은 컴퓨터 비전 작업을 위해 Google Gemini 2.5를 직접 사용하는 방법을 알아보세요.

AI 발전은 빠르게 진행되고 있으며, 새로운 혁신이 거의 매일 헤드라인을 장식하고 있습니다. 최근의 획기적인 발전 중 하나는 3월 26일에 출시된 Google DeepMind의 최신 멀티모달 모델인 Gemini 2.5입니다. 기존의 대규모 언어 모델(LLM)은 방대한 양의 데이터에서 학습하여 인간과 유사한 텍스트를 생성할 수 있지만 Gemini 2.5는 그 이상을 수행합니다. 

이미지, 오디오 및 비디오를 처리할 수 있는 “사고 모델”로 설계되었습니다. 향상된 추론 및 코딩 기술을 갖추고 있습니다. 흥미롭게도 컴퓨터 비전 작업과 관련하여 탁월한 성능을 보입니다. 여기서 기계는 객체 감지, 이미지 캡션 및 광학 문자 인식(OCR)과 같은 시각적 데이터를 해석하고 분석합니다.

__wf_reserved_inherit
Fig 1. Gemini 2.5를 사용하여 이미지 내용을 이해하는 예시입니다.

이 기사에서는 Gemini 2.5의 컴퓨터 비전 기능을 직접 체험할 수 있도록 Ultralytics의 노트북 중 하나를 살펴봅니다. 또한 Gemini 2.5의 주요 기능을 자세히 살펴보고 실제 애플리케이션을 위한 컴퓨터 비전 솔루션을 구축하는 데 어떻게 사용할 수 있는지 보여줍니다. 시작해 보겠습니다!

Gemini 2.5 개요: 기능 및 성능

Gemini 2.5 모델 시리즈에서 방금 출시된 첫 번째 버전은 Gemini 2.5 Pro의 실험적 릴리스입니다. 답변을 제공하기 전에 응답에 대해 생각하여 복잡한 문제를 처리하도록 설계되었습니다. 강화 학습(모델이 피드백에서 학습하는 방식) 및 연쇄적 사고 프롬프트(문제 해결에 대한 단계별 접근 방식)와 같은 방법을 사용합니다.

주요 기능 중 하나는 100만 토큰(대략 100만 단어 또는 단어 부분)을 담을 수 있고 200만 개까지 늘어날 것으로 예상되는 거대한 컨텍스트 창입니다. 이는 모델이 한 번에 많은 정보를 받아들여 더 자세하고 정확한 결과를 얻을 수 있음을 의미합니다.

Gemini 2.5는 언어 처리 외에도 다음과 같은 컴퓨터 비전 작업에 사용할 수 있습니다.

  • 객체 탐지: 이미지 내에서 객체를 식별하고 위치를 파악하는 프로세스입니다. 감시 또는 자율 주행 자동차와 같은 애플리케이션에서 사용할 수 있습니다.
  • 이미지 캡셔닝: 이 작업은 이미지에 대한 설명 텍스트를 생성하는 것을 포함합니다. 시각적 콘텐츠를 보다 접근하기 쉽고 이해하기 쉽게 만듭니다.
  • 광학 문자 인식: 이 기술은 이미지에서 발견된 텍스트를 편집 가능한 기계 판독 가능 텍스트로 변환합니다. 문서를 디지털화하고 데이터 입력을 자동화하는 데 유용합니다.

Google Gemini 2.5와 다른 모델의 벤치마킹 및 비교

오늘날 AI 분야에는 여러 가지 멀티모달 모델이 있으므로 Gemini 2.5 Pro가 이러한 모델과 어떻게 비교되는지 이해하는 것이 중요합니다. Google의 DeepMind가 공유한 벤치마킹 결과에 따르면 Gemini 2.5 Pro는 다양한 작업에서 인상적인 성능을 보여줍니다. 

예를 들어, 여러 과목을 다루는 어려운 시험을 시뮬레이션하고 고급 추론 및 일반 지식을 테스트하는 Humanity’s Last Exam이라는 테스트에서 Gemini 2.5 Pro는 약 18.8%의 점수를 얻어 OpenAI의 o3-mini와 같은 모델(약 14% 점수)보다 뛰어난 성능을 보입니다. 

__wf_reserved_inherit
Fig 2. Gemini 2.5 Pro의 벤치마크 성능 개요입니다.

또한 수학 및 코딩 문제에서도 매우 우수한 성능을 발휘하여 OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta 및 DeepSeek R1과 같은 모델의 성능과 일치하거나 능가하는 경우가 많아 복잡한 작업을 처리하고 많은 양의 데이터를 처리하는 능력을 입증합니다.

Gemini 2.5 직접 사용해 보기: Google Gemini API 사용 방법

Gemini 2.5 Pro는 여러 플랫폼에서 사용할 수 있습니다. Google AI Studio에서 실험해보고 Gemini Advanced 사용자를 위한 Gemini 앱을 통해 액세스할 수 있습니다. Google DeepMind는 출시 발표에서 이 모델이 곧 Vertex AI에서 지원될 것이라고 언급했습니다. 이러한 액세스 포인트를 통해 개발자는 실제 AI 애플리케이션에 Gemini 2.5 Pro를 쉽게 사용할 수 있습니다. 

그러나 복잡한 설정 없이 Google Gemini API를 사용하고 몇 분 안에 시작하고 컴퓨터 비전 기능에 대한 더 나은 이해를 얻고 싶다면 Gemini 2.5 Pro를 사용하여 객체 감지 및 이미지 캡션과 같은 작업을 보여주는 Ultralytics 노트북을 확인해 볼 수 있습니다. 노트북에서 기대할 수 있는 내용을 자세히 살펴보겠습니다.

Google Gemini 2.5 노트북으로 추론 설정하기

Ultralytics 노트북을 시작하고 Google Gemini 2.5를 사용하려면 먼저 Google AI Studio를 통해 API 키를 생성해야 합니다. 이 키를 통해 Gemini API에 액세스하여 모델을 사용할 수 있습니다.

API 키가 있으면 환경에 필요한 라이브러리가 설치되어 있는지 확인하십시오. 여기에는 Ultralytics 및 Google의 AI 툴킷의 패키지가 포함됩니다. 이 단계는 노트북에 명확하게 설명되어 있으므로 지침에 따라 작업 공간을 쉽게 설정할 수 있습니다.

모든 것이 구성되면 API 키를 입력하여 Gemini API에 연결할 수 있습니다(아래 참조). 그러면 작업 공간과 모델 간에 링크가 생성됩니다. 그런 다음 이미지와 텍스트 프롬프트를 Gemini 2.5로 보낼 수 있습니다.

기본적으로 이미지와 간단한 지침(예: '이 이미지에서 객체 감지' 또는 '보이는 것을 설명')을 모델에 제공하면 필요한 결과를 반환합니다. 이 간단한 프로세스를 통해 Gemini 2.5의 컴퓨터 비전 기능을 쉽게 탐색할 수 있습니다.

Google Gemini 2.5를 사용한 객체 탐지

노트북의 주요 예 중 하나는 Gemini 2.5 Pro를 사용한 객체 감지입니다. 이 예에서는 모델에 이미지와 간단한 프롬프트를 제공하여 객체를 감지합니다. 

모델은 이미지를 처리하고 찾은 각 객체에 대한 좌표 및 레이블 세트를 반환합니다. 이러한 좌표는 정규화된 형태로 제공됩니다. 그런 다음 Ultralytics Python 패키지의 함수를 사용하여 이러한 정규화된 값을 이미지의 실제 크기와 일치하도록 변환하고 아래와 같이 각 객체 주위에 명확한 경계 상자를 그립니다.

__wf_reserved_inherit
그림 3. Google Gemini 2.5를 사용하여 객체 탐지를 수행합니다.

Gemini 2.5를 사용한 이미지 캡셔닝

노트북의 또 다른 흥미로운 예는 Gemini 2.5 Pro를 사용한 이미지 캡션 달기입니다. 이 예에서는 모델에 이미지와 이미지에 있는 내용을 설명하는 자세한 캡션을 생성하도록 요청하는 프롬프트를 제공합니다. 

그런 다음 모델은 시각적 콘텐츠를 분석하고 이미지의 내용과 컨텍스트를 모두 캡처하는 내러티브(종종 여러 문장으로 형식화됨)를 반환합니다. 이 기능은 접근성을 개선하고, 시각적 정보를 요약하고, 창의적인 스토리텔링을 향상시키는 데 유용합니다.

Google Gemini 모델을 사용한 OCR 정확도 향상

Gemini 2.5 Pro의 이미지 내 텍스트 읽기 기능을 사용하는 컴퓨터 비전 작업은 OCR입니다. 노트북에서 모델에 텍스트가 포함된 이미지와 해당 텍스트를 추출하라는 프롬프트를 제공할 수 있습니다. 모델은 이미지를 처리하고 감지된 텍스트와 텍스트가 있는 좌표를 모두 반환합니다(아래 참조).

그런 다음 Ultralytics Python 패키지의 함수를 사용하여 이러한 정규화된 좌표를 이미지의 실제 크기로 변환하고 텍스트 영역 주위에 경계 상자를 그립니다. 이 주석이 달린 출력은 텍스트가 있는 위치를 명확하게 보여주므로 문서를 디지털화하고, 데이터 입력을 자동화하고, 접근성을 개선하는 데 유용합니다.

__wf_reserved_inherit
Fig 4. Google Gemini 2.5를 사용하여 이미지에서 텍스트 데이터를 추출합니다.

Google Gemini 2.5의 실제 응용

이제 Google Gemini 2.5 Pro를 다양한 컴퓨터 비전 작업에 사용하는 방법을 살펴보았으니, 이러한 기능을 사용할 수 있는 실제 응용 분야를 살펴보겠습니다.

예를 들어 Gemini 2.5 Pro의 객체 감지 기능은 대규모 이미지 세트를 자동으로 레이블링하고 구성하는 데 도움이 되어 데이터 세트 생성 또는 콘텐츠 관리와 같은 작업을 훨씬 빠르게 수행할 수 있습니다. 또한 소매 및 농업과 같은 분야에서 이미지를 분석하는 데 사용할 수도 있습니다. 예를 들어 선반의 제품을 감지하거나 농장 사진에서 작물 스트레스 징후를 식별할 수 있습니다.

__wf_reserved_inherit
Fig 5. Gemini 2.5 Pro가 식물의 건강 상태를 분석 중입니다.

한편, 이 모델의 이미지 캡션 기능은 시각 장애가 있는 사용자가 이미지 내용을 이해하는 데 도움이 될 수 있습니다. 예를 들어, 붐비는 거리 사진이 있는 경우 모델은 차량 종류, 보행자 활동, 심지어 조명 신호를 기반으로 한 시간대까지 언급하면서 장면을 자세히 설명하는 캡션을 생성할 수 있습니다. 

이 외에도 Gemini 2.5의 OCR 기능은 다양한 애플리케이션에서 사용할 수 있습니다. 예를 들어 페이지나 영수증을 스캔하여 인쇄된 문서를 디지털화할 수 있습니다. 이 기능은 데이터 입력 작업 자동화, 양식 처리 또는 명함 및 간판에서 텍스트를 읽는 데 적합합니다. 

전반적으로 Google Gemini 2.5 Pro는 광범위한 실용적인 AI 애플리케이션의 문을 엽니다.

주요 내용

Google Gemini 2.5 Pro는 텍스트 생성 및 분석을 넘어 객체 감지, 이미지 캡셔닝, OCR과 같은 컴퓨터 비전 작업에도 활용될 수 있습니다. 방대한 컨텍스트 창과 향상된 추론 능력을 바탕으로 실제 시나리오에서 효과적인 자세하고 상황에 맞는 결과를 생성합니다. 

AI 모델이 계속 발전함에 따라 Gemini 2.5 Pro와 같은 도구를 통해 여러 산업 분야에서 복잡한 문제를 더 쉽게 해결할 수 있게 되었습니다. 더 많은 조직이 시각적 이해부터 언어 처리까지 광범위한 작업을 처리할 수 있는 유연한 멀티모달 솔루션을 모색함에 따라 AI 도입이 더욱 확대될 것으로 예상됩니다.

커뮤니티에 참여하여 GitHub 저장소에서 최첨단 AI 프로젝트에 대해 알아보세요. 솔루션 페이지에서 농업 분야의 Vision AI 응용 분야와 제조 분야의 AI 역할을 확인하세요. 라이선스 플랜을 살펴보고 지금 바로 컴퓨터 비전 솔루션을 구축하세요!

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기
클립보드에 링크가 복사되었습니다.