YOLO 비전 2025에 주목하세요!
2025년 9월 25일
10:00 - 18:00 BST
하이브리드 이벤트
욜로 비전 2024

AI가 사람의 행동을 감지할 수 있을까요? 활동 인식 살펴보기

아비라미 비나

6분 읽기

2025년 9월 22일

피트니스 앱부터 환자 모니터링까지, 컴퓨터 비전이 실제 환경에서 AI가 사람의 행동을 감지할 수 있는가라는 질문을 어떻게 해결하는지 알아보세요.

일상 생활은 우리가 거의 생각하지 않는 작은 움직임으로 가득합니다. 방을 가로질러 걷거나 책상에 앉거나 친구에게 손을 흔드는 것은 우리에게는 쉽게 느껴질 수 있지만 AI로 이를 감지하는 것은 훨씬 더 복잡합니다. 인간에게는 자연스럽게 느껴지는 동작이 기계가 이해하려고 할 때는 훨씬 더 복잡한 의미로 해석됩니다.

이 기능을 인간 활동 인식(HAR)이라고 하며, 컴퓨터가 인간 행동의 패턴을 감지하고 해석할 수 있게 해줍니다. 피트니스 앱은 HAR이 실제로 작동하는 좋은 예입니다. 걸음 수와 운동 루틴을 추적함으로써 AI가 일상 활동을 어떻게 모니터링할 수 있는지 보여줍니다. 

HAR의 잠재력을 알아본 많은 업계에서 이 기술을 도입하기 시작했습니다. 실제로 인간 행동 인식 시장은 2033년까지 125억 6,000만 달러 이상에 달할 것으로 예상됩니다.

이러한 발전의 상당 부분은 이미지와 동영상과 같은 시각적 데이터를 기계가 분석할 수 있게 해주는 AI의 한 분야인 컴퓨터 비전이 주도하고 있습니다. 컴퓨터 비전과 이미지 인식을 통해 HAR은 연구 개념에서 최첨단 AI 애플리케이션의 실용적이고 흥미로운 부분으로 진화했습니다. 

이 글에서는 HAR이 무엇인지, 사람의 행동을 인식하는 데 사용되는 다양한 방법과 컴퓨터 비전이 이 질문에 답하는 데 어떻게 도움이 되는지 살펴봅니다: AI가 실제 애플리케이션에서 사람의 행동을 감지할 수 있을까요? 지금 바로 시작하겠습니다!

인간 행동 인식이란 무엇인가요?

인간 행동 인식은 컴퓨터 시스템이 신체 움직임을 분석하여 사람의 활동이나 행동을 이해할 수 있게 해줍니다. 단순히 이미지에서 사람을 감지하는 것과 달리 HAR은 사람이 무엇을 하고 있는지 식별하는 데 도움을 줄 수 있습니다. 예를 들어, 걷는 것과 뛰는 것을 구분하거나, 손을 흔드는 것을 인식하거나, 사람이 넘어지는 것을 알아차릴 수 있습니다.

HAR의 기초는 움직임과 자세의 패턴에 있습니다. 사람의 팔이나 다리의 위치가 조금만 바뀌어도 다양한 동작을 감지할 수 있습니다. 이러한 미묘한 디테일을 캡처하고 해석함으로써 HAR 시스템은 신체 움직임에서 의미 있는 인사이트를 얻을 수 있습니다.

이를 위해 인간 행동 인식은 머신러닝, 딥러닝 모델, 컴퓨터 비전, 이미지 처리 등 여러 기술을 결합하여 몸의 움직임을 분석하고 사람의 행동을 더 정확하게 해석합니다. 

그림 1. 인간 활동 인식에는 컴퓨터 과학의 다양한 분야가 포함됩니다(출처).

초기의 HAR 시스템은 훨씬 더 제한적이었습니다. 통제된 환경에서 몇 가지 단순하고 반복적인 작업만 처리할 수 있었으며 실제 상황에서는 종종 어려움을 겪었습니다. 

오늘날 HAR은 AI와 방대한 양의 비디오 데이터 덕분에 정확성과 견고성 모두에서 크게 발전했습니다. 최신 시스템은 훨씬 더 높은 정확도로 다양한 활동을 인식할 수 있어 의료, 보안, 대화형 디바이스와 같은 분야에서 실용적인 기술로 활용되고 있습니다.

사람의 행동을 감지하는 다양한 방법

이제 인간의 행동 인식이 무엇인지 더 잘 이해했으니, 기계가 인간의 행동을 감지하는 다양한 방법을 살펴보겠습니다. 

다음은 몇 가지 일반적인 방법입니다:

  • 센서 기반 방법: 가속도계, 웨어러블, 스마트폰과 같은 스마트 디바이스는 인체에서 직접 신호를 포착할 수 있습니다. 걷기, 달리기, 심지어 가만히 서 있는 것과 같은 움직임 패턴을 표시할 수 있습니다. 스마트워치의 걸음 수 카운터가 이 방법의 좋은 예입니다.
  • 비전 기반 방법: 컴퓨터 비전과 페어링된 카메라는 이미지와 비디오를 분석하여 신체의 모양과 움직임을 프레임 단위로 추적합니다. 이를 통해 보다 복잡한 활동을 인식할 수 있습니다. 제스처 제어 TV나 게임 시스템은 이 방법을 사용합니다.
  • 멀티모달 방식: 센서와 카메라의 조합으로, 한 소스가 다른 소스가 감지한 것을 확인할 수 있기 때문에 보다 안정적인 시스템을 구축할 수 있습니다. 예를 들어, 웨어러블이 동작을 등록하는 동안 카메라가 자세를 확인할 수 있으며, 이는 노인 케어용 낙상 감지에 자주 사용되는 설정입니다.

인간 활동 인식에서 데이터 세트의 역할

모든 HAR 모델이나 시스템의 경우 데이터 세트가 출발점입니다. HAR 데이터 세트는 걷기, 앉기, 손 흔들기 등의 동작을 캡처한 비디오 클립, 이미지 또는 센서 데이터와 같은 예제 모음입니다. 이러한 예제는 사람의 동작 패턴을 인식하도록 AI 모델을 훈련하는 데 사용되며, 이를 실제 애플리케이션에 적용할 수 있습니다. 

학습 데이터의 품질은 모델의 성능에 직접적인 영향을 미칩니다. 깨끗하고 일관된 데이터는 시스템이 행동을 정확하게 인식하는 데 도움이 됩니다. 

그렇기 때문에 데이터 세트는 훈련 전에 전처리되는 경우가 많습니다. 일반적인 단계 중 하나는 정규화인데, 이는 오류를 줄이고 과적합(모델이 학습 데이터에서는 잘 작동하지만 새로운 데이터에서는 어려움을 겪는 경우)을 방지하기 위해 일관되게 값을 조정하는 것입니다.

연구자들은 훈련 이후 모델의 성능을 측정하기 위해 공정한 테스트와 비교가 가능한 평가 지표와 벤치마크 데이터 세트에 의존합니다. UCF101, HMDB51, Kinetics와 같은 인기 있는 컬렉션에는 사람의 동작 감지를 위한 수천 개의 라벨이 지정된 비디오 클립이 포함되어 있습니다. 센서 측면에서는 스마트폰과 웨어러블에서 수집한 데이터 세트가 다양한 환경에서 인식 모델을 더욱 강력하게 만드는 귀중한 동작 신호를 제공합니다.

그림 2. 인간 활동 인식 데이터 세트의 개요.(출처)

컴퓨터 비전이 인간의 활동 인식을 지원하는 방법

사람의 행동을 감지하는 여러 가지 방법 중 컴퓨터 비전은 가장 인기 있고 널리 연구되고 있는 방법 중 하나가 되었습니다. 컴퓨터 비전의 주요 장점은 이미지와 동영상에서 풍부한 세부 정보를 바로 가져올 수 있다는 것입니다. 프레임 단위로 픽셀을 살펴보고 동작 패턴을 분석함으로써 사람이 별도의 장치를 착용하지 않고도 실시간으로 활동을 인식할 수 있습니다.

최근 딥 러닝, 특히 이미지를 분석하도록 설계된 컨볼루션 신경망(CNN)의 발전으로 컴퓨터 비전이 더 빠르고 정확하며 신뢰할 수 있게 되었습니다. 

예를 들어, 널리 사용되는 최신 컴퓨터 비전 모델인 Ultralytics YOLO11은 이러한 발전된 기술을 기반으로 구축되었습니다. YOLO11은 물체 감지, 인스턴스 분할, 비디오 프레임에서 사람 추적, 사람 포즈 추정 등의 작업을 지원하므로 사람 활동 인식을 위한 훌륭한 도구가 될 수 있습니다.

Ultralytics YOLO11 개요

Ultralytics YOLO11은 속도와 정밀도 모두를 위해 설계된 비전 AI 모델입니다. 물체 감지, 물체 추적, 포즈 추정과 같은 핵심 컴퓨터 비전 작업을 지원합니다. 이러한 기능은 특히 사람 활동 인식에 유용합니다.

객체 감지는 장면에서 사람을 식별하고 위치를 찾고, 추적은 비디오 프레임에서 사람의 움직임을 따라 동작 시퀀스를 인식하며, 포즈 추정은 주요 인체 관절을 매핑하여 유사한 활동을 구분하거나 넘어짐과 같은 갑작스러운 변화를 감지합니다. 

예를 들어, 조용히 앉아 있다가 일어서고 마지막으로 팔을 들어 환호하는 사람의 차이를 구분하는 데 이 모델의 인사이트를 사용할 수 있습니다. 이러한 단순한 일상적인 행동은 언뜻 보기에는 비슷해 보이지만, 순서대로 분석하면 매우 다른 의미를 담고 있습니다.

그림 3. 포즈 추정에 Ultralytics YOLO11 사용.(출처)

컴퓨터 비전과 HAR의 실제 적용 사례

다음으로, 컴퓨터 비전 기반의 인간 활동 인식이 일상 생활에 영향을 미치는 실제 사용 사례에 어떻게 적용되는지 자세히 살펴보겠습니다.

건강 관리 및 웰빙

의료 분야에서 움직임의 작은 변화는 환자의 상태에 대한 유용한 인사이트를 제공할 수 있습니다. 예를 들어, 노인 환자가 비틀거리거나 재활 중 팔다리의 각도를 보면 위험이나 진행 상황을 파악할 수 있습니다. 이러한 징후는 검진과 같은 전통적인 방법으로는 놓치기 쉬운 경우가 많습니다. 

YOLO11은 자세 추정 및 이미지 분석을 통해 환자를 실시간으로 모니터링하는 데 도움을 줄 수 있습니다. 낙상 감지, 회복 운동 추적, 걷기나 스트레칭과 같은 일상 활동을 관찰하는 데 사용할 수 있습니다. 센서나 웨어러블 기기 없이도 시각적 분석을 통해 작동하기 때문에 환자 치료를 지원하는 정확한 정보를 간편하게 수집할 수 있습니다.

그림 4. YOLO11의 포즈 추정 지원을 사용한 신체 움직임 추적.(출처)

보안 및 감시

보안 시스템은 배회하거나 제한 구역에서 뛰거나 갑자기 공격적인 행동을 보이는 등 비정상적인 사람의 활동을 빠르게 감지하는 데 의존합니다. 보안 요원이 모든 것을 수동으로 감시할 수 없는 바쁜 환경에서는 이러한 징후를 놓치는 경우가 많습니다. 이때 컴퓨터 비전과 YOLO11이 필요합니다. 

YOLO11은 의심스러운 움직임을 감지하고 즉각적인 경고를 보낼 수 있는 실시간 비디오 감시 기능을 통해 보안 모니터링을 더욱 쉽게 만듭니다. 공공장소에서는 군중 안전을 지원하고 개인 공간에서는 침입 탐지를 강화합니다. 

이러한 접근 방식을 통해 보안 요원은 컴퓨터 비전 시스템과 함께 작업하여 인간과 컴퓨터의 상호 작용 및 파트너십을 구축함으로써 의심스러운 활동에 보다 신속하고 시의적절하게 대응할 수 있습니다.

HAR에 컴퓨터 비전 사용의 장단점

인간 활동 인식에 컴퓨터 비전을 사용하면 얻을 수 있는 몇 가지 이점은 다음과 같습니다:

  • 확장성: 한 번 설정하면 동일한 인식 시스템으로 여러 사람을 한 번에 자동으로 모니터링할 수 있어 의료 시설, 공장, 공공장소의 자동화에 유용합니다.
  • 실시간 처리: 비전 AI 솔루션을 사용하면 비디오 스트림이 발생하는 즉시 분석하여 더 빠르게 대응할 수 있습니다.
  • 비침습적 추적: 웨어러블이나 센서와 달리 사람이 기기를 휴대할 필요가 없으므로 자연스럽고 간편하게 행동 분석을 수행할 수 있습니다. 

HAR에 컴퓨터 비전을 사용하면 많은 이점이 있지만 고려해야 할 제한 사항도 있습니다. 다음은 몇 가지 고려해야 할 요소입니다:  

  • 개인정보 보호 문제: 비디오 기반 모니터링은 특히 가정이나 직장과 같이 민감한 환경에서 데이터 보호 및 동의와 관련된 문제를 제기할 수 있습니다.
  • 잠재적 편향: 학습 데이터 세트에 다양성이 부족하면 알고리즘이 특정 그룹의 행동을 잘못 해석하여 불공정하거나 부정확한 결과를 도출할 수 있습니다.
  • 환경 민감도: 조명이 어둡거나 배경이 어수선하거나 사람이 부분적으로 가려져 있으면 정확도가 떨어질 수 있으므로 시스템을 신중하게 설계해야 합니다.

주요 요점

인공 지능과 컴퓨터 비전은 기계가 인간의 행동을 보다 정확하게 실시간으로 인식할 수 있게 해줍니다. 이러한 시스템은 비디오 프레임과 움직임 패턴을 분석하여 일상적인 제스처와 갑작스러운 변화를 모두 식별할 수 있습니다. 기술이 계속 발전함에 따라 인간 활동 인식은 연구실을 넘어 의료, 보안 및 일상적인 애플리케이션을 위한 실용적인 도구가 되고 있습니다.

GitHub 리포지토리를 방문하고 커뮤니티에 가입하여 AI에 대해 자세히 알아보세요. 솔루션 페이지에서 로봇 공학 제조 분야의 컴퓨터 비전에서의 AI에 대해 알아보세요. 라이선스 옵션을 살펴보고 Vision AI를 시작하세요.

인공지능의 미래
를 함께 만들어 갑시다!

머신 러닝의 미래와 함께하는 여정 시작하기

무료로 시작하기
링크가 클립보드에 복사됨