Segment Anything Model (SAM) 2는 Meta AI에서 개발한 이미지 분할 모델로, 다양한 객체를 자동으로 식별하고 분할할 수 있습니다. SAM 2는 메타의 기술적 혁신과 대규모 데이터를 활용하여 이미지 분할의 정확도와 효율성을 크게 향상시켰습니다.
기술적 구성 요소
- 컨볼루션 신경망(CNN): SAM 2의 이미지 인코더는 CNN을 사용하여 이미지의 시각적 데이터를 분석하고 해석합니다. CNN은 이미지 내의 다양한 특징을 인식하는 데 탁월합니다. 이를 통해 SAM 2는 이미지의 초기 분석을 효율적으로 수행할 수 있습니다 (viso.ai).
- 생성적 적대 신경망(GAN): GAN은 SAM 2의 분할 마스크 생성을 담당합니다. GAN은 복잡한 데이터 분포를 이해하고 재현하는 데 뛰어나며, 매우 현실적인 분할 결과를 생성할 수 있습니다. 생성자와 판별자의 상호작용을 통해 SAM 2는 매우 정밀한 분할을 수행할 수 있습니다 (viso.ai).
- CLIP (Contrastive Language-Image Pre-training): OpenAI의 CLIP 모델은 텍스트와 이미지를 연결합니다. SAM 2는 CLIP을 사용하여 텍스트 기반 입력을 이미지 분할 작업에 적용할 수 있어, 텍스트 설명이나 레이블을 시각적 데이터와 정확하게 연관시킬 수 있습니다 (viso.ai).
- 전이 학습 및 사전 학습된 모델: ResNet, VGG, EfficientNet 등의 사전 학습된 모델을 사용하여 SAM 2는 복잡한 이미지 특징을 빠르게 이해하고 새로운 분할 작업에 적응할 수 있습니다. 전이 학습을 통해 SAM 2는 높은 정확도와 효율성을 유지합니다 (viso.ai) (ar5iv).
SA-1B 데이터셋
SAM 2는 SA-1B 데이터셋으로 훈련되었습니다. 이 데이터셋은 11백만 장의 이미지와 10억 개 이상의 분할 마스크로 구성되어 있으며, 다양한 시나리오와 객체를 포괄합니다. SA-1B는 모델이 다양한 이미지 분할 작업을 처리할 수 있도록 돕습니다 (Segment Anything).
활용 사례
- 의료 이미지 분할: SAM 2는 피부 병변 분류와 같은 의료 이미지 분할 작업에서도 뛰어난 성능을 발휘합니다. 최근 연구에서는 SAM 2가 다양한 의료 데이터셋에서 높은 정확도를 보여주었습니다 (ar5iv).
- 제로샷 학습: SAM 2는 추가 훈련 없이 새로운 객체와 이미지 분포에 적응할 수 있는 제로샷 학습 능력을 보유하고 있습니다. 이는 다양한 입력 프롬프트(포인트, 박스, 마스크)를 활용하여 이미지 내 모든 객체를 분할할 수 있는 능력을 의미합니다 (Sama).
성능 및 한계
SAM 2는 매우 빠른 추론 속도를 자랑합니다. 웹 브라우저에서 CPU를 사용하여 50밀리초 내에 분할 결과를 생성할 수 있습니다. 그러나 매우 작은 객체나 경계 세부사항을 포착하는 데는 한계가 있을 수 있으며, 이러한 세부사항을 놓칠 가능성도 있습니다 (Sama).
자세한 내용과 추가 정보는 Segment Anything 공식 웹사이트에서 확인할 수 있습니다.