본문 바로가기
딥러닝

U-Net과 Transformer 비교 + 관련 개념 정리

by 우당탕탕 is me 2024. 7. 30.

참고자료 ➡️ https://www.boostcourse.org/ai111/lecture/1108319

 

딥러닝 기초 다지기

부스트코스 무료 강의

www.boostcourse.org

 

U-Net

https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/

 

세부 구조와 계산:

1. 컨볼루션(Convolution):

  •   커널을 사용하여 입력 이미지에서 특징을 추출함.
  •   커널은 학습 가능한 매개변수로, 이미지의 공간적 특징을 학습함.
  •   컨볼루션 연산의 수식: 

  1. 풀링(Pooling):
    •   최대 풀링(Max Pooling) 또는 평균 풀링(Average Pooling)을 사용하여 특징 맵의 크기를 줄임.
    •   최대 풀링의 경우, 작은 영역 내에서 최대 값을 선택하여 다운샘플링 함.
  2. 업샘플링(Up-sampling):
    •   디컨볼루션(Transposed Convolution) 또는 업샘플링(Interpolation)을 사용하여 이미지 크기를 복원.
    •   디컨볼루션은 컨볼루션의 역연산으로, 특징 맵을 업샘플링 함.
  3. 스킵 연결(Skip Connections):
    •   인코더 단계의 출력 특징 맵을 디코더 단계에 직접 연결하여, 세부 정보를 보존.
    •   이로 인해 고해상도 세부 정보를 활용할 수 있음.

A Perfect guide to Understand Encoder Decoders in Depth with Visuals: https://medium.com/@ahmadsabry678/a-perfect-guide-to-understand-encoder-decoders-in-depth-with-visuals-30805c23659b

 

 

활용 및 응용:

  •  의료 영상 분할:
    •   세포, 장기, 병변 등의 분할에 사용.
    •   예시: 뇌 MRI 영상에서 종양 분할.
  • 위성 이미지 분석:
    •   지리적 특징 분할, 토지 유형 분류 등에 사용됨.
  • 생물학적 이미지 분석:
    •   세포 구조 분할, 단백질 이미지 분석 등에 활용됨.

 

Transformer

 

세부 구조와 계산:

  1. Self-Attention:
    •   입력 시퀀스의 각 요소가 다른 모든 요소와의 관계를 학습함.
    •   각 요소의 가중치를 계산하여 중요도를 반영함.
    •   쿼리, 키, 값 행렬을 통해 자기 주의 메커니즘을 구현함.
    •   어텐션 연산의 수식: 
  2. 멀티헤드 어텐션(Multi-Head Attention):
    •   여러 개의 독립적인 어텐션 헤드를 사용하여 다양한 관점에서 정보를 학습함..
    •   각 헤드의 출력을 결합하여 더 풍부한 표현을 만듦.
    •   멀티헤드 어텐션의 수식: 
  3. 포지셔널 인코딩(Positional Encoding):
    •   입력 데이터의 순서 정보를 반영하기 위해 위치 인코딩을 추가함.
    •   이는 Transformer가 순서가 있는 데이터를 처리할 수 있음.
    •   포지셔널 인코딩의 수식:
  4. 피드포워드 신경망(Feed-Forward Neural Network):
    •   어텐션 레이어의 출력을 추가적인 비선형 변환을 통해 처리함.
    •   각 레이어는 두 개의 선형 변환과 ReLU 활성화 함수로 구성됨.

 

 

활용 및 응용:

  • 자연어 처리(NLP):
    •   번역, 텍스트 생성, 문장 분류 등 다양한 작업에 사용됨.
    •   예시: BERT, GPT 시리즈.
  • 컴퓨터 비전:
    •   이미지 분류, 객체 탐지, 이미지 생성 등에 사용됨.
    •   예시: Vision Transformer (ViT).
  • 음성 인식 및 합성:
    •   음성 데이터의 처리 및 변환에 사용됨.
    •   예시: Speech-Transformer.

 

관련 개념

  1. 컨볼루션 신경망(CNN):
    •   이미지 데이터를 처리하는 데 최적화된 신경망 구조.
    •   특징 추출을 위해 컨볼루션 레이어와 풀링 레이어를 사용함.
    •   대표적인 모델: AlexNet, VGG, ResNet.
  2. 순환 신경망(RNN):
    •   순서가 있는 데이터를 처리하기 위한 신경망 구조.
    •   시퀀스 데이터를 처리하는 데 최적화되어 있음.
    •   대표적인 모델: LSTM, GRU.
  3. 전이 학습(Transfer Learning):
    •   사전 학습된 모델을 다른 작업에 재사용하여 훈련 시간을 단축하고 성능을 향상시킴.
    •   이미지 처리에서 많이 사용되며, 사전 학습된 CNN 모델을 활용함.
  4. 자기 회귀 모델(Autoregressive Model):
    •   이전 단계의 출력을 다음 단계의 입력으로 사용하는 모델.
    •   시퀀스 데이터의 예측에 사용됨.
    •   대표적인 모델: ARIMA, RNN 기반 모델.
  5. 비지도 학습(Unsupervised Learning):
    •   레이블이 없는 데이터를 학습하여 숨겨진 구조를 발견함.
    •   클러스터링, 차원 축소, 밀도 추정 등의 기법이 포함됨.
    •   대표적인 모델: K-평균 클러스터링, PCA, Autoencoder.

 

➡️ U-Net과 Transformer는 각각 이미지 분할과 다양한 시퀀스 데이터 처리에 최적화된 모델.

U-Net은 이미지의 고해상도 세부 정보를 잘 보존하여 높은 분할 성능을 보여줌.

Transformer는 어텐션 메커니즘을 통해 장거리 의존성을 잘 학습하여 문맥 정보를 효과적으로 반영함.

728x90
반응형

'딥러닝' 카테고리의 다른 글

최적화 용어 정리  (0) 2024.08.25
Neural Network & MLP 개념 정리  (0) 2024.08.22
Neural Networks - MLP  (0) 2024.07.28
딥러닝 Historical Review - 고려대학교 최성준 교수님  (0) 2024.04.11
데이터의 분리(Splitting Data)  (0) 2024.04.09