1. Introduction
본 논문에서는 Convnet 아키텍처의 깊이를 주요 연구 대상으로 삼는다.
기존의 Convnet 구조에서 다른 주요 하이퍼파라미터는 고정하고 convolutional layers 개수를 점진적으로 증가하는 방식을 적용한다.
2. ConvNet Configurations
2.1 Architecture
입력 및 전처리 : 224X224 RGB 이미지
전처리 : 각 픽셀에서 훈련 세트의 평균 RGB 값을 뺌
컨볼루션 연산 : 3X3
stride = 1
padding = 1
Max-pooling : 2X2 윈도우, stride 2
컨볼루션 층 뒤에는 3개의 Fully Connected Layer
ReLU 활성화 함수 사용
2.2 Configurations
Table 1
- 네트워크 별로 기본 설계를 따르지만 깊이는 다름.
- 네트워크 A : 11개의 가중치 레이어 (8개 Convnet + 3ro FC)
- 왼쪽(A)에서 오른쪽(E)로 깊이가 증가하며 Layer가 더 많이 추가된다.
Table 2- 각 네트워크의 파라미터 개수가 제시됨- 깊이가 깊어져도 전체 파라미터 개수는 기존 네트워크와 크게 다르지 않음
2.3 Discussion
7X7 필터 1개 대신 3X3 필터 3개를 사용하면 어떻게 될까?3개의 비선형 활성화 함수(ReLU)를 삽입할 수 있어 비선형성을 증가시켜 모델이 더 잘 구분할 수 있게 돕는다.그리고 파라미터 개수가 줄어들면서 오버피팅을 줄이는 효과도 있다.
1X1 Conv Layer는 수용영역 크기를 유지하면서 비선형성을 증가시키는 좋은 방법이다.
Lin et al. (2014)의 "Network in Network" 아키텍처에서도 사용됐다.
3. Classification Framework
3.1 Training
- Optimization: multinomial Logistic Regression
- 최적화 알고리즘 : mini-batch gradient descent, momentum (0.9)
- Batch_size: 256
- Regularization : weight decay(Norm = 5*10^-4)
- Dropout : 0.5 (처음,두 개의 FC Layer에 대해 적용)
- Learning rate : 초기 0.01로 설정
-> validation accuracy가 더 이상 개선되지 않으면 학습률을 10배 감소
- 74 epochs후 학습 중지
- 데이터 전처리, 증강 : 224X224 랜덤 크롭, 수평 반전, RGB 색상 변환
- 훈련 이미지 크기 : 고정 스케일 (S=256, 284), 다중 스케일 (S=256~512)
3.2 Testing
1. 테스트 이미지 전처리
- 입력 이미지를 가장 짧은 변 크기로 비율 유지하며 리사이징
2. 밀집 평가
- FC 층을 컨볼루션 층으로 변환해서 전체 이미지를 한 번에 처리
3. 테스트 이미지 증강
- 이미지 수평 반전
4. 멀티 크롭 평가
- 다중 크롭을 사용한 평가도 수행
3.3 Implementation Details
1. 프레임워크 및 병렬 처리
- 멀티 GPU 학습 지원
2. 멀티 GPU 학습 방식
- 데이터 병렬 처리 활용
4. Classification Experiments
4.1 Single Scale Evaluation
- A-LRN 모델이 A 모델보다 성능이 낮다 -> 깊은 네트워크에서는 불필요하다.- 깊이가 깊을 수록 성능 향상 -> 11층(A)에서 19층(E)로 깊이가 증가할 수록 오류율 감소- 깊은 네트워크가 얕은 네트워크보다 성능이 뛰어남 -> B 모델을 3X3 2개 대신 5X5 1개 사용하니 Top-1 오류율 7% 증가- 다중 스케일 훈련 성능 향상
4.2 Multi-Scale Evaluation
- 테스트 시, 다영한 크기의 이미지 사용
- 다중 스케일 테스트가 단일 스케일 테스트보다 성능 향상 -> 가장 깊은 모델 (D,E) 가장 좋은 성능
4.3 Multi-Crop Evaluation
- 다중 크롭 평가
Dense Evaluation: 컨볼루션을 전체 이미지에 적용하여 공간 평균 풀링 수행
Multi-Crop Evaluation: 50개 크롭 후 예측 평균
Dense + Multi-Crop: 두 기법을 결합
-> Multi-Crop > Dense / Dense + Multi-Crop > 개별 기법
4.4 Convnet Fusion
- 여러 모델의 Softmax 출력을 평균해서 성능 향상
4.5 Comparison With The State Of The Art
5. Conclusion
이 연구에서는 최대 19개의 가중치 레이어를 가진 컨볼루션 산경망을 대규모 이미지 분류에 적용하였다.
주요 결론은 깊이가 깊을 수록 분류 정확도가 향상되고 단순한 컨볼루션 아키텍처로도 높은 성능과 복잡한 인식 파이프라인이 없어도 좋은 성능을 보여줬다.
'Paper Review' 카테고리의 다른 글
[Paper Review] [CV] Going deeper with convolutions (0) | 2025.03.26 |
---|---|
[Paper Review] [CV] Visualizing and Understanding Convolutional Networks (0) | 2025.03.20 |
[Paper Review] [CV] Network In Network (0) | 2025.03.19 |
[Paper Review][CV] ImageNet Classification with Deep ConvolutionalNeural Networks (0) | 2025.03.13 |
[Paper Review][CV] GradientBased Learning Applied to DocumentRecognition (0) | 2025.03.12 |