CNN Model 소개(AlexNet, VGG, GoogleNet, ResNet, DenseNet)
Date:
CNN model
- ILSVRC 에서 우승했던 몇몇 모델을 정리해보고자 한다.
📌 ILSVRC(ImageNet Large Scale Visual Recognition Challenge)
- Classification/Detection/Localization/Segmentation
- 1000개의 카테고리
- 100만장의 이미지
- trainset은 46만장
AlexNet
- 8 Layer(60M)
- 11x11 convolution 사용
- ReLU(Rectified Linear Unit) activation function을 사용(non-linear) → Gradient가 1이기 때문에 gradient vanishing 같은 문제에 강함 → 선형적인 성질을 가지고 있음 → 좋은 generalization → 쉽게 최적화 할 수 있음
- GPI implementation(2 GPUs)
- Local Response Normalization, Overlapping pooling _ LRL?
- Data argumenation
- Dropout
VGGNet
- 총 19 layer(110M)
- 3x3 convolution filter 사용(여러 layer을 쌓아도 parameter의 숫자가 크게 늘지 않기 때문에 작은걸 사용, 요즘 7x7 넘는건 거의 사용안함)
- 1x1 convolution fully connected layers에서 사용
- Dropout(p=0.5)
❓왜 작을 수록 좋을까?
- convolution의 크기를 늘리는게 layer를 늘리는 것 보다 Parameter 숫자가 빨리 늘어남
- 요즘 추세는 convolution의 크기를 줄이고, layer를 쌓음
googLeNet
- 총 22 layer(4M)
- NIN(network in network)
- inception Block
- parameter의 숫자를 줄여줌
- 1x1 convolution은 channel방향으로 차원을 줄여줌
- 채널 방향으로 차원이 줄어들며 parameter 숫자가 줄어듦
=> 1x1 convolution과 dropout은 좀 비슷한건가?
ResNet
- 저자 kaiming he
- 차이를 학습시키는 모델(residual)
- input data를 output data 더해주는 방식
- 깊게 쌓아도 효과가 좋아짐
- skip-connection
- Bottle Nect구조
DenseNet
- ResNet은 input data를 output data와 더해주는 방식이었고, DenseNet은 그대로 이어주는 형태
- concatenation
📌reference
- boostcourse AI tech
💡 수정 필요한 내용은 댓글이나 메일로 알려주시면 감사하겠습니다!💡
댓글