본문 바로가기

Deep Learning6

VGG-16, VGG-19, 2014 1. VGG 개요 VGG는University of Oxford의 Visual Geometry Group에서 제안한 ILSVRC, 2014 대회에서 준우승한 CNN 구조 (VGG-19)입니다. 2014 대회의 우승은 GoogLeNet (inception - v1)이 차지했지만, VGG의 구조가 워낙 간결해서 더 많은 인기를 얻었습니다. Simonyan et al., 2014 연구의 핵심은 네트워크의 깊이를 깊게 만드는 것과 모델 성능의 관계를 확인하는 것이었습니다. 때문에 kernel의 크기를 3x3으로 고정하고 layer를 깊게 만들어가며 성능을 비교했습니다. 논문에 실려있는 위 그림 Fig. 1에 다양한 VGG 실험 결과가 있습니다. 먼저 A, A-LRN에서는 구조 A에 Local Response No.. 2023. 2. 20.
Bahdanau Attention 이번 포스팅에서는 Neural Machine Translation 영역에서 Attention Mechanism의 효시가된 Bahdanau Attention에 대해서 다뤄보겠습니다. Bahdanau Attention은 2014에 처음 등장한 이후, Attetion이라는 새로운 접근법 아래 활발한 연구와 발전을 이루며 기계 번역이 크게 성장했습니다. Why Attention? 지난 포스팅에서 Seq2Seq을 살펴봤습니다. 고정된 크기의 input과 output을 처리하던 전통적인 Recurrent Neural Networks에서 가변적 길이의 input, output을 처리할 수 있는 방법이었습니다. Seq2seq은 크게 Encoder Part와 Decoder Part로 구분되어 있습니다. Encoder에서.. 2021. 11. 24.
Seq2seq Model (Sequence to Sequence Model) 개요 이번 포스팅에서는 Sequence to Sequence (Seq2seq) Model에 대해서 알아보겠습니다. Seq2seq 모형은 LSTM(또는 GRU) 기반 모형으로 고정된 길이의 sequence를 입력받아, 입력 sequence에 알맞은 길이의 sequence를 출력해주는 모형으로 2014, Google et. al에 최초 제안되었습니다. 왜? Deep Neural Networks (DNNs)은 다양한 분야에서 좋은 성과를 거두어 왔습니다. 다만 DNNs은 고정된 차원의 feature와 고정된 차원의 출력에 특화된 방법입니다. 그래서 입력과 출력의 길이가 그때 그때 다른 데이터를 학습하고, 이를 응용하는 문제에는 적합하지 않습니다. 대표적으로 기계 번역 문제를 생각할 수 있습니다. 기계 번역은 .. 2020. 4. 20.
Autoencoder (오토인코더) 이번 포스팅을 시작으로 single autoencoder부터 다양한 autoencoder를 포스팅 할 예정입니다. Autoencoder는 역사적으로도 굉장히 중요한 의미가 있습니다. 다층신경망 학습시 기울기 소실문제와 가중치 초기 값에 영향을 많이 받아 학습이 어려운 문제가 있었는데 G. E. Hinton, 2006에 의해서 Restrited Boltzmann Machine을 이용하여 가중치 초기값을 구축하고, 기울기 강하법을 적용햇더니 학습이 잘 된다는 것이 밝혀져 deep learning의 부흥을 이끌었기 때문입니다. 하지만 사실 현대 딥러닝 생태계에서는 학습방법의 발전으로 과거처럼 RBM으로 초기 값을 지정하진 않습니다. 또한 현대에 이르러선 autoencoder는 처음엔 비지도 학습 (unsupe.. 2020. 1. 14.
Gradient Descent Algorithms 본 내용은 "An overview of gradient descent optimization algorithms."을 참고하여 작성하였습니다. 기울기 강하법 기본 포스팅에서 기울기 강하법의 기초적인 내용과 강하법시 이용되는 데이터의 크기에 따라서 Batch, Mini-Batch, Stochastic Gradient Descent를 구분했습니다. 위 세 가지 알고리즘을 편의상 앞에 "Vanilla(기본의)"를 붙여부르도록 하겠습니다. 용어의 혼란을 줄이기 위해 첨언하면, 통상적으로 딥러닝 프레임워크(tensorflow, keras 등)에 적용된 Batch Gradient라는 컨셉은 Mini-batch를 의미합니다. Challenges Vanilla Mini-batch Gradient Descent는 좋은 .. 2019. 5. 30.
Perceptron (Deep Learning의 시작) 간략한 Deep Learning의 역사 F. Rosenblatt의 Perceptron모형부터 현재 GAN, R-CNN에 이르기 까지의 간략한 역사입니다. Deep Learning 관련 포스팅은 크게 역사 기반 진행될 예정입니다:) 먼저 Rosenblatt의 Perceptron 모형부터 시작하겠습니다. Perceptron (단층퍼셉트론) 퍼셉트론 모형은 1958년 F. Rosenblatt이 최초 고안한 모형으로 현재 딥러닝의 효시가 되었습니다. 퍼셉트론 모형은 단순히 입력 변수($x$)와 가충치($w$)의 곱이 thereshold($\theta$)보다 크면, 1, 아니면 0으로 분류하는 모형입니다. 간단히 수식으로 나타내면, $$x^{\top}w+b\geq\theta\rightarrow 1$$가 됩니다. .. 2019. 5. 24.