-
공부하며 읽은 논문을 간단하게 기록하기 위한 포스팅입니다.
잘못된 정보가 있다면 댓글 남겨주시면 수정하도록 하겠습니다.
감사합니다.🔎 [읽기 전]
- 논문 제목 및 정보
Activation functions in neural networks [링크]
- IJEAST
- Published Online April 2020 in IJEAST- 이 논문의 주제
- the need of activation function
- the need for non-linearity in NN
- various activation functions- 읽게 된 이유
hidden layer의 activation function을 별생각 없이 ReLU로 적용했는데,
너무 근본 없이 생각한 것 같아서 관련 내용을 다룬 논문을 찾아다녔다.
논문 읽어보는 게 처음이라, 흥미를 유지하기 위해서는 너무 어려운 건 피해야겠다고 생각했고, 그러던 중 눈에 띄었다.
🔖 [읽는 중] 몰랐던 내용, 새로 알게 된 내용
- 복잡한 학습을 시킬 때, linear activation function을 피하는 이유
linear activation function을 사용하면, layer를 아무리 깊게 쌓아도 간단한 선형 함수로 표현되는데,
[관련 내용이 정리된 포스팅]
이는 복잡한 비선형적인 형태를 학습하기에 부적절하기 때문이다.- Universal Function Approximators
Neural Network는 Universal Function Approximator라고도 불린다는데,
어떤 함수든 계산하고 학습시킬 수 있다는 의미라고 한다.
그렇다면 Neural Network 모델을 학습시키는 것은 어떤 복잡한 함수를 찾아내는 것이고,
다시 말하면 NN으로 풀어야 하는 문제들은 "데이터들의 복잡한 함수 관계"를 찾아내는 것이라고 생각되어 재밌었다.- activation function의 출력 형태
- 0에 대해 symmetric 한가?
- 기울기 0인 부분이 생기는가? (dead)
등의 특성들도 모델 학습에 영향을 미친다.- Swish function
Google 연구자분들이 찾으셨다는 Swish function이라는 것은 처음 봤는데,
Monotonic이 아니라는 점이 신기했다.
activation function이 $f(x) = x$ 형태가 아니면 값을 변경시키긴 해도,
뭔가 입력-출력에 관한 순서 관계는 유지돼야 한다고 생각해서 Monotonic 해야 한다고 생각했다.
그런데 Monotonic이 아닌 이 함수가 ReLU보다 성능이 좋은 경우도 있다니 신기했다.
📚 [읽은 후]
- 더 찾아보고 싶은 내용
- 0에 대해 symmetric 한 함수와 그렇지 않은 것의 차이
- parameterized ReLU function의 parameter 'a'도 학습이 된다는데, 학습은 어떻게 시킬까?
- Swish function
- activation function을 정하는 법칙은 없다지만, 그래도 요즘 가장 많이 쓰는 것은 무엇일까?
- vanishing gradient problem
- outer layer에 ReLU를 사용하면 안 되는 이유? 정말 사용하면 안 되나?
- dead neuron댓글