• Activation functions in neural networks - IJEAST

    2022. 8. 6.

    by. 안녕진

    공부하며 읽은 논문을 간단하게 기록하기 위한 포스팅입니다.
    잘못된 정보가 있다면 댓글 남겨주시면 수정하도록 하겠습니다.
    감사합니다.

     

    🔎 [읽기 전]

    • 논문 제목 및 정보
    Activation functions in neural networks [링크]
    - IJEAST
    - Published Online April 2020 in IJEAST

     

    • 이 논문의 주제
    - the need of activation function
    - the need for non-linearity in NN
    - various activation functions

     

    • 읽게 된 이유
    hidden layer의 activation function을 별생각 없이 ReLU로 적용했는데,
    너무 근본 없이 생각한 것 같아서 관련 내용을 다룬 논문을 찾아다녔다.
    논문 읽어보는 게 처음이라, 흥미를 유지하기 위해서는 너무 어려운 건 피해야겠다고 생각했고, 그러던 중 눈에 띄었다.

     


    🔖 [읽는 중] 몰랐던 내용, 새로 알게 된 내용

    • 복잡한 학습을 시킬 때, linear activation function을 피하는 이유
    linear activation function을 사용하면, layer를 아무리 깊게 쌓아도 간단한 선형 함수로 표현되는데,
    [관련 내용이 정리된 포스팅]
    이는 복잡한 비선형적인 형태를 학습하기에 부적절하기 때문이다.

     

    • Universal Function Approximators
    Neural Network는 Universal Function Approximator라고도 불린다는데,
    어떤 함수든 계산하고 학습시킬 수 있다는 의미라고 한다.

    그렇다면 Neural Network 모델을 학습시키는 것은 어떤 복잡한 함수를 찾아내는 것이고,
    다시 말하면 NN으로 풀어야 하는 문제들은 "데이터들의 복잡한 함수 관계"를 찾아내는 것이라고 생각되어 재밌었다.

     

    • activation function의 출력 형태
    - 0에 대해 symmetric 한가?
    - 기울기 0인 부분이 생기는가? (dead)
    등의 특성들도 모델 학습에 영향을 미친다.

     

    • Swish function
    Google 연구자분들이 찾으셨다는 Swish function이라는 것은 처음 봤는데,
    Monotonic이 아니라는 점이 신기했다.

    activation function이 $f(x) = x$ 형태가 아니면 값을 변경시키긴 해도,
    뭔가 입력-출력에 관한 순서 관계는 유지돼야 한다고 생각해서 Monotonic 해야 한다고 생각했다.
    그런데 Monotonic이 아닌 이 함수가 ReLU보다 성능이 좋은 경우도 있다니 신기했다.

     


    📚 [읽은 후]

    • 더 찾아보고 싶은 내용
    - 0에 대해 symmetric 한 함수와 그렇지 않은 것의 차이
    - parameterized ReLU function의 parameter 'a'도 학습이 된다는데, 학습은 어떻게 시킬까?
    - Swish function
    - activation function을 정하는 법칙은 없다지만, 그래도 요즘 가장 많이 쓰는 것은 무엇일까?
    - vanishing gradient problem
    - outer layer에 ReLU를 사용하면 안 되는 이유? 정말 사용하면 안 되나?
    - dead neuron

    댓글