핵심 개념
ADAM 최적화기는 매우 작은 학습률 한계에서 기저 상미분방정식(ODE)에 해당하며, 이를 고차 IMEX 이산화 기법으로 개선하여 신경망 학습 성능을 향상시킬 수 있다.
초록
이 연구는 신경망 학습에 널리 사용되는 ADAM 최적화기를 분석하고 개선하는 것을 목표로 한다.
ADAM 알고리즘은 매우 작은 학습률 한계에서 기저 상미분방정식(ODE)에 해당한다는 것을 보였다. 이 ODE를 암시적-명시적(IMEX) GARK 이산화 기법으로 풀면 ADAM 알고리즘이 도출된다.
이를 바탕으로 고차 IMEX 이산화 기법을 적용하여 새로운 최적화 알고리즘을 제안했다. 수치 실험 결과, 제안한 IMEX Trapezoidal Adam 알고리즘이 기존 ADAM에 비해 회귀 및 분류 문제에서 더 나은 성능을 보였다.
통계
신경망 학습 문제는 제약 없는 최적화 문제로 표현할 수 있다.
확률적 경사 하강법(SGD)은 대용량 데이터 처리를 위해 사용되지만 작은 배치에서 원치 않는 진동이 발생할 수 있다.
적응형 최적화 기법인 ADAM은 과거 gradient 정보를 활용하여 수렴 속도를 높인다.
ADAM은 매우 작은 학습률 한계에서 기저 상미분방정식(ODE)에 해당한다.
인용구
"ADAM 알고리즘은 매우 작은 학습률 한계에서 기저 상미분방정식(ODE)에 해당한다."
"고차 IMEX 이산화 기법을 적용하여 새로운 최적화 알고리즘을 제안했다."