ULMFit : Transfer Learning for NLP
·
Programming/ML
위 그림의 원본은 https://www.researchgate.net/figure/Examples-of-three-stages-of-ULMFiT-training-a-training-on-general-domain-information_fig2_384502200 임. Averaged Stochastic Gradient Descent Weight-Dropped 3-Layer LSTM (AWD 3-Layer LSTM) 의 구조를 사용.상단의 learning rate에 대한 그래프들이 좌/우로 있는데,왼쪽은 layerindex $l$이 증가(upstream layer)할수록 학습률이 큼(Discrimitive Learning Rate)을 의미하고오른쪽은 학습이 진행($t$가 증가)될수록 학습률이 초기엔 증가하다..