Subgradient 와 Gradient Descent
·
Programming/ML
Prerequistes모델 학습의 목표는손실 함수 $L(\boldsymbol{\omega}, \textbf{X})$를 최소화하는파라미터 $\boldsymbol{\omega}$를 찾는 것임.이때 가장 기본적인 최적화 방법은 Gradient Descent(경사 하강법)임:$$\boxed{\boldsymbol{\omega}_{t+1} = \boldsymbol{\omega}_t - \eta \nabla_{\boldsymbol{\omega}} L(\boldsymbol{\omega}_t, \textbf{X})}$$where,$\boldsymbol{\omega}_t$: $t$번째 스텝의 파라미터$\eta > 0$: 학습률(learning rate)$\nabla_{\boldsymbol{\omega}} L(\boldsy..
[ML] Gradient Descent Method: 경사하강법
·
Programming
Gradient Descent Method (경사하강법) : 1. 정의 및 수식Steepest Gradient Descent Method로도 불리는Gradient Descent Method(경사하강법)는 여러 Optimization 방법 중 가장 많이 사용되는 방법들 중 하나임.training set $X$와 현재 $t$에서의 모델의 parameters $\boldsymbol{\omega}_t$의Loss function $L(\boldsymbol{\omega}_t, X)$에서모델의 parameters $\boldsymbol{\omega}_t$에 대한 Gradient vector $\nabla_{\boldsymbol{\omega}} L(\boldsymbol{\omega}_t,X)$를 구하고,이 Grad..
[Math] Derivative of Logistic Function
·
.../Math
Derivative (도함수) of Logistic Function (Sigmoid라고도 불림) $y=\sigma(x)=\dfrac{1}{1+e^{-x}}$ 를 미분하면 다음과 같음. $$\frac{d}{dx}\sigma(x)= \sigma(x)(1-\sigma(x))$$ graph 유도 유도는 다음과 같음. $$\begin{aligned}\frac{d}{dx}\sigma(x)&= \dfrac{0\times(1+e^{-1}) - 1\times(-e^{-1})}{(1+e^{-x})^2}\\&=\dfrac{e^{-x}}{(1+e^{-x})^2}\\ &= \frac{1}{(1+e^{-x})}\frac{e^{-x}}{(1+e^{-x})}\\ &= \frac{1}{(1+e^{-x})}\left( 1-\dfrac{..
[Math] Gradient (구배, 기울기, 경사, 경도) Vector
·
.../Math
Gradient (구배, 기울기, 경사, 경도), $\nabla f(\textbf{x})$Multi-Variate Function (=Scalar Field, Multi-Variable Function) $f(\textbf{x})$에서 input $\textbf{x}$의 미세한 변화에 대해 (scalar) output이 1) 가장 가파르게 증가하는 direction(방향)과 2) 그 증가하는 변화율의 정도를 magnitude(크기)로 가지는 Vector Field (Multi-Variable Vector Valued Function)를 구하는 것이바로 Gradient $f(\textbf{x})$=$\nabla f(\textbf{x})$임. Gradient를 통해, scalar field $f(\textb..
[Math] Jacobian : Summary
·
.../Math
이 문서는 Numerator Layout Convention을 따름.Jacobian은 vector field (or multi-variate vector-valued function)에 대한 1st order derivative에 해당함.정의input과 output이 vector인 vector function(←vector field, $\textbf{f}:\mathbb{R}^n\to\mathbb{R}^m$)을 input vector로 미분!→ Jacobian matrix ($m \times n$ matrix) : row는 output, column은 input에 해당(column vector사용시)Take $\textbf{f}: \mathbb{R}^n \rightarrow \mathbb{R}^m$ a ..