https://www.youtube.com/watch?v=fXOsFF95ifk&list=PL1w8k37X_6L9t36xF0lt0kpHWJemk3uwr&index=25

Neural Network Overview (C1W3L01)

image

superscript [i]는 몇번째 layer인지를 말한다. superscript (i) 는 몇번째 데이터표본인지 말한다. 


https://www.youtube.com/watch?v=CcRkHl75Z-Y&list=PL1w8k37X_6L9t36xF0lt0kpHWJemk3uwr&index=26

Neural Network Representations (C1W3L02)

image

a 0 layer는 input layer이며 이는 총 layer 갯수를 말할때 포함시키지 않는다.

a 는 실제로 logistic regression연산( features 와 weight간의 product연산과 sigmoid나 tanh, ReLU 연산 )을 마친 계산 결과 값이다. superscript 숫자는 layer숫자를 나타낸다. 각 layer에 있는 w matrix를 보면 행갯수는 그 layer에서의 unit갯수이며 열갯수는 앞 단계 layer의 features갯수임에 유의한다.


https://www.youtube.com/watch?v=rMOdrD61IoU&list=PL1w8k37X_6L9t36xF0lt0kpHWJemk3uwr&index=27

Computing Neural Network Output (C1W3L03)

image
image

위 그림에서 transpose 는 row vector를 column vector로 만들어 주기 위해 사용되었다.

image


https://www.youtube.com/watch?v=xy5MOQpx3aQ&list=PL1w8k37X_6L9t36xF0lt0kpHWJemk3uwr&index=28

Vectorizing Across Multiple Examples (C1W3L04)

image

vectorization을 사용하기 전의 모습이다.

image

matrix로 만들어 정리할때 좌우로는 각각의 데이터표본에 대한 값을 가지게 하고 상하로는 node(unit)에 대한 값을 가지게 한다. 일정하게 규칙을 유지하는 것에 유의한다.


https://www.youtube.com/watch?v=kkWRbIb42Ms&list=PL1w8k37X_6L9t36xF0lt0kpHWJemk3uwr&index=29

Explanation For Vectorized Implementation (C1W3L05)

image

우선강의의 편의를 위해서 b가 없는 상태에서 개념을 확대해 나가는 방향으로 설명했다. b는 추가로 마지막에 더해주기만 하기 때문이다. 각각의 칼럼이 하나의 데이터표본에 대한 데이터이며 이것이 계속 유지되가는 점에 유의한다.

image


https://www.youtube.com/watch?v=Xvg00QnyaIY&list=PL1w8k37X_6L9t36xF0lt0kpHWJemk3uwr&index=30

Activation Functions (C1W3L06)

image

activation function으로 sigmoid 대신 다른 함수를 대부분이용한다. sigmoid는 마지막 outlayer에서만 쓰거나 binary classification을 해야하는 경우만 사용한다. 대부분 tanh나 ReLU를 사용한다. 가끔 leaky relu를 사용하기도 한다. relu, leaky relu가 sigmoid보다 learning 속도가 빠르다. 

image


https://www.youtube.com/watch?v=NkOv_k7r6no&list=PL1w8k37X_6L9t36xF0lt0kpHWJemk3uwr&index=31

Why Non-linear Activation Functions (C1W3L07)

image

nn에서 activation func 없다면 우측 하단처럼 linear 결과가 나온다. 여러번 layer를 거치더라도 linear 결과가 나오게 되는데 그렇다면 여러겹의 layer를 만드는 이유가 없어지게 된다. 


https://www.youtube.com/watch?v=P7_jFxTtJEo&list=PL1w8k37X_6L9t36xF0lt0kpHWJemk3uwr&index=32

Derivatives Of Activation Functions (C1W3L08)

image
image
image

relu, leaky relu에서 z 값 0 은 0.00000 … 1 처럼 아주 작은 숫자로 생각하므로 그 점에서의 도함수 값은 1로 본다.


https://www.youtube.com/watch?v=7bLEWDZng_M&index=33&list=PL1w8k37X_6L9t36xF0lt0kpHWJemk3uwr

Gradient Descent For Neural Networks (C1W3L09)

image
image

numpy.sum 에서 사용된 keepdims 옵션값을 true로 하면 명확한 사이즈의 matrix가 된다. 두번째 옵션은 axis이다.


https://www.youtube.com/watch?v=yXcQ4B-YSjQ&list=PL1w8k37X_6L9t36xF0lt0kpHWJemk3uwr&index=34

Backpropagation Intuition (C1W3L10)

image

derivative 참고자료 )

시그모이드 도함수   https://math.stackexchange.com/questions/78575/derivative-of-sigmoid-function-sigma-x-frac11e-x

로지스틱 리그래션 cost 함수의 도함수   https://math.stackexchange.com/questions/2585977/understanding-partial-derivative-of-logistic-regression-cost-function


https://www.youtube.com/watch?v=yXcQ4B-YSjQ&list=PL1w8k37X_6L9t36xF0lt0kpHWJemk3uwr&index=34

Backpropagation Intuition (C1W3L10)

image
image
image

하단부분에 elementwise product임에 유의한다.


https://www.youtube.com/watch?v=6by6Xas_Kho&index=35&list=PL1w8k37X_6L9t36xF0lt0kpHWJemk3uwr

Random Initialization (C1W3L11)

weight 값을을 다 0으로 하는 경우 계산이 진행되어도 계속 같은 값들을 가지게 된다. 그러므로 초기에 랜덤으로 작은 수의 초기값을 정해 주어야 한다. 초기값이 크면 아래그림에서 처럼 z값이 커지게 되고 그렇게 되면 sigmoid의 경우 기울기가 평평한 지점에서 값을 형성하게 된다. 그렇게 되면 z값이 크게 변경이 되더라도 sigmoid계산 값은 변화가 없으므로 최적값을 구하는 과정이 길어지게 된다. 아래 그림과 같이 0.01을 추천하고 있다.

Comments are closed.

Post Navigation