728x90 반응형 딥러닝 머신러닝/정리8 Self-Attention와 Multi-Head Attention Self- Attention Attention 자연어 처리(NLP) 분야에서 'Attention'은 혁신적인 발전을 가져왔습니다. 기존의 Seq2Seq 모델에서의 한계를 극복하며 더욱 정밀하고 정교한 번역이 가능해졌습니다. 이번에는 Attention 메커니즘의 기 gogomake.tistory.com 저번 포스팅에서 Attention의 개념과 계산하는 과정을 설명했습니다. 이번 포스팅에서는 이어서 Query, Key, Value를 설명하고 Self-Attention에 대해 설명하겠습니다. 만약 Attention 개념이 생소하다면, 위 포스팅을 다시 참고하시길 바랍니다. Query, Key, Value 이전에 설명한 Attention의 과정입니다. 여기서 Query, Key 그리고 Value를 표시하면 다.. 2023. 10. 4. Attention 자연어 처리(NLP) 분야에서 'Attention'은 혁신적인 발전을 가져왔습니다. 기존의 Seq2Seq 모델에서의 한계를 극복하며 더욱 정밀하고 정교한 번역이 가능해졌습니다. 이번에는 Attention 메커니즘의 기본 원리와 그 작동 방식에 대해 상세히 알아보도록 하겠습니다. Attention Attention은 Seq2Seq의 문제점을 극복하기 위해 나타났습니다. Seq2Seq는 NLP에서 널리 사용하는 구조로, 입력 시퀀스를 Encoder에 전달하고, 그 결과를 Decoder로 출력하여 변환된 시퀀스를 얻는 구조입니다. Seq2Seq의 주요 문제점은 고정된 크기의 Latent vector가 긴 입력정보를 충분히 담지 못한다는 것입니다. 즉, 정보의 손실이 발생할 수 있습니다. 이를 해결하기 위해 A.. 2023. 9. 23. LSTM(Long Short-Term Memory) 이번에는 LSTM의 기본구조와 동작방식을 알아보고 어떻게 RNN의 문제를 해결했는지 알아보겠습니다. LSTM(Long Short-Term Memory) RNN(Recurrent Neural Network) RNN은 시퀀스 데이터를 처리하는 네트워크 구조 중 하나입니다. 이 네트워크 구조를 통해 자연어 처리, 비디오 인식 등에 활용하고 있습니다. 이번에는 RNN의 기본 구조와 원리에 대한 소개를 시 gogomake.tistory.com 이전 시간에 RNN(Recurrent Neural Networks)에 대해 알아보았습니다. RNN의 단점으로 정보가 긴 Time Steps을 지나면 이전의 정보가 손실되는 문제가 있습니다. 이 문제를 해결하기 위해 개발된 것이 LSTM(Long Short-Term Memor.. 2023. 9. 16. RNN(Recurrent Neural Network) RNN은 시퀀스 데이터를 처리하는 네트워크 구조 중 하나입니다. 이 네트워크 구조를 통해 자연어 처리, 비디오 인식 등에 활용하고 있습니다. 이번에는 RNN의 기본 구조와 원리에 대한 소개를 시작으로, 시간 스텝이 길어질수록 정보가 어떻게 손실되는지 알아보겠습니다. RNN (Recurrent Neural Network) 이번에는 딥러닝의 한 분야인 RNN에 대해 설명하겠습니다. RNN은 Recurrent Neural Network의 줄임말이며 이는 반복되는 뉴럴 네트워크라는 의미입니다. 그렇다면, 반복되는 뉴럴 네트워크?? 이게 무슨 말일까요? RNN 네트워크 구조 일단, 일반적인 뉴럴 네트워크 구조는 다음과 같습니다. 이 구조가 수백 개, 수천 개가 있어도 기본적인 형태는 비슷하게 유지됩니다. 다음은 .. 2023. 9. 12. 평균 제곱 오차(Mean Squared Error, MSE) 이전 시간에 오차제곱합의 개념을 설명했습니다. 오차제곱합(Sum of Squares for Error, SSE) 손실함수에서 오차제곱합는 대표적으로 사용되는 기법 중 하나입니다. 이번 글에서는 그 개념에 대해 알아보겠습니다. 오차제곱합을 알아보기 전에, 먼저 오차를 구해보겠습니다. $$ Error = Ture - gogomake.tistory.com 오차제곱합의 수식은 다음과 같습니다. $$ \frac{1}{2} \sum_k (y_k-t_k)^2 $$ 이 오차제곱합을 데이터의 개수 $n$으로 나누면, 평균 제곱 오차(Mean Squared Error, MSE)를 얻을 수 있습니다. 이는 각 데이터 포인트의 오차 제곱의 평균을 나타내며, 수식으로 표현하면 다음과 같습니다. $$ \frac{1}{2} \fr.. 2023. 9. 11. 오차제곱합(Sum of Squares for Error, SSE) 손실함수에서 오차제곱합는 대표적으로 사용되는 기법 중 하나입니다. 이번 글에서는 그 개념에 대해 알아보겠습니다. 오차제곱합을 알아보기 전에, 먼저 오차를 구해보겠습니다. $$ Error = Ture - Pred $$ 정말 간단하죠? 이제 여기서 전체 오차합을 구해봅시다. $$ \sum (True - Pred) $$ 아주 쉽습니다. 그런데 여기서 문제가 있습니다. 바로 오차에 음수가 나오면, 오차의 합의 크기가 작아집니다. 예를 들겠습니다. 오차 1 = 1, 오차 2 = 5, 오차 3 = 4가 있습니다. 이들의 합은 10입니다. 여기서 오차 4(-10)를 추가합니다.그럼 오차의 합은 0이 됩니다. 각각 오차가 있음에도 불구하고, 결과적으로 오차가 없다고 나와서 문제가 생깁니다. 이를 예방하는 방법이 무엇일.. 2023. 9. 10. 교차 엔트로피 오차(Cross Entropy Error, CEE) 손실함수에서 교차엔트로피는 대표적으로 사용되는 기법 중 하나입니다. 이번 글에서는 그 개념에 대해 알아보겠습니다. 교차 엔트로피 오차의 수식은 다음과 같습니다. $$ E = -\sum_{k}t_k\log y_k $$ $t_k$는 정답데이터로, 정답인 경우 1 나머지는 0으로 채워져 있습니다. $y_k$는 예측 확율로, 보통 softmax함수를 사용해서 각각의 값이 0과 1사이 값을 갖습니다. 그리고 그의 합은 1이 됩니다. 그렇다면, '-'부호의 의미가 무엇일까요? 이를 이해하기 위해, 먼저 log 그래프를 살펴보겠습니다. 우리가 알고 있는 log그래프는 검정색 실선입니다. $x$가 0에 가까울수록 음의 무한대에 가까워지고 1에 가까워질수록 0에 근접합니다. 손실함수의 목적은 예측값과 실제값의 차이를 측.. 2023. 9. 8. mAP(Mean Average Precision)란? 최근 Yolo논문을 봤는데, mAP로 모델 성능을 평가하고 다른 모델과 비교하는 내용이 포함되어 있습니다. mAP는 R-CNN, Yolo와 같은 객체 감지 모델의 성능을 분석하는데 사용됩니다. 그렇다면, 의문이 생깁니다. "mAP는 뭐하는 녀석이지? mAP는 큰 값이 좋은 건가? 작은 값이 좋은 건가?" mAP mAP를 이해하기 위해서는 Confusion Matrix와 Precision, Recall에 대한 지식이 있어야 합니다. 이에 대한 자세한 내용은 다음에 기회에 정리하겠습니다. (사실, 작성하다가 자료가 사라졌습니다.) mAP에서 중요한 것은 PR Curve와 AP입니다. PR Curve (Precision-Recall Curve) Confusion Matrix에서 Precision과 Recall.. 2023. 8. 30. 이전 1 다음 728x90 반응형