스쿼드과제 - LLM 관련 논문 요약

논문요약이라고는 했지만 아직 내용을 잘 이해하기 힘들기 때문에 Abstract부분이라도 읽어보도록하자...

Attention Is All You Need

The dominant sequence transduction models are based on complex recurrent or convolutional neural networks that include an encoder and a decoder. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train. Our model achieves 28.4 BLEU on the WMT 2014 Englishto-German translation task, improving over the existing best results, including ensembles, by over 2 BLEU. On the WMT 2014 English-to-French translation task, our model establishes a new single-model state-of-the-art BLEU score of 41.8 after training for 3.5 days on eight GPUs, a small fraction of the training costs of the best models from the literature. We show that the Transformer generalizes well to other tasks by applying it successfully to English constituency parsing both with large and limited training data.

지배적인 시퀀스 변환 모델은 인코더와 디코더를 포함하는 복잡한 순환 신경망(RNN) 또는 합성곱 신경망(CNN)에 기반하고 있습니다. 성능이 가장 우수한 모델들은 인코더와 디코더를 주의(attention) 메커니즘으로 연결합니다. 우리는 반복(recurrence)과 합성곱(convolution)을 완전히 제거하고, 오로지 주의 메커니즘만을 기반으로 하는 새로운 단순 네트워크 아키텍처인 Transformer를 제안합니다. 두 가지 기계 번역 작업에 대한 실험 결과, 이 모델들이 품질 면에서 더 우수하며 병렬화가 더 용이하고 훈련 시간도 현저히 적게 필요함을 보여주었습니다. 우리 모델은 WMT 2014 영어-독일어 번역 작업에서 28.4 BLEU 점수를 기록하여, 기존의 최고 성능 모델들(앙상블 포함)을 2 BLEU 이상 초과하는 성과를 달성했습니다. WMT 2014 영어-프랑스어 번역 작업에서는, 우리 모델이 단일 모델로서 새로운 최첨단 BLEU 점수인 41.8을 기록했으며, 이는 8개의 GPU에서 3.5일간 훈련한 결과입니다. 이는 기존 문헌에 나와 있는 최고 성능 모델들의 훈련 비용에 비해 매우 적은 비용입니다. 우리는 Transformer가 영어 구문 분석(English constituency parsing) 작업에서도 대규모 및 제한된 훈련 데이터 모두에서 성공적으로 적용되어 잘 일반화됨을 보여주었습니다.

해당 부분을 보고 알게된점.

해당 모델은 번역작업에서 기존의 모델보다 번역의 품질, 훈련시간면에서 더 우수하다.
영어 - 독일어 번역을 기준으로 측정했다.
++ 가장 중요한 것: 내가 이 분야에 대해서 정말 아는 것이 없다는 것.

뒤에 나오는 부분도 번역해서 읽어보려고 했지만 의미가 없었다. 분명히 번역한 문장을 읽고 있었지만 한국어가 아닌 느낌... 그래도 그나마, 정말 그나마 다행인 점은 용어 자체가 낯설지는 않았다는 것이다.

취득하기 어려운 자격증은 아니지만 전에 ADsP를 공부했던 적이 있었고 그때 보았던 단어들이 여럿 보였기 때문이다.

RNN이라던지 CNN이라던지... 이 단어들이 정확하게 어떤 역할을 하고 어떤 기능을 가지고 있는지는 모르지만 적어도 처음보는 단어는 아니었다.

논문을 보고 느낀 점이라고 해야할지는 모르겠지만 내가 부족한 점이 많고 당장은 AI분야에 관련된 일을 하기 힘들다는것을 알았다. 전공도 아니고 어디서 배워본적도 없었고 단지 흥미만 있는것 뿐이니까. 그렇다고 해서 나중에도 못한다는 것은 아니다. 지금 당장 못하는 것이지 몇년 후에도 못하는 것은 아니니까. 덕분에 지금 하고 있는 부트캠프 과정을 마치고 (혹은 하는 중에) 어떤 공부를 해야할지 방향성을 조금이나마 뚜렷하게 정할 수 있었다.

'내일배움캠프' 카테고리의 다른 글

DJango 기초 - 마무리 (1)	2024.08.26
WIL - django 기초 주차 (0)	2024.08.25
충격과 공포의 Django 협업 2일차 (0)	2024.08.22
django 실습 1일차 (0)	2024.08.22
Django 일기 (0)	2024.08.19

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

나의 코딩입문기

스쿼드과제 - LLM 관련 논문 요약

'내일배움캠프' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

스쿼드과제 - LLM 관련 논문 요약

'내일배움캠프' 카테고리의 다른 글

'내일배움캠프' Related Articles

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역