목록분류 전체보기 (169)
AI·빅데이터 융합 경영학 Study Note
https://arxiv.org/abs/1910.10683 Exploring the Limits of Transfer Learning with a Unified Text-to-Text TransformerTransfer learning, where a model is first pre-trained on a data-rich task before being fine-tuned on a downstream task, has emerged as a powerful technique in natural language processing (NLP). The effectiveness of transfer learning has given rise to a divarxiv.org Text-To-Text Tran..
https://arxiv.org/abs/2010.11929 An Image is Worth 16x16 Words: Transformers for Image Recognition at ScaleWhile the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to reparxiv.org Abstract트랜스포머 구조는 NLP 분야에..
(https://arxiv.org/abs/1312.6114) 0. AbstractHow can we perform efficient inference and learning in directed probabilistic models, in the presence of continuous latent variables with intractable posterior distributions, and large datasets? 쉽게 풀면:“복잡한 생성모델을 학습하고 싶은데, 숨겨진 변수는 연속적이고, 그 숨겨진 변수를 정확히 추론하기는 너무 어렵고, 데이터도 많다. 이 상황에서 어떻게 빠르고 효율적으로 학습할 수 있을까?”즉, “연속적인 숨은 원인을 가진 생성모델에서, 진짜 posterior는 계산하기 어..
https://arxiv.org/abs/1406.4729 Spatial Pyramid Pooling in Deep Convolutional Networks for Visual RecognitionExisting deep convolutional neural networks (CNNs) require a fixed-size (e.g., 224x224) input image. This requirement is "artificial" and may reduce the recognition accuracy for the images or sub-images of an arbitrary size/scale. In this work, we equip tharxiv.org ~들어가기 전 간단한 CNN 배경지식~~~..
https://arxiv.org/pdf/1506.01497AbstractPP-net과 Fast R-CNN은 객체 탐지 시간을 크게 줄인 모델이죠. 그렇지만 여전히 영역 추정 단계에서 병목(bottleneck) 현상이 생긴다는 단점이 있습니다. 본 논문에서는 영역 추정 네트워크(Region Proposal Network) 기법을 제안합니다. 줄여서 RPN이라고 합니다. RPN은 객체 탐지 네트워크와 함께 합성곱 피처들을 공유하기 때문에 영역 추정에 거의 비용이 들지 않습니다(cost-free). RPN은 객체의 경계 박스와 클래스 점수(객체가 있는지 없는지 여부를 점수화)를 동시에 예측하는 합성곱 네트워크입니다. 게다가, 품질 좋은 영역 추정 경계 박스를 생성하도록 end-to-end 훈련을 할 수 있습니..
논문의 주제, 결론: YOLO(You Only Look Once) 제시 real-time object detection system이다.하나의 단일 컨볼루션 신경망을 사용하여 Image Classification과 Localization(위치 탐지)을 한 번에 처리하는 One-stage Detector임.3가지 특징빠르다(그래서 real time 이라고 부름) DPM보다는 정확하다객체의 Generalizable Representation을 학습한다(: 다양한 상황에서 동일한 객체를 인식할 수 있는 일반화된 특징 표현을 학습한다 => 안정성 GOOD)* mAP(mean Average Precision)은 객체 탐지 모델의 성능을 평가하는 지표이다. 객체 탐지 모델에서 각 클래스별로 Pre..
https://arxiv.org/abs/1810.04805 BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingWe introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models, BERT is designed to pre-train deep bidirectional representations from unlaarxiv.org 0. Abstract BERT는 ..
1. GPT-1- OpenAI에서 2018년에 발표한 “Improving Language understanding by Generative Pre-Training" 논문에서 제안된 모델 - Generative Pre Training of a language model - 자연어 처리 분야에서 전이 학습의 가능성을 처음으로 입증한 모델 중 하나- 이후 GPT-2, GPT-3, GPT-4와 같은 후속 모델들로 이어짐 1) GPT-1 등장 배경- 기존의 NLP 모델은 대부분 supervised learning 방식을 사용했지만, NLP task에서 labeled data를 충분히 확보하기 쉽지 않고 사람의 labeling은 비효율적 - 이와 달리 unlabeled data는 대규모로 존재하지만 효과적으로..
자연어 처리 모델의 발전 배경 먼저 자연어 처리 모델의 발전 배경을 훑어보겠습니다.초기 자연어 처리 모델은 순차적으로 단어를 처리하는 RNN을 기반으로 발전했습니다.하지만 RNN은 긴 문장에서 정보가 점차 희미해지는 문제가 있었고, 이를 개선하기 위해 LSTM이 등장했습니다.이후 Seq2Seq는 Encoder가 입력 문장을 읽고, Decoder가 이를 바탕으로 출력 문장을 생성하는 구조로, 번역 등 다양한 작업에 활용되었습니다. 트렌스포머 구조를 활용한 초기 NLP 모델로는 지피티와 버트가 있습니다.gpt와 버트는 모두 오늘 알아볼 트랜스포머의 아키텍처를 적절히 활용해서 좋은 성능을 내고 있습니다.GPT는 “Decoder-only Transformer”로 다음 토큰을 예측함BERT 계열 → 주로 Enco..
[논문]https://arxiv.org/abs/1802.05365 Deep contextualized word representationsWe introduce a new type of deep contextualized word representation that models both (1) complex characteristics of word use (e.g., syntax and semantics), and (2) how these uses vary across linguistic contexts (i.e., to model polysemy). Our word vectors arearxiv.org 임베딩 from 랭귀지 모델즈의 약자이다.지피티 피셜 핵심은 이것입니다.“단어의 뜻은 단어 하나만 ..
https://arxiv.org/abs/1505.04597 U-Net: Convolutional Networks for Biomedical Image SegmentationThere is large consent that successful training of deep networks requires many thousand annotated training samples. In this paper, we present a network and training strategy that relies on the strong use of data augmentation to use the available annotatedarxiv.orgAbstract본 논문에서는 training set을 보다 효과적으로..
https://arxiv.org/pdf/1512.00567 Factorizing Convolutions with Large Filter Size다양한 상황에서 convolution을 분해하는 방법, 그 중에서도 정답의 계산 효율성을 증가하는 방향으로 찾아본다고 합니다. (VGGNet이 아키텍처적으로는 단순하더라도 이는 비용이 많이 든다. 반대로 GoogLeNet의 인셉션 아키텍처는 메모리나 계산 비용이 한정된 상황에서도 잘 작동하도록 설계가 되었다. 인셉션의 계산 비용은 VGGNet이나 그보다 더 성능이 좋은 후계자들보다 더 낮다. )Inception은 fully convolutional하기 때문에 각 가중치는 활성 당 한 곱에 대응된다고 하고 그래서 계산이 줄면 파라미터의 수도 줄어든다고 합니다. ..