전체 글 썸네일형 리스트형 BERT/RoBERTa 논문 리뷰, paper review BERT Pre-training of Deep Bidirectional Transformers for Language Understanding -Bi-directional Transformer로 이루어진 모델 -Pre-trained BERT + classification layer ==> 다양한 NLP task 수행 - Input --> embedding layer + transformer layer -> Contextual represenation of token --> Classification layer - Wordpiece tokenizing을 통해 입력 문장을 token sequence를 만들어 학습에 활용 1. Wordpiece tokenizing - byte pair encoding 1.1 .. 더보기 Towards Accurate Scene Text Recognition with Semantic Reasoning Networks/논문리뷰/paper review 1. 논문 핵심 - Scene text recognition 의 variation : color,font,spatial layout and background...... - Scene text recognition의 중요한 정보 1) visual perception information 2) Semantic context understanding - RNN과 같은 Last decoding 기반의 네트워크는 Semantic context understanding에 약점이 있음 1) parallelization이 안되어 time-consuming 2) 초반의 decoding과정에서는 활용할 수 있는 semantic 정보들이 부족함 3) Error가 축적되어 다음 step에 전달됨 --> 위 논문은 GSRM(.. 더보기 멀티 GPU 100% 활용이 안되는 이유? 1. 각 GPU가 한 일을 하나로 합치는 과정(보통 PCI bus를 사용하여 데이터를 주고 받음)에서 bottleneck이 발생 2. 여러대의 컴퓨터를 사용할 경우 각각의 컴퓨터 성능이 달라서 발생하는 성능의 저하도(성능을 균일하게 맞춰주는 과정이 필요) 3. GPU 각자가 맞은 파트를 처리하는게 아니라 GPU_1이 한 일을 GPU_2에게 넘겨주고, 이를 가지고 GPU_2가 일을 하는 식으로 작동하게되면서 필연적으로 노는 리소스가 발생 더보기 Batch normalization이란 개념 정리 Batch Normalization에서는 각 layer에 들어가는 input을 normalize 시킴 Batch normalization의 효과 : 학습 가속화, 정규화 Internal Covariance Shift라는 현상은 Network의 각 층이나 Activation 마다 input의 distribution이 달라지는 현상을 의미하는데 Batch normalization은 이를 방지하기 위함 순서 : Input --> Batch normalization --> activation function--> Next Hidden layer Training과정에서는 mini-batch에서 평균과 표준편차를 구하여 활용 Test 과정에서는 training 과정에서 미리 계산해둔 이동평균과 편차를 활.. 더보기 논문리뷰/paper review/Attention is ALL You Need 1. 기존 연구의 문제점 - RNN, LSTM, GRU 기반의 모델들이 NLP분야에서 좋은 성능을 보여주고 있음 - 위의 모델들은 순차적인 계산/처리를 하는데 이는 데이터 특성에 따라 좋을 수도 있고 좋지 않을 수도 있음 - 예를 들어 이미지 형태의 글자 '나는 빨갛고 동그란 사과를 좋아한다'를 한글로 뽑아내는 OCR 어플리케이션은 순차적인 계산/처리가 효과적이지만 이를 영어로 번역하는 경우 'I like red and round apple'로 순서가 뒤바뀌게 Output이 만들어져야한다. 이로 인해 모델이 symbol을 만들 때 헷갈릴 수 있고 효과적으로 feature를 디자인하기 힘들 수 있다. - 또한 Long term dependency problem으로 인해 Input사이의 길이가 길어질수록 점.. 더보기 Label Smoothing이란 - 데이터 정규화(regularization) 테크닉 가운데 하나로 모델의 일반화 성능을 높힘 - Szegedy et al. (2016)이 제안한 기법으로 레이블을 깎아서(스무딩) 모델의 일반화 성능을 높힘 - hard target(one-hot-representation)에서 soft target으로 바꾸어 활용 Hard target 예시 : [0,0,1,0] Soft target 예시 :[0.01,0.01,0.98,0.01] 더보기 AI 지식/알아두면 좋을 링크 기록 redstarhong.tistory.com/84?category=328288 pytorch batch normalization 모듈화된 모델을 사용하고 있는데, 하나의 모듈을 pretrain 시킨 후 전체 모델에 통합시킨 후 다시 학습시켰을 때 성능이 떨어지는 현상이 있었다. Formulation이 아래와 같을 때 Formulation: input -> middle redstarhong.tistory.com 더보기 논문리스트 - Character Region Awareness for Text Detection - Attention is all you need - BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding - You Only Look Once: Unified, Real-Time Object Detection - Simple online and realtime tracking - Progressive pose attention transfer for person image generation 더보기 이전 1 2 3 4 5 6 다음