본문 바로가기

transformer

Towards Accurate Scene Text Recognition with Semantic Reasoning Networks/논문리뷰/paper review 1. 논문 핵심 - Scene text recognition 의 variation : color,font,spatial layout and background...... - Scene text recognition의 중요한 정보 1) visual perception information 2) Semantic context understanding - RNN과 같은 Last decoding 기반의 네트워크는 Semantic context understanding에 약점이 있음 1) parallelization이 안되어 time-consuming 2) 초반의 decoding과정에서는 활용할 수 있는 semantic 정보들이 부족함 3) Error가 축적되어 다음 step에 전달됨 --> 위 논문은 GSRM(.. 더보기
논문리뷰/paper review/Attention is ALL You Need 1. 기존 연구의 문제점 - RNN, LSTM, GRU 기반의 모델들이 NLP분야에서 좋은 성능을 보여주고 있음 - 위의 모델들은 순차적인 계산/처리를 하는데 이는 데이터 특성에 따라 좋을 수도 있고 좋지 않을 수도 있음 - 예를 들어 이미지 형태의 글자 '나는 빨갛고 동그란 사과를 좋아한다'를 한글로 뽑아내는 OCR 어플리케이션은 순차적인 계산/처리가 효과적이지만 이를 영어로 번역하는 경우 'I like red and round apple'로 순서가 뒤바뀌게 Output이 만들어져야한다. 이로 인해 모델이 symbol을 만들 때 헷갈릴 수 있고 효과적으로 feature를 디자인하기 힘들 수 있다. - 또한 Long term dependency problem으로 인해 Input사이의 길이가 길어질수록 점.. 더보기