카테고리 없음

Towards Accurate Scene Text Recognition with Semantic Reasoning Networks/논문리뷰/paper review

parkjoohye 2021. 2. 5. 16:13

1. 논문 핵심 

- Scene text recognition 의 variation : color,font,spatial layout and background......

- Scene text recognition의 중요한 정보
  1) visual perception information

  2) Semantic context understanding 

- RNN과 같은 Last decoding 기반의 네트워크는 Semantic context understanding에 약점이 있음

  1) parallelization이 안되어 time-consuming

  2) 초반의 decoding과정에서는 활용할 수 있는 semantic 정보들이 부족함

  3) Error가 축적되어 다음 step에 전달됨

 

--> 위 논문은  GSRM(global semantic reasoning module)을 통해 한 방향의 transmission이 아닌 다중 방향의 transmission을 도입해 위 문제를 해결하려함

 

--> 전체 네트워크는 SRN(semantic reasoning network)로 GSRM 뿐만 아니라 PVAM(Parallel visual attention module)과 VSFD(visual-semantic fusion decoder)를 함께 도입

 

2. 모델 설명 

2.1 Backbone network

- ResNet50 + transformer unit(Positional encoding, multi-head attention network, feed forward module)

- input : 2D image, output : 2D visual features

 

2.2 Parallel Visual Attention module

- 기존 Attention mechanism에서는 query를 이전 layer의 output인 Hidden state를 쓰지만 이 모듈에서는 reading order를 씀. 

- 지극히 개인적인 생각으로 이 모듈에서하는 역할과 Backbone network에서의 Transformer의 역할이 겹친다는 생각이 듬. 실제로 Section4.3의 Ablation study의 수치적 성능을 봐도 PVAM의 유효성이 확실하게 검증 된 것 같지 않음.

- 아직 명확하지 않은 부분 : Transformer의 positional encoding은 어떤식으로 진행되는가. Backbone에서 Transformer를 쓸 필요가 있나? 오히려 Ablation study에서 Base + PVAM의 성능까지 비교했으면 좋았을 것 같음. 

 

2.3 Global Semantic Reasoning Module

- 단 방향이 아닌 Multi-way transmission 

- Approximated embedding e'를 활용(시간에 independent함)

2.3.1 Visual-to-semantic embedding block

- embedding e'를 만드는 역할(e1,e2,e3,,,eN)

2.3.2 Semantic reasoning block 

- (e1,e2,e3,,,eN) --> st 값을 만드는 function을 학습

 

2.4 Visual-Semantic fusion decoder

- gt : visual feature 이고 st : semantic feature인데 각각 gt인 yt를 만들도록 손실함수가 구성되어 있는데 gt와 st를 fusion 시켜서 decoding을 진행하는 decoder를 추가적으로 만들어줌 

- 그냥 constant weighted sum을 진행하는 것이 아니라 학습된 weigh를 활용하며 linear weight를 곱한 후 nonlinear activation 함수를 거친 zt를 곱함. 

 

 

3. 지극히 개인적인 의견

- 이 논문에서 지적하고 있는 기존 시계열 기반의 네트워크들(RNN,LSTM,,) 문제점들은 Transformer에서 이미 지적하고 있는 부분들이 아닌가 의문이 생김. Transformer에서도 Semantic information를 논문에서 특히 강조한건 아니지만 multi-way로 학습이 될 것이기 때문에 자동적으로 semantic 정보가 반영이 잘될텐데..