Towards Accurate Scene Text Recognition with Semantic Reasoning Networks/논문리뷰/paper review
1. 논문 핵심
- Scene text recognition 의 variation : color,font,spatial layout and background......
- Scene text recognition의 중요한 정보
1) visual perception information
2) Semantic context understanding
- RNN과 같은 Last decoding 기반의 네트워크는 Semantic context understanding에 약점이 있음
1) parallelization이 안되어 time-consuming
2) 초반의 decoding과정에서는 활용할 수 있는 semantic 정보들이 부족함
3) Error가 축적되어 다음 step에 전달됨
--> 위 논문은 GSRM(global semantic reasoning module)을 통해 한 방향의 transmission이 아닌 다중 방향의 transmission을 도입해 위 문제를 해결하려함
--> 전체 네트워크는 SRN(semantic reasoning network)로 GSRM 뿐만 아니라 PVAM(Parallel visual attention module)과 VSFD(visual-semantic fusion decoder)를 함께 도입
2. 모델 설명
2.1 Backbone network
- ResNet50 + transformer unit(Positional encoding, multi-head attention network, feed forward module)
- input : 2D image, output : 2D visual features
2.2 Parallel Visual Attention module
- 기존 Attention mechanism에서는 query를 이전 layer의 output인 Hidden state를 쓰지만 이 모듈에서는 reading order를 씀.
- 지극히 개인적인 생각으로 이 모듈에서하는 역할과 Backbone network에서의 Transformer의 역할이 겹친다는 생각이 듬. 실제로 Section4.3의 Ablation study의 수치적 성능을 봐도 PVAM의 유효성이 확실하게 검증 된 것 같지 않음.
- 아직 명확하지 않은 부분 : Transformer의 positional encoding은 어떤식으로 진행되는가. Backbone에서 Transformer를 쓸 필요가 있나? 오히려 Ablation study에서 Base + PVAM의 성능까지 비교했으면 좋았을 것 같음.
2.3 Global Semantic Reasoning Module
- 단 방향이 아닌 Multi-way transmission
- Approximated embedding e'를 활용(시간에 independent함)
2.3.1 Visual-to-semantic embedding block
- embedding e'를 만드는 역할(e1,e2,e3,,,eN)
2.3.2 Semantic reasoning block
- (e1,e2,e3,,,eN) --> st 값을 만드는 function을 학습
2.4 Visual-Semantic fusion decoder
- gt : visual feature 이고 st : semantic feature인데 각각 gt인 yt를 만들도록 손실함수가 구성되어 있는데 gt와 st를 fusion 시켜서 decoding을 진행하는 decoder를 추가적으로 만들어줌
- 그냥 constant weighted sum을 진행하는 것이 아니라 학습된 weigh를 활용하며 linear weight를 곱한 후 nonlinear activation 함수를 거친 zt를 곱함.
3. 지극히 개인적인 의견
- 이 논문에서 지적하고 있는 기존 시계열 기반의 네트워크들(RNN,LSTM,,) 문제점들은 Transformer에서 이미 지적하고 있는 부분들이 아닌가 의문이 생김. Transformer에서도 Semantic information를 논문에서 특히 강조한건 아니지만 multi-way로 학습이 될 것이기 때문에 자동적으로 semantic 정보가 반영이 잘될텐데..