1. 논문 요약
1.1 이전 연구의 한계점
- curved or arbitrary text 응용에 limitation이 존재
1.2 본 연구의 contribution
- weakly-supervised learning을 통해 Lack of individual character level annotations 문제를 극복
- character간 affinity score를 측정하는 새로운 representation을 도입
- 6개 benchmark dataset을 활용하여 검증한 결과, curved/arbitrary/deformed 된 complicate한 text에서 강인함을 확인
2. 방법론 소개
- Main objective: 각각의 character 마다 정확하게 Localize 시키는 것
- Training two final output channel: region score and affinity score
- No public character level dataset --> Weakly supervised manner
2.1 Architecture
- VGG-16 with batch normalization
- skip connection in the decoding part
2.2 Training
2.2.1 Ground truth label generation
- Region score란?
각 글자의 중심 pixel일 확률
- Affinity score란?
인접한 글자끼리의 중심 pixel일 확률
- Pose estimation에서 keypoint를 나타내는 heatmap과 같이 Gaussian heatmap를 활용(High flexibility for non-rigidly bounded)
- 기존의 Gaussian heatmap은 isotropic하여 이대로 박스를 치면 정사각형임. 하지만 Character bounding box는 perspective projections에 의해 distorted 되는 경우도 많음. --> Transformed 2D gaussian 사용
- Character box를 통해 affinity box를 만드는 방법도 제시
- 긴 text의 경우 장점이 두드러짐.
- 예를 들어 Regression 기반의 detection은 large receptive field가 요구되는 반명 제시하는 label generation을 통하면 글자의 길이 여부와 관련 없이 small receptive field로도 효과적일 수 있음
- Convolution filter가 text 전체를 핸들링하는 것이 아니라 각 글자와 글자간의 연관성부분만 집중하면 된다는 장점이 있음
2.2.2 Weakly-supervised learning
- 대부분의 Dataset의 annotation은 word-level annotation
- Word-level annotation에서 character-level annotation으로 만들기 위해 weakly-supervised learning을 활용
- Interim model 예측 결과 값의 신뢰도를 학습시 반영하기 위해 Confidence score를 측정하여 learning rate로 활용함(예를들어 신뢰도가 높게 측정이 된다면 learning rate도 크게, 작다면 작게 반영)
- 위와 같이 가까로 생성된 Ground truth label을 Pseudo-GT 라고 함
- 그렇다면 Pseudo-GT의 신뢰도를 어떻게 측정할 수 있는가 ?
Training real image의 cropped된 단어 : w w의 character number : l(w) Splited 된 후 집계되는 character 숫자 : lc(w)
- 즉 집계(예측)되는 숫자와 실제 숫자와의 차이를 통해 신뢰도 점수를 측정
- 신뢰도 점수가 만약 0.5 아래면 학습에 포함시키지 않음
- Interim model이 성능이 좋을수록 신뢰도 점수가 높아 학습에 끼치는 영향이 커지고 아닐 경우 영향이 작아짐
- Synthetic image의 경우 Pseudo-GT가 아닌 Synthetic GT를 계산할 수 있기 때문에 신뢰도는 1이 됨
- 메인 목적함수는 Region score와 Affinity score의 GT값과 예측값의 L2 norm을 활용함
2.2.3 Inference
Step1. Region threshold와 Affinity threshold 설정 후 Final output map인 Region score map과 Affinity score map과의 각각 비교를 통해 둘 중 역치값보다 큰 것이 있다면 1로 작으면 아니면 0으로 Binary map을 만듬
Step2. 생성된 Binary map 으로 Connected component labeling(CCL)을 적욕함. CCL을 도입한 이유는 각 글자마다의 LABELING을 진행해주기 위해서임
Step3. Opencv의 내장된 함수를 통해서 Intersection area가 최대가 되는 직사각형의 Rotation 각도를 알 수 있음. 위 과정에서 다른 후처리와 다른 점으로 non maximum suppression을 쓸 필요가 없다는 장점이 있음
- non maximum suppression이란? (참고)
3. 논문 정리 및 마무리
3.1 위 모델의 특징과 응용에 대한 고찰
- 위 모델은 Character level로 추출하기 때문에 글자의 길이에 invariant한 장점이 있음. 따라서 어느정도 글자의 길이가 정해진 것이 아닌 굉장히 다양한 글자 길이에 적용될 것으로 예상이 된다면 위 모델이 적합할 것이라 생각
- 한국어, 중국어, 일본어와 같이 하나의 character가 word안에서 명확하게 나뉘는 경우 위 모델 적용이 효과적일 것이라 예상되지만 word안에서 character들끼리 연결성이 강한 Arabic과 같은 언어의 경우 character segmentation이 부정확하며 응용에 어려움이 예상됨.
- End-to-end method기반의 모델은 학습시 Recognition result가 detection feature extraction에 반영되어 semantic cue를 함께 적용될 수 있음. 위 모델은 Visual cue만 활용되고 있기 때문에 semantic cue가 중요하게 작용하여 글자 인식이 필요한 경우 부정확 결과가 도출될 수 있음
'Paper review' 카테고리의 다른 글
EDRN(Enhanced Deep Residual Networks for Single Image Super-Resolution) 리뷰 (0) | 2021.04.12 |
---|---|
논문리뷰/paper review/Attention is ALL You Need (0) | 2021.01.20 |