본문 바로가기

Paper review

Character Region Awareness for Text Detection/논문리뷰/paper review

1. 논문 요약

 

1.1 이전 연구의 한계점

- curved or arbitrary text 응용에 limitation이 존재

 

1.2 본 연구의 contribution

 

 

- weakly-supervised learning을 통해 Lack of individual character level annotations 문제를 극복

- character간 affinity score를 측정하는 새로운 representation을 도입

- 6개 benchmark dataset을 활용하여 검증한 결과, curved/arbitrary/deformed 된 complicate한 text에서 강인함을 확인

 

2. 방법론 소개

 

- Main objective: 각각의 character 마다 정확하게 Localize 시키는 것

- Training two final output channel: region score and affinity score

- No public character level dataset --> Weakly supervised manner

 

2.1 Architecture

- VGG-16 with batch normalization

- skip connection in the decoding part

 

2.2 Training

 

2.2.1 Ground truth label generation

 

 

- Region score란?

각 글자의 중심 pixel일 확률

- Affinity score란?

인접한 글자끼리의 중심 pixel일 확률

 

- Pose estimation에서 keypoint를 나타내는 heatmap과 같이 Gaussian heatmap를 활용(High flexibility for non-rigidly bounded)

- 기존의 Gaussian heatmap은 isotropic하여 이대로 박스를 치면 정사각형임. 하지만 Character bounding box는 perspective projections에 의해 distorted 되는 경우도 많음. --> Transformed 2D gaussian 사용

 

- Character box를 통해 affinity box를 만드는 방법도 제시

- 긴 text의 경우 장점이 두드러짐.

- 예를 들어 Regression 기반의 detection은 large receptive field가 요구되는 반명 제시하는 label generation을 통하면 글자의 길이 여부와 관련 없이 small receptive field로도 효과적일 수 있음

- Convolution filter가 text 전체를 핸들링하는 것이 아니라 각 글자와 글자간의 연관성부분만 집중하면 된다는 장점이 있음

 

2.2.2 Weakly-supervised learning

 

- 대부분의 Dataset의 annotation은 word-level annotation

- Word-level annotation에서 character-level annotation으로 만들기 위해 weakly-supervised learning을 활용

- Interim model 예측 결과 값의 신뢰도를 학습시 반영하기 위해 Confidence score를 측정하여 learning rate로 활용함(예를들어 신뢰도가 높게 측정이 된다면 learning rate도 크게, 작다면 작게 반영)

- 위와 같이 가까로 생성된 Ground truth label을 Pseudo-GT 라고 함

- 그렇다면 Pseudo-GT의 신뢰도를 어떻게 측정할 수 있는가 ?

 

Training real image의 cropped된 단어 : w w의 character number : l(w) Splited 된 후 집계되는 character 숫자 : lc(w)

 

- 즉 집계(예측)되는 숫자와 실제 숫자와의 차이를 통해 신뢰도 점수를 측정

- 신뢰도 점수가 만약 0.5 아래면 학습에 포함시키지 않음

- Interim model이 성능이 좋을수록 신뢰도 점수가 높아 학습에 끼치는 영향이 커지고 아닐 경우 영향이 작아짐

- Synthetic image의 경우 Pseudo-GT가 아닌 Synthetic GT를 계산할 수 있기 때문에 신뢰도는 1이 됨

 

 

- 메인 목적함수는 Region score와 Affinity score의 GT값과 예측값의 L2 norm을 활용함

 

2.2.3 Inference

 

 

Step1. Region threshold와 Affinity threshold 설정 후 Final output map인 Region score map과 Affinity score map과의 각각 비교를 통해 둘 중 역치값보다 큰 것이 있다면 1로 작으면 아니면 0으로 Binary map을 만듬

 

Step2. 생성된 Binary map 으로 Connected component labeling(CCL)을 적욕함. CCL을 도입한 이유는 각 글자마다의 LABELING을 진행해주기 위해서임

 

 

Step3. Opencv의 내장된 함수를 통해서 Intersection area가 최대가 되는 직사각형의 Rotation 각도를 알 수 있음. 위 과정에서 다른 후처리와 다른 점으로 non maximum suppression을 쓸 필요가 없다는 장점이 있음

 

- non maximum suppression이란? (참고)

 

 

 

3. 논문 정리 및 마무리

 

3.1 위 모델의 특징과 응용에 대한 고찰

 

- 위 모델은 Character level로 추출하기 때문에 글자의 길이에 invariant한 장점이 있음. 따라서 어느정도 글자의 길이가 정해진 것이 아닌 굉장히 다양한 글자 길이에 적용될 것으로 예상이 된다면 위 모델이 적합할 것이라 생각

 

- 한국어, 중국어, 일본어와 같이 하나의 character가 word안에서 명확하게 나뉘는 경우 위 모델 적용이 효과적일 것이라 예상되지만 word안에서 character들끼리 연결성이 강한 Arabic과 같은 언어의 경우 character segmentation이 부정확하며 응용에 어려움이 예상됨.

 

- End-to-end method기반의 모델은 학습시 Recognition result가 detection feature extraction에 반영되어 semantic cue를 함께 적용될 수 있음. 위 모델은 Visual cue만 활용되고 있기 때문에 semantic cue가 중요하게 작용하여 글자 인식이 필요한 경우 부정확 결과가 도출될 수 있음