소소한 개발 공부
논문 리뷰: STAR: A Structure-aware Lightweight Transformer for Real-time Image Enhancement (ICCV2021) 본문
논문 리뷰: STAR: A Structure-aware Lightweight Transformer for Real-time Image Enhancement (ICCV2021)
이내내 2022. 10. 13. 15:42Zhaoyang Zhang, Yitong Jiang, Jun Jiang, Xiaogang Wang, Ping Luo and Jinwei Gu. STAR: A Structure-aware Lightweight Transformer for Real-time Image Enhancement. Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 4106-4115. 2021. paper link
이 논문을 이해하기 위해서 사전 지식으로 Transformer를 알고 있어야 합니다.
https://soso-study.tistory.com/74
분석한 내용에 대해 발표한 자료입니다.
1. 소개
실시간 이미지 개선을 위한 구조 인식 경량 트랜스포머(STAR) 모델을 제안
Transformer 모듈에 기반 (Multi-head self-attention과 완전 연결 레이어만 있음)
Image patch 사이 long-range dependency*를 캡처하여, 서로 다른 지역의 구조적 관계를 알 수 있음
다양한 이미지 개선 작업에 적용
- illumination enhancement(조명 강화)
- auto white balance(자동 화이트 밸런스)
- photo retouching(사진 보정)
이미지 patch가 토큰 임베딩으로 토큰화 됨
픽셀 단위 의존성을 직접 계산하는 대신, 이미지의 토큰 단위 의존성을 학습 (덩어리로 학습)
의미 구조를 학습할 수 있어 CNN보다 더 의미 있는 결과를 보여줌
STAR가 전역 context를 캡처하게 하기 위해
long-short range Transformer 라는 2 branch 설계를 채택 -> 계산 시간 감소
의의: 적은 메모리 사용으로 빠른 추론
long-range dependency : 장기 메모리 또는 장기 지속성이라고도 하는 장기 의존성은
시간 간격 또는 점 사이의 공간적 거리가 증가함에 따라 두 점의 통계적 종속성이 감소하는 비율과 관련된다.
https://en.wikipedia.org/wiki/Long-range_dependence
2. STAR 구조
1.Tokenization (토큰화)
1) Linear Flatten
이미지 I∈R^(H×W×C_I ) ⇒ sequence of patch (이미지의 작은 조각)
2) 각 patch에 대한 Dimension Reduction (차원 축소)
3) Linear Embedding(선형적으로 집어넣기)
-> 각 patch의 token 추출
위의 단계를 거치는 토큰화 전략은 3가지가 있다.
1) Linear Head
가장 전형적인 토큰화 전략
입력 이미지가 flatten 되어 patch 로 나뉘며,
Linear 레이어를 통해 토큰 얻음
* 매우 무거운 방법
성능은 비슷한데 모델 복잡도가 너무 큼
2) Conv Head
큰 P^2 C×C_T projection을 계산하는 대신,
점진적으로 공간 크기를 줄이는 전처리 CNN 사용
= 그대로 Transformer에 넣지 않고 다운샘플링해서 넣음
토큰 순서는 단순히 feature map의 공간 차원을 flatten 해서 얻음
3) Mean Head
Adaptive Average Pooling 에 의해 공간 크기가 바로 줄어듦
Flatten 하여 patch를 얻고
Linear 레이어를 통해 토큰을 얻음
이 방법이 가장 복잡도를 줄일 수 있음
2. Long-short range Transformer Module
-> T_long, T_short
왼쪽 branch - Normal transformer
> 넓은 범위 context y_long 도출
오른쪽 branch – local relationship
> 좁은 범위 context y_short 도출
3. 평가
3가지 이미지 개선 방법을 통해 평가를 진행한다.
1. Illumination Enhancement (조도 향상)
DCE-Net의 CNN backbone을 STAR로 교체하여 평가
Deep Curve Estimation Network(DCE-Net) : 이미지에서 가장 적합한 광량 향상 곡선 추정
광량 향상 곡선 Light-Enhancement curves (LE-curves)
I(x): 원래 입력 이미지
LE(I(x); α): 조정된 이미지
y_long과 y_short를 사용해 α 추정으로 조도 향상 이미지 출력
2. Auto White Balance (자동 화이트밸런스)
백색광으로 조명 효과를 바꾸는 작업
Deep white-balance editing 모델(인코더 1, 디코더 3)의 인코더를 STAR로 교체하여 평가
3. Photo Retouching with 3D-LUTs* (사진 보정)
LUT를 사용한 CNN 모델* 의 CNN을 STAR로 교체하여 평가
Global 조정 가중치 대신 32 x 32 크기의 토큰 당 가중치 계산
-> 전역 조정은 지역 조정에 맞지 않기 때문에
* LUT: Look Up Table; 사진 색조, 포화도, 노출, 색깔, 톤 조정에 적용하는 기술
* Hui Zeng, Jianrui Cai, Lida Li, Zisheng Cao, and Lei Zhang. Learning image-adaptive 3d lookup tables for high performance photo enhancement in real-time. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.