시계열 데이터를 imputation 해야 할 때, autoregressive model은 좋은 선택지였다.
그러나 최근 score-based diffusion model이 다양한 도메인에서 autoregressive model을 포함한 다른 모델들보다 더 좋은 성능을 보이고 있으며, 시계열 데이터 분야에서도 좋은 성능을 낼 것으로 기대되고 있다.
이 논문에서는 관측값을 기반으로 하는 score-based diffusion model을 활용하여 새로운 시계열 데이터 imputation 방법인 Conditional Score-based Diffusion model for Imputation (CSDI)를 제시하고 있다.
기존 score-based approaches와는 다르게, imputation 기능만을 위해 학습시키며, 관측된 값 간의 상관관계를 이용할 수 있다.
효과
- 1. 헬스 케어와 환경 데이터에서, 기존에 존재하던 probabilistic imputation method보다 인기 있는 성능 지표에 대해 40-65% 향상된 결과를 보여주었다.
- CSDI에 의한 deterministic imputation은 최근 좋은 성을 내었던 deterministic imputation method들에 비해 오차를 5-20% 감소시켰다.
- CSDI는 시계열데이터 interpolation과 probabilistic forecasting에 적용할 수 있으며, 기존에 존재하던 baselines에 경쟁력 있는 모습을 보여줬다.
시계열 데이터에는 다양한 이유로 종종 결측치가 포함된다. 이는 downstream task를 해결할 때, 매우 큰 영향을 미치므로 결측치를 해결하기 위한 imputation 방법론들이 많이 개발되고 있다.
근 몇 년간, imputation method는 deep neural networks에 기반하여 deterministic imputation과 probabilistic imputation 분야에서 좋은 성과를 보여줬다.
- deterministic imputation : 결정론적 대체법으로, 주어진 응답자의 자료에 대해서 오직 하나의 대체값이 가능하다는 것을 의미.
- probabilistic imputation : 확률적 대체법으로, 대체할 값을 결정하는 과정에서 랜덤 하게 결정되는 것. 만약 같은 자료에 대해 결측체 대체를 반복할 때, 결정론적 방법은 매번 같은 값으로 대체되는 반면 확률론적 방법은 상이한 값으로 대체.
출처 - 사업체대상 조사의 무응답 대체기법 연구 (도·소매업조사 중심으로)

우측에 보이는 기존 score-based model을 활용한 imputation 방법은, 관측된 기존 데이터에도 noise를 더하여 사용하므로 성능이 약간 떨어진 imputation 보여준다.

CSDI는 probabilistic imputation method로 conditional score-based diffusion model을 통해 결측치의 조건부 분포값을 직접 학습한다.
기존 score-based Diffusion model과는 다르게 CSDI의 reverse process가 관측값 x^co를 조건부 input으로 활용할 수 있기에 denoising 과정에 noise가 끼지 않은 관측치 정보를 활용할 수 있다.
sequential 하게 결측값을 채우지 않는다. 비어있는 부분을 한 번에 생성하기에, 시계열 데이터에만 국한된 알고리즘이 아니라고 강조한다. 그렇다면 시계열 데이터의 sequential 한 특징을 담아내지 못하는가? 그건 아니다. 시계열 데이터를 imputation 할 땐, Attention 매커니즘을 활용하여 시계열 데이터의 시간성과 feature 의존도를 포착한다.
self-supervised learning
학습하는 동안, 결측값의 정답인 gound truth가 필요하다. 그러나 실제 현실에서는 결측값이 전혀 없거나, 결측값의 ground truth를 알 수 ㅜ없는 경우가 있기에 masked language에서 영감을 받은 self-supervised learning을 통해 학습한다.
초록색은 학습 데이터의 관측값을 나타내고 하얀색은 데이터의 결측값을 나타낸다.
앞서 언급한 ground truth의 이율 결측값 부분은 실제 학습에 반영하지 않는다. 대신 초록색 관측값 영역을 빨간색(target)과 파란색(conditional observation) 부분으로 나눠 입실론 세타 학습에 사용한다.
입실론 세타는 조건부 노이즈 denosing 함수에 들어가는 파라미터로 conditional observation value (원래 알고 있던 데이터값 )을 입력으로 받아 대체할 target 값을 생성한다.
해당 과정에서 imputation target을 선택하는 것은 중요한 문제이다. 다음의 전략 중 하나를 선택하여 target을 결정한다.
- random 전략 : missing 패턴을 모를 때, 관측값의 특정 %를 무작위로 선택하는 방식.
- historical 전략 : training dataset에서 missing 패턴을 찾아 적용하는 방식.
- Mix 전략 : 1번과 2번을 섞은 방식.
- Test pattern 전략 : test dataset의 missing pattern을 알 때, 그 패턴을 적용하는 방식.
training 때는 앞에서 언급한 것처럼 관측값을 target choice 전략에 따라 imputation target과 conditional observation으로 나누게 되고
Sampling 할 때는 conditional observation으로 모든 관측치를 사용한 뒤, imputation target으로 모든 결측치를 사용하게 된다.
Attention mechanism
k 개의 feature, L 만큼의 length 및 C개의 channel을 갖는 텐서가 주어진 경우, 시간 트랜스포머 layer는 (1, L, C) 형태의 입력 텐서를 사용하여 시간 종석성을 학습한다.
feature 트랜스포머 layer는 ( K, L, C ) 형태의 입력 텐서를 사용하여 feature 종속성을 학습한다. 각 레이어의 출력 모양은 입력 모양과 동일하다.
L은 데이터마다 다를 수 있지만, Attention은 이 단점을 극복할 수 있기에 상관없다.
시계열은 데이터는 {X, M, s} 형태로 되어있으며 X의 샘플 공간은 R^(K×L)이다. X를 샘플 공간 R^(K×L)에서 처리해야 하지만 만 ε_θ는 X의 일부인 x_ta, x_co에서 입력받는다.
따라서, ε_θ를 고정된 샘플 공간 R^(K×L)의 입력에 맞춰야 하기에 x_ta와 x_co에 제로 패딩을 적용한다. (즉, 이전 그림의 x_ta와 x_co의 흰 영역을 0으로 설정)
어떤 인덱스가 패딩 되었는지 나타내기 위해 조건부 마스크 m을 εθ에 추가 입력으로 넣어준다. 이 역시 제로 패딩을 도입하여 크기를 맞춰준다.
그럼, 조건부 노이즈 함수 ε_θ를 위처럼 나타낼 수 있다.
데이터 셋
두 가지를 사용했다.
PhysioNet Challenge 2012의 의료 데이터 : 중환자실에서 48시간 동안 35가지의 임상 실험을 받은 4000개의 시계열 데이터셋
48개의 시간 간격으로 시계열 처리했다. ( 가공 후 약 80% 결측값을 갖고 있음)
대기 질 데이터 : 베이징의 36개의 측정소에서 12달 동안 수집한 시간별 PM 2.5 입자 측정값을 사용하며 36개의 연속된 타임 step을 하나의 시계열로 설정
약 13%의 결측값이 존재했으며 결측값의 패턴이 존재했음.
실험진행
두 데이터셋에 대해 각 실험을 다섯 번 진행했다.
target 선택 전략
의료 데이터 : random 전략 채택.
대기 질 데이터 : 각 데이터셋의 결측값 패턴을 기반으로 MIX 전략 ( random 및 historical 전략의 혼합 ) 채택.
CSDI의 결과비교 ( 세 가지 기준 )
- Multitask GP : timepoint와 feature 간의 공분산을 동시에 학습.
- GP-VAE : probabilistic imputation 보완에 대해 최근 높은 성능을 기록.
- V-RIN : VAE에 의해 양자화된 불확실성을 사용하여 보완을 개선하는 discriminatic 보완 방법.
V-RIN의 경우 양자화된 불확실성을 확률적 보완으로 간주했으며 CSDI를 조건부 모델의 효과를 보여주기 위해 조건부 확산 모델을 사용한 비교를 진행했다.
CRPS ( Continuous Ranked Probability Score )
헬스 케어나 환경 데이터에 대해 이미 존재하는 확률적 방법론들보다 40~65% 정도 향상된 모습을 보였다. ( 위 기준에서 ).
따라서 CSDI가 더 현실적인 분포를 생성한다고 해석할 수 있으며 unconditional cosre-based model보다도 우수한 성능을 보안 다고 볼 수 있다.
MAE
CSDI는 다른 기준에 비해 MAE를 5~20% 증가시켰다.
이는 condtional diffusion model이 시간 및 feature 의존성을 효과적으로 학습한다고 해석할 수 있다.
시계열 데이터 대상 imterporation, forecasting의 업무에서도 이를 결측값으로 간주하며 확률적 예측에 적용했을 때, 이미 존재하는 방법론들에서도 경쟁력 있는 성능을 보였다 한다.
'논문 리뷰' 카테고리의 다른 글
[논문 리뷰] Diffusion models for missing value imputation in tabular data (1) | 2024.02.13 |
---|---|
[논문 리뷰]GAIN: Missing Data Imputation using Generative Adversarial Nets (0) | 2024.01.11 |