이번에 가져온 논문은 diffusio model을 이용한 tabular data(표 데이터) 대상 imputation 논문이다.
사실 categorical data를 대상으로 다룬 imputation 논문을 찾고 싶었는데, MICE와 같이 프레임워크로 나온 논문들을 제외하고 나면, 최신 논문이 얼마 나오지 않아 조사하기 힘들었다.
그래서 categorical data 대상 imputation 논문을 리뷰하기보단, categorical과 numerical data가 섞인 데이터를 대상으로 imputation 하는 논문을 찾아보았다. 오늘 소개할 diffusion models for missing value imputation in tabular data가 다루는 데이터도 mix data이다.
! 이번 논문은 간소화한 논문이라 설명이 충분치 않을 수 있다!
이번 논문은 바로 직전에 리뷰한 Conditional Score-based Diffusion Imputation (CSDI)을 활용한 후속 연구 논문으로 Conditional Score-based Diffusion Models for Tabular data (TabCSDI) 제안하고 있다.
Tabular data는 표 데이터를 의미하는데, 저자는 categorical data와 numerical data가 섞인 경우를 가정하며 서술하였다.
기술적으로, 결측값으로 인해 발생하는 문제는 3개의 유형으로 나눌 수 있다.
- Missing completely at random (MCAR) : 결측값의 발생이 다른 변수(feature)와 상관없으며 전산 오류나 통신 문제에 의해 발생하는 경우.
- Missing at random (MAR) : 결측값이 결측 된 변수(feature)와는 관련 없지만, 다른 feature와 관련이 있는 경우. (여성이 남성보다 체중이 기입하지 않는다 라는 가정이 있다면, 체중 항목에 대하여 결측값이 발생하지만 이 결측의 원인이 체중변수와는 무관하고 성별 변수와 관련이 있는 경우 )
- Missing not at random (MNAR) : 결측값이 해당 feature와 관련이 있는 경우 ( 서비스 불만족에 따른 서비스 항목 무응답 상황 )
이처럼 결측값 imputation 접근법도 두 개의 유형으로 나눌 수 있다.
- 반복 접근 : 사용가능한 feature를 모두 사용하여 feature 1개의 조건부 분포를 추정하는 방법 ( MICE )
- Deep generative model 접근 : 관측된 값을 기반으로 결측값을 대체할 새로운 값을 생성하기 generative model을 학습시키는 방법. ( MIDA, HIVAE, GAIN)
최근 diffusion model은 다양한 영역에서 ( computer vision, time-series data, chemistry, neutral language processing 등 ) 다른 생성형 모델보다 나은 효과를 내고 있다. 그러나 (논문 작성당시) 저자가 아는 한, 표 데이터 결측값 imputation에 대한 diffusion 모델은 아직 제안되지 않았다.
X는 실수와 결측값의 합집합으로 구성된 d차원의 input 변수이다. 우리는 결측값 X를 d차원(feature)의 실수값으로 변환하는 imputation 함수를 찾는 것을 목표로 두고 있다. 즉, f는 missing value를 합리적인 값으로 대체할 수 있어야 한다.
(f는 diffusion model을 통해 구한다. )
발견한 f의 성능을 평가하기 위해 아래의 error function을 사용한다.
feature j의 결측값이 숫자라면 RMSE를 사용하고, 범주형 데이터라면 Err를 사용한다.
CSDI
Diffusion model은 두 과정을 포함하고 있다. 반복적으로 input 데이터에 noise를 추가하는 forward noising process와 반복적으로 noise를 제거해 나가는 denosing process이다.
CSDI는 diffusion model을 사용하여 입력 X의 전체를 재건축하는 대신, X를 두 부분으로 분리한다.
- Observed part
- Unobserved part to predict ( target )
이후 아래의 분포를 모델링하기 위해 학습한다.
본 논문은 이전 CSDI의 목적 함수를 따랐으며, tabular data를 다루기 위해 CSDI에서 제안된 구조중 temporal transformer layer를 제거했다.
또한 좀 더 간단해진 transformer encoder를 사용한다
위 사진은 one hot 인코딩, 아날로그 비트 인코딩 및 임베딩에서 categorical variable을 처리하는 사진이다. 노란색 블록이 categorical variable이며, 수치형 변수는 파란색 및 녹색 블록으로 표시되어 있다.
- One-hot encoding : 일반성을 잃지 않으며 가장 보편적인 방법.
- Analog bits encoding : Chen이 제안한 논문 (Generating discrete data using diffusion models with self-conditioning)을 따름.
- 연속적인 diffusion model이 이산 데이터를 생성할 수 있는 접근법을 제안한 논문.
- 이산 또는 범주형 데이터를 비트로 인코딩 -> 비트를 아날로그 비트로 실제 모델링(Diffusion) - Feature tokenization : 수치형 변수와 범주형 변수 모두를 embedding으로 변환. (본 논문에선 모두 동일한 임베딩 벡터 길이를 가짐 )
( 1,2번 경우 데이터를 더 쉽게 구별하기 위해 0 -> -1로 변경. )
정리하면, analog bits encoding은 one hot encoding보다 적은 범위로 표현할 수 있지만, encoding 된 벡터를 복잡하게 만들 수 있다.
embedding : 자연어를 기계가 이해할 수 있는 숫자의 나열 ( 벡터로)로 바꾼 결과 ex ) 단어의 빈도 벡터화
앞에서 소개한 방법으로 input을 처리한 뒤, 해당 결과물로 모델을 훈련한 뒤, 이후 모델이 낸 raw ouput을 얻어 복구과정을 진행한다.
- One-hot encoding : 가장 큰 요소의 index를 모델 추론 범주로 취급.
- Analog bits encoding : 출력 요소가 0보다 크면, 1로 설정. 아니면 -1로 설정.
- Feature tokenization : 또다시 임베딩과정을 거쳐 수치 및 범주 형수를 복구.
수치 변수 : diffusion model의 출력을 해당 임베딩의 요소별로 나눈 뒤 평균값을 사용
범주 변수 : TabCSDI의 출력과 각 범주형 임베딩 간의 유클리드 거리를 계산한 뒤, 가장 가가운 임베딩 범주를 사용.
실험 결과
순수 수치형 데이터 대상 TabCSDI와 categorical data와 numerical data가 섞인 데이터셋 대상 TabCSDI 실험 결과가 존재했으나, 후자에 집중하여 요약했다.
실험 데이터 셋은 총 7개였다.
인구 조사 소득 데이터 세트 (Census)
와인 품질 (Wine)
콘크리트 압축 강도 (Concrete)
리브라스 운동 (Libras), 유방암 위스콘신 데이터 (Breast) from UCI Machine Learning Repository
COVID-19, 당뇨병 from Kaggle
당뇨병과 COVID-19 데이터셋은 이진 범주 변수만 포함되어 있으며, 모든 데이터셋의 수치 변수는 최소-최대 정규화를 통해 전처리된 상태로 진행했다.
비교 대상은 아래와 같다.
수치 - 평균값
범주 - 최빈값
MICE linear : 선형 회귀와 로지스틱 회귀를 기반
MissForest : random forest기반
GAIN : depp generation 모델 대표
위 표는 세 가지 혼합 변수 데이터셋(Diabetes, Census 및 COVID-19)을 대상으로 실험한 결과이다.
TabCSDI은 당뇨병 및 인구조사 데이터셋에서 가장 낮은 RMSE를 기록했다.
MissForest 역시, 당뇨병 및 인구조사 데이터셋에서 가장 낮은 오류율을 달성했고, 세 가지 범주 처리 방법 (TabCSDI) 간의 RMSE 차이는 명확하지 않았다.
그러나 TabCSDI with FT는 인구조사 데이터셋에서 다른 두 범주 처리 방법과 비교하여 가장 낮은 오류율을 달성했으며, 여기서 아날로그 비트 접근 방식이 one hot encoding보다 우수한 것으로 확인되었다.
또한, FT가 범주 변수를 처리하는 데 효과적임을 알 수 있었다. 이 점은 Census 데이터셋에서 명확하게 나타났으며(유일한 다중 범주형 혼합 데이터 유형 데이터셋), 열 불균형 문제에 직면하지 않게 한다.
원-핫 및 아날로그 비트 인코딩에서 카테고리 변수가 포함하는 카테고리 수가 많을수록 더 많은 열을 차지하는 불균형 문제가 발생할 수 있는데 이때 FT가 이 문제를 회피할 수 있다.)
결론
결측값 대치를 위한 diffusion 모델 기반의 TabCSDI가 다른 잘 알려진 대치 방법들과 경쟁력 있는 성능을 보일 수 있다는 것을 증명했다.
특히 TabCSDI는 수치 변수 대치에 효과적으로 작동하며, 이외에도 범주 변수 처리를 위한 다양한 방법을 탐색한 결과, FT 임베딩이 Census 데이터셋에서 원핫 인코딩과 아날로그 비트에 비해 명확히 우수한 성능을 제공한다는 것을 발견했다.
'논문 리뷰' 카테고리의 다른 글
[논문 리뷰] CSDI: Conditional Score-based Diffusion Models for Probabilistic Time Series Imputation (3) | 2024.02.06 |
---|---|
[논문 리뷰]GAIN: Missing Data Imputation using Generative Adversarial Nets (0) | 2024.01.11 |