데이터가 누락되는 종류
무작위로 누락: 변수의 종류와 상관없는 누락
다른 변수와 관련있는 누락: 해당 변수가 아닌 다른 변수의 영향을 받아서 누락된 경우 (ex. 설문조사의 뒷면이 있는 지 모르고 응답하지 않아서 누락된 경우)
해당 변수와 관련있는 누락: 누락된 해당 변수에 관련해서 누락된 경우(어떤 설문조사에서 일부 질문에 정치적인 성향 등의 이유로 채우지 않았을 경우)
첫번째, 두번째는 제거하는 것이 좋지만, 세번째 경우 단순 제거하면 모델이 편향 될 가능성이 있다.
누락값 해결책
삭제: 데이터 버리기(row) or 변수 버리기(col)
- 단점: 모델이 편향될 수 있으며, 중요한 변수가 버려질 수 있음
대표값(mean, median, mode)으로 대체
- 단점: 대체한 변수가 다른 변수와 상관관계가 있을 때, 상관관계를 고려하지 않음, 데이터 전체의 분산이 줄어들게 됨(평균), 데이터 전체에 편향이 생김(최빈값)
다중 대체법(multiple imputation, MICE)
과정
- 대체하고자 하는 누락값을 비우고, 다른 누락값은 대표값으로 채운다.
- 다른 변수들을 X로하고, 대체하고자 하는 누락값이 속하는 변수를 Y로하는 선형회귀모델을 이용해 누락값을 채운다.
- 다른 누락값에 대해서도 똑같이 적용한다.
- 대체 전 값과 대체 후의 값의 차이가 0이 되도록 이 과정을 반복한다.
KNN 사용, 변수를 통해 가까운 데이터 K개를 골라 이 데이터들의 평균을 사용함
- 단점: 오래걸림, outlier에 민감함, 변수의 scale을 조절해줘야 함
'Data Science' 카테고리의 다른 글
[ML] 의사결정나무(Decision Tree) 뿌시기 (0) | 2022.05.21 |
---|---|
[논문 리뷰] ESRGAN (0) | 2022.03.25 |
[논문 리뷰] Attention is all you Need (transformer) (0) | 2022.03.04 |
[논문 리뷰] SRGAN (0) | 2022.02.18 |
빈도주의 vs 베이지안 (0) | 2022.02.06 |