누락값(Missing value)를 다루는 방법들 :: 데이터의 바다로

누락값(Missing value)를 다루는 방법들

2022. 5. 9. 23:49

데이터가 누락되는 종류

무작위로 누락: 변수의 종류와 상관없는 누락
다른 변수와 관련있는 누락: 해당 변수가 아닌 다른 변수의 영향을 받아서 누락된 경우 (ex. 설문조사의 뒷면이 있는 지 모르고 응답하지 않아서 누락된 경우)
해당 변수와 관련있는 누락: 누락된 해당 변수에 관련해서 누락된 경우(어떤 설문조사에서 일부 질문에 정치적인 성향 등의 이유로 채우지 않았을 경우)
첫번째, 두번째는 제거하는 것이 좋지만, 세번째 경우 단순 제거하면 모델이 편향 될 가능성이 있다.

누락값 해결책

삭제: 데이터 버리기(row) or 변수 버리기(col)
- 단점: 모델이 편향될 수 있으며, 중요한 변수가 버려질 수 있음

대표값(mean, median, mode)으로 대체
- 단점: 대체한 변수가 다른 변수와 상관관계가 있을 때, 상관관계를 고려하지 않음, 데이터 전체의 분산이 줄어들게 됨(평균), 데이터 전체에 편향이 생김(최빈값)

다중 대체법(multiple imputation, MICE)
- 과정
  1. 대체하고자 하는 누락값을 비우고, 다른 누락값은 대표값으로 채운다.
  2. 다른 변수들을 X로하고, 대체하고자 하는 누락값이 속하는 변수를 Y로하는 선형회귀모델을 이용해 누락값을 채운다.
  3. 다른 누락값에 대해서도 똑같이 적용한다.
  4. 대체 전 값과 대체 후의 값의 차이가 0이 되도록 이 과정을 반복한다.

KNN 사용, 변수를 통해 가까운 데이터 K개를 골라 이 데이터들의 평균을 사용함
- 단점: 오래걸림, outlier에 민감함, 변수의 scale을 조절해줘야 함

출처: https://subinium.github.io/missing-data-handling/

저작자표시 비영리 변경금지

'Data Science' 카테고리의 다른 글

[ML] 의사결정나무(Decision Tree) 뿌시기 (0)	2022.05.21
[논문 리뷰] ESRGAN (0)	2022.03.25
[논문 리뷰] Attention is all you Need (transformer) (0)	2022.03.04
[논문 리뷰] SRGAN (0)	2022.02.18
빈도주의 vs 베이지안 (0)	2022.02.06

+ Recent posts

Powered by Tistory, Designed by wallel

티스토리툴바