전체 글

프로그래머스 인공지능 데브코스 후기... 그 1년 후 2023.05.18 1
[자아성찰] 열등감? 가면 증후군? 2022.06.10
[ML] 의사결정나무(Decision Tree) 뿌시기 2022.05.21

프로그래머스 인공지능 데브코스 후기... 그 1년 후

2023. 5. 18. 02:52

다시 돌아보는 프로그래머스 인공지능 데브코스

정말 오랜만에 블로그에 다시 들어왔다. 그러다가 예전에 썼던 프로그래머스의 인공지능 데브코스를 수료하고 처음 올린 후기가 5월 16일자 글이라 조금 소름 돋았다. 데브코스 수료를 마친지도 딱 1년이 지났다. 그 사이에 취업도 하고 코로나도 끝나고 참 많은 일들이 있었다. 오늘은 내가 인공지능 데브코스를 참여하고 나서 그 이후 무슨 일들이 있었는지 후기를 남겨보려고 한다.

데브코스는 경영학 전공한 문과생이 인공지능 공부 좀 해보겠다며 대학원까지 갔는데 취업 못해서 아등바등 했을 때, 참으로 적절한 시기에 나에게 다가온 기회였다. 한창 취업에 열중하던 당시, 나는 다른 지원자들과 비교해서 인공지능에 대한 지식이 떨어진다고 생각하진 않았다. 나의 약점은 뭐 하나 제대로 이룬 것이 없다는 것이었다. 특별한 목적없이 대학원을 다니다보니 컴퓨터 비전이니. NLP니 전문적으로 아는 분야도 없이 그냥 여기 살짝 저기 살짝 혓바닥만 대보면서 대학원을 졸업했다. 취업시장은 냉랭했다. 졸업장만으론 취직이 되지도 않고 면접에서 내가 했다고 내세울게 하나도 없었으니 면접을 볼 때 마다 너무 창피했다.

막상 나 혼자 프로젝트를 해보려고 하니 나는 개발에 대한 지식이 너무 부족했다. 그 당시 내가 할 수 있는 것은 구글 코랩에 코드 좀 쓰고 학습 돌리고 테스트하고 그정도… 정규화 된 데이터가 없으면 아무것도 할 수 없었고 모델을 만들어도 모델을 서빙하거나 프로토 타입을 작성해서 보여줄 수도 없었다. 이제까지 몇 년이나 배웠는데 마음만 먹으면 뭐라도 만들 수 있겠지 생각했던 나는 나의 무능력에 너무 충격을 먹었다.

그래서 이번엔 정말 뭐라도 해보려고 여기저기 서치를 하다가 동기 중 한 명이 코딩부트캠프 같은 걸 수강해서 공부도 하고 프로젝트도 해볼 수 있었다는 소리를 듣고 솔깃해서 나도 부트캠프를 수강해야겠다고 생각했다. 그러던 중 찾은 것이 데브코스. 네이버 부스트캠프도 고려했었으나 데브코스의 면접 결과가 먼저 나와서 최대한 빨리 취업하고 싶었던 나는 데브코스를 선택했다. 인공지능 데브코스는 국비지원 과정이었다. 나는 내가 국비지원 취업교육같은 것을 받을 거라고 생각조차 안해봤어서 무슨 제도인지 하나도 몰랐는데 카드 하나 만드니까 교육과정을 무료로 수강할 수 있고 지원금까지 준다고 해서 놀랐다… 요즘엔 내가 나라에 받을 수 있는 혜택이 뭔지 찾아보지도 않으면 정말 손해보고 살겠구나 생각했다.

나는 진짜 이번에 취업 못하면 죽는다는 거창한 마음으로 교육 과정에 임했다. 꼬박꼬박 아침에 일어나서 줌 출석하고 인터넷 강의 듣는다고 하루종일 책상 앞에 앉아있고 정규 교육 시간 끝나면 과제하고 더 공부하고 싶은 것들 찾아보고… 일어나는 것도 귀찮아 하던 내가 백수 신세가 되고 발등에 불이 떨어지니 정말 뭐라도 하게 되더라. 나도 나 자신에게 놀랐다.

데브코스를 수료하며 나에게 남은 것들

인공지능 데브코스니까 인공지능에 대해서도 많이 배웠지만 프로젝트에 필요한 다른 기술들을 많이 배울 수 있어서 좋았다. 파이썬 쓸 줄만 알았지 뭔가를 만드는 건 할 수도 없었는데 데이터 베이스부터 클라우드 사용하는 법, 프론트를 잘 몰라도 잘 만들 수 있게 도와주는 프레임워크들도 배울 수 있어서 너무 좋았다. 솔직히 나 혼자 공부하려고 했으면 뭘 공부해야할지도 몰라서 쩔쩔 맸을거다. django까지 배우니까 정말 이제 마음만 먹으면 기본적인 수준의 프로젝트는 못할게 없겠구나 생각이 들었다. 모든 것을 마스터할 정도로 배운건 아니지만 어떤 걸 하려면 뭘 배워야하는지 길을 알게 되니까 프로젝트 시작할 때 막막함이 좀 사라졌다. 혼자 공부할 수 있는 능력이 정말 중요한 것 같다. (요즘은 ChatGPT같은 치트키도 생겨서 진짜 마음만 먹으면 못 배울게 없을듯)

좋은 사람들도 많이 만났다. 팀원들도 그렇고 다른 수강자들도 진지하게 수업을 듣고 서로서로 도와주는 분위기여서 취업 준비에 집중하기 좋았다. 솔직히 공부 하는 사람만 공부하고 중도 포기자가 엄청 많지 않을까 걱정했는데 생각보다 환경이 정말 좋았다. 데브코스 처음 지원할 때는 무슨 교육 좀 듣겠다는데 면접까지 봐야되나 싶었는데 확실히 학습 분위기가 통제되니까 다 이유가 있었구나 생각하게 되었다.

데브코스 마지막 과정에는 팀 프로젝트를 하게 되는데 그 때는 정말 힘들었다. 배우고 조금씩 써볼 때만해도 프로젝트 수행하는 데 어려움이 없을 줄 알았는데 실제로 해보니까 갖가지 문제에 부딪혔다. 팀끼리 경쟁이 있어서 튀어보는게 좋지 않을까해서 일부러 좀 어려운 주제를 선택했는데 모르는 것들을 공부하는 것도 힘들었는데 실제로 프로젝트로 구현을 하려니까 전혀 예상하지 못하던 에러들이 막 생겼다. 나름 내가 조장을 맡았는데 내가 해결해 줄 수 없는 문제가 너무 많아서 살짝 자신감이 떨어지기도 했다.

그래도 혼자서 프로젝트를 할 때보다 덜 막막했고 에러들도 서로서로 소통하고 도와서 잘 해결되었다. 도커랑 AWS가 가장 문제를 많이 일으켰는데 팀원들끼리 스터디를 해서 클라우드랑 컨테이너에 대해서도 많이 배우고 편한 기술들을 직접 만져보면서 알게 되니까 너무 좋았다. 나름 인공지능 프로젝트였는데 구현이나 학습보다 인공지능 모델 서빙 과정에서 더 많은 문제들이 발생해서 정작 모델은 조금 완성도가 떨어져서 아쉽긴했지만 그래도 내가 처음으로 아이디어 구상부터 서빙까지 프로젝트를 마쳤다고 생각하니까 너무 뿌듯했다.

데브코스 수료 그 1년 후...

데브코스를 수료하고 나서 다시 취업준비를 했는데 솔직히 여전히 힘들긴 했다. 그래도 대학원 졸업하고 바로 취업준비 했을 때 보다는 조금이라도 경험이 있으니까 면접 대답도 더 잘할 수 있게 되었고 좀 더 높은 단계까지 올라갈 수 있었다. 웨이브나 CJ 올리브네트웍스는 정말 입사하고 싶었는데 최종 면접에서 떨어져서 너무 아까웠다.

지금은 이커머스 관련 중견기업에서 신입 데이터 사이언티스트로 일하고 있다. 지금 돌아보니까 데브코스에서 겪었던 경험들이 취업 준비할 때보다 취업 후에 더 도움이 되었다. 막상 일을 시작하니까 어려운 논문을 읽고 복잡한 코드를 짜고 이런 것들 보다 데이터 베이스, 서버, 개발환경 등 여기저기서 사소한 문제들이 발생하는게 힘들었는데 직접 그런 문제들을 해결해 본 경험들이 한 번이라도 있으니까 좀 더 해결하기가 수월했다. 요즘은 ChatGPT 같은 것도 생겨서 일이 더 편해졌다. 이런 도구가 있어도 무슨 질문을 해야할지 모르면 사용도 못했을 텐데 프로세스들을 대강 꿰고 있으니까 무슨 질문을 해야 문제를 해결할지 알고 있으니 ChatGPT도 잘 활용할 수 있었다.

데이터 과학이나 인공지능 분야로 취업을 원하는 문과생들이 가장 부족한 부분이 개발 측면에 대한 지식인 것 같다. 요즘은 책이나 강의 같은 것들이 잘 나와서 머신 러닝이 어떻고 딥러닝이 어떻고 배우는 것은 정말 어렵지 않은데 막상 프로젝트 한 번 해보려고 하면 인공지능 외의 지식이 0이니까 뭐 하나 해보려고 해도 정말 막막하다. 나는 그런 사람들에게 인공지능 데브코스 같은 부트캠프를 추천한다. 데브코스를 수강하기 전에는 국비지원 취업 교육에 대한 편견이 있었는데 생각보다 정말 많은 도움이 되었다. 물론 배우려고 하는 의지가 중요하긴 하다. 그냥 출석만하고 강의만 듣는 걸로는 별로 얻어가는 것이 없을 수도 있다. 다만 정말 인공지능 분야에 취업하고 싶은 의지가 있다면 프로그래머스 인공지능 데브코스를 수강해보는 것을 추천한다. 나에게 데브코스는 정말 많은 것을 경험할 수 있는 기회였다. 👍👍

[프로그래머스 인공지능 데브코스가 궁금하다면 링크클릭]... 와 근데 홈페이지 많이 멋있어졌다 ㅋㅋㅋ

저작자표시 비영리 변경금지

'About me' 카테고리의 다른 글

About me (0)	2021.11.02

[자아성찰] 열등감? 가면 증후군?

2022. 6. 10. 16:45

오늘은 공부얘기는 아니지만 인터넷에서 꽤 공감이 많이 가는 기사를 발견해서 포스팅해보려 한다. 열등감에 시달리는 다른 사람들도 꽤 많이 공감이 갈수도 있을 것같다. 내가 발견한 기사는 바로 이것이다. 링크 여배우 나탈리 포트만의 일화와 가면 증후군이라는 정신증을 잘 설명해 놓았다. (증후군이라는 단어가 붙었으나 서치 결과 실제 정신과 진단명은 아닌 듯 하다.)

가면 증후군이란?

가면 증후군은 많은 사람들이 느끼는 감정인 열등감과 관련되어 있는 정신증이다. 가면 증후군은 본인이 이룬 성과에 대한 평가가 실제보다 부풀려져있다고 여기는 것이다. 임포스터 신드롬이라고도 한다는데 가면 증후군이 있는 사람은 말 그대로 자신을 사기꾼, 가면을 쓰고 있는 사람이라고 여긴다. 그래서 언제나 내 가면이 벗겨지면 어떡하나 내 사기가 들키면 어떡하나 걱정하게 된다. 자신의 성공은 운 때문이지 자신의 능력 때문이 아니라는 것이다. 자신의 성공을 운으로 돌리는 것은 사람들이 흔히 가지고 있는 방어기제의 일종이라고 한다. 실패했을 때 느낄 좌절감에 대한 불안을 막기 위해 자기 자신의 능력을 낮추는 것이다. 아인슈타인도 이 증상이 있어서 주위 사람들에게 자신은 능력이 없는데 운이 좋아 좋은 평가를 받는 것 같다고 말하고 다녔다고 한다. 가면 증후군이 있는 사람들은 실패에 따른 불안을 줄이기 위해 일부러 이루지도 못할 허무맹랑한 목표를 세우거나 계속 해야할 일을 미루는 경향이 있다고 한다. 혹은 강박적으로 자신을 완벽주의자로 몰아세우기도 한다. 이런 태도는 자신의 평소 기분이나 식욕, 수면 습관들에 부정적인 영향을 줄 수도 있다.

나는 어떨까

나는 이 기사를 읽으면서 공감이 많이 되었다. 가면 증후군 기사를 읽으면서 공감을 했다고 밝히는 것 자체가 가면 증후군이 아니라는 뜻인가(?) 아무튼 가장 공감 되었던 부분은 내가 이룬 성공을 운으로 돌린다는 것이다. 나는 평소에 내가 너무 과분한 대접을 받고 있다고 생각해왔다. 대학교에 진학하고 나서 부터다. 그 이전에는 오히려 잘난척해서 눈총을 받았으면 받았지 그런 생각은 안했던 것 같다.
대학교에 진학하고 나서는 정말 많은 실패를 겪었던 것 같다. 성적, 학교 생활, 인간관계 등 많은 부분에서 실패를 경험했다. 그래서인지 나는 자신감이 점점 없어지기 시작했다. 대학만 잘가면 모든게 잘 풀릴 것 같던 세상에 되는 일이 하나도 없어서 나는 사실 그냥 운이 좋았던 것 뿐 아닐까? 라는 생각도 했다. 수능 시험에 우연히 내가 잘 아는 문제만 나왔을 수도 있다. 혹은 우연히 다른 사람들이 그날따라 컨디션이 안좋았을 수도 있다. 그런 생각들을 했다. 나는 사실 문제만 잘푸는 건데 공부를 잘한다고 오해를 받았던 건 아닐까하는 생각도 해본 적 있다. 사실 더 따지고 보면 우리집의 경제적 상황이나 태어난 국적까지 따지면 상황이 더 안좋은 사람들이 보기엔 내가 우리집에 태어난 것 자체가 운이다.
그런데 이런 생각이 들면 더 열심히 내 능력을 증명했어야 했는데 나는 해도 안될 것 같다고 생각하면서 어차피 인생은 다 운이라고 생각하며 나 자신을 합리화해왔던 것 같다. 반면 나탈리 포트만은 똑같이 자신의 능력이 과대평가 받고 있다고 생각했지만 그 생각 때문에 자기의 능력을 증명하려고 계속 어려운 수업만 들었다고 한다. 일부러 어려운 수업을 듣느라고 스트레스를 받기는 했겠지만 나보다는 긍정적인 방향인 것 같다. 나는 비록 하버드도 다니지 않고 6개국어를 할 수도 없어서 비교하는게 맞는가 싶긴 하다.
그래도 한가지 확실한 것은 실제로 이제까지 모든 결과가 운이었다고 하더라도 내 능력을 꼭꼭 숨기면서 될대로 살자는 태도는 잘못된 것이라는 점이다. 정신적 건강에 좋지 않을 뿐만 아니라 내가 노력으로 이룰 수 있는 성공까지 잃어버릴 수 있다. 나의 성과와 실패를 객관적으로 보는 것이 중요한 것 같다. 잘한 것은 인정하고 실패를 바탕으로 성장하는 것이 중요하다. 뭔가를 실패했다고 그게 내 한계라고 결정짓는 것은 너무 성급하다. 세상에 시간만 많으면 못할게 뭐가 있겠는가

가면 증후군을 해결하기

기사에 가면 증후군을 해결하는 여러가지 방법이 실려있었다. 하지만 가장 기억에 남는 방법은 구체적인 계획표 짜기 였다. 언뜻 생각하면 계획이 열등감이랑 무슨 상관인가 싶을 수도 있지만, 자신이 이룰 수 있는 계획을 세부적으로 짜고 그것을 하나하나 성취하면서 자기 자신을 칭찬해주라는 뜻이다. 또 그만 미루기 도 참 뼈를 때리는 말이다. 나는 평소에 심하게 할 일을 미루는 버릇이 있는데 아마 실패를 피하려고 하는 생각에서 온 것 같다. 근데 이건 뭔가 의식적으로 그만 미루려고 생각하더라도 고치기가 힘들 것 같다(...) 그리고 가장 중요한 것은 역시나 부정적인 생각 버리기 인 것 같다. 내 능력이 과대평가되었다는 생각보다는 인정할 건 인정하고 고쳐야 할 건 고치는 태도를 가지는 것이 맞다. 자기 능력에 대한 불신이나 연민보다는 그냥 자기 성장에 대해서만 생각하자. 오늘보다 내일 더 나아지면 된다는 생각으로 자기 성장에 대해서만 집중하자.

저작자표시 비영리 변경금지

'Others' 카테고리의 다른 글

[후기] 프로그래머스 인공지능 데브코스를 마치며 (0)	2022.05.16
약 7개월의 구직... 중간점검... (0)	2022.04.03

[ML] 의사결정나무(Decision Tree) 뿌시기

2022. 5. 21. 15:21

* <데이터 과학자와 데이터 엔지니어의 인터뷰 문답집>을 참고하여 작성되었습니다.

의사결정나무(Decision Tree) 뿌시기

의사결정나무란?

의사결정나무는 데이터의 feature의 값에 따라서 분기를 나누면서 트리 구조를 만들고, 이를 이용해 분류나 회귀 문제를 푸는 모델이다.

의사결정나무의 장단점

장점: 인간이 실제로 하는 판단과 과정이 비슷하기 때문에 직관적이고, 설명하기 쉽다.
단점: 과적합의 위험이 크다.

의사결정나무가 만들어지는 방식

feature들을 통해서 분기를 나누면서 데이터를 예측하는 방식으로, 최적의 의사결정모델을 구하는 방식은 NP-hard 문제에 속한다. 따라서 의사결정나무는 분기를 나눌 feature를 정할 때, 휴리스틱 함수를 이용한다. 휴리스틱 함수는 위키백과의 정의에 따르면 "가용한 정보를 기반으로 각 분기 단계에서 어느 한 분기를 선택하기 위해 사용하는 다양한 탐색 알고리즘의 대안 함수"라고 정의 했다. 의사결정나무는 즉 모든 경우를 고려하여 최적의 트리를 만드는 방식이라기 보다는, 분기를 나눌때마다 휴리스틱 함수에 따라서 그때그때 최선의 feature를 선택하는 그리디 방식에 가깝다고 볼 수 있다.

의사결정나무를 만드는 데 사용되는 휴리스틱 함수는 최대정보이득, 최대정보이득비율, 지니계수가 있다.이 세 휴리스틱 함수는 각각 의사결정나무를 만드는 알고리즘인 ID3, C4.5, CART 알고리즘에서 사용된다.

최대 정보 이득

최대 정보 이득을 구하기 위해서는 먼저 엔트로피에 대해서 알아야한다. 여기서 말하는 엔트로피는 열역학의 엔트로피는 아니고, 정보이론에서 말하는 엔트로피이다. 정보이론은 엔트로피라는 개념을 도입해 어떤 사건을 통해서 얻을 수 있는 "정보량"을 표현하고자 했다. 정보이론은 어떤 사건이 흔하게 발생하는 사건이면 그 사건은 새로운 정보를 주지 못하기 때문에 정보량이 낮고, 드물게 발생하는 사건이면 반대로 정보량이 높다고 한다. 엔트로피는 이 정보량의 평균을 의미한다.

이 정보량의 평균, 즉 엔트로피는 조건에 따라 변화하기도 한다. 아무런 데이터 없이 미래를 예측하는 것은 어렵다. 예상 가능한 미래의 사건이 수 없이 많을 것이고, 가능한 사건이 많다보니 각각의 확률도 낮아 결국 평균 정보량이 높아진다. 엔트로피가 높다. 하지만 과거의 데이터가 있다면 미래 예측은 좀 더 쉬워지게 된다. 이러한 사전정보로 인해 미래 예측에 대한 엔트로피가 낮아진다.

정보 이득(information gain)은 어떤 feature를 따라 분류했을 때 엔트로피가 낮아지는 정도라고 생각하면 된다. 이 경우엔 엔트로피를 최대한 많이 낮출 수 있는 feature를 찾아 분기를 만든다.

최대 정보 이득비

정보 이득이 단순히 줄어드는 엔트로피의 값을 이용해 계산하는 것이라면, 정보 이득 비는 해당 feature에 따른 엔트로피와 그 feature가 주는 정보 이득 사이의 비율을 이용해서 계산한다. 이렇게 하는 이유는 feature의 종류의 수에 따른 불균형을 보정해주기 위한 것이다.

가능한 종류가 수없이 많은 feature의 경우, 당연하게도 정보이득이 굉장히 크다. 예를 들어 사람을 DNA 변수로 분류를 한다고 했을 때, 사람마다 전부 DNA가 다르기 때문에 각각 DNA의 확률도 낮아지게 되고 결국 정보 이득이 커질 수 밖에 없다.

하지만 이런 정보 이득은 실제 예측에서는 의미가 없다. 사람마다 전부 다른 DNA로 분류를 예측한다는 것은 과적합을 부를 뿐이다. 이런 단점을 보정해주기 위해 제안된 것이 최대 정보 이득비다. 앞서 언급한 DNA 정보같은 경우는 정보 이득이 상당히 크지만 DNA에 따른 엔트로피도 클 것이기 때문에 ''정보 이득 비''에서는 이것이 보정이 된다.

지니 계수

지니계수는 CART에서 사용되는 휴리스틱 함수인데 CART는 다른 알고리즘과 약간 다른 것이 분기를 나눌때 항상 이진 트리의 형태로 나눈다. 예를 들어 성적이라는 변수에 상, 중, 하라는 값이 있을 때 다른 의사결정나무 알고리즘은 상, 중, 하로 분기를 나눌 수 있지만 CART는 성적이 상인 집합 또는 상이 아닌 집합 둘로만 나눌 수 있다. CART는 이런 식으로 모든 feature에 대해 두 집합으로 나눠보면서 지니계수를 계산하고 지니계수가 가장 낮은 feature를 선택한다.

지니계수를 사용하는 CART 알고리즘의 경우, 범주형 변수 뿐만 아니라 수치형 변수도 사용할 수 있다는 특징이 있다. 모든 분기에서 이진 분할을 사용하기 때문이다. (수치형 변수를 절반으로 나누면 된다) 또한 분류 뿐만 아니라 회귀 태스크에서도 지니계수 대신 MSE로 분기하는 방식으로 사용 가능하다.

왜 의사결정트리는 앙상블 모델에서 많이 쓰일까?

앙상블은 여러 모델을 융합하는 전략과 방법을 통칭해서 부르는 말이다. 앙상블의 주된 목적은 여러 모델의 결과를 사용해서 결과 값의 분산이나 바이어스를 줄이는 것이다. 그런데 이를 위해서는 여러 모델들이 다양한 값을 출력해야 한다. 모든 모델이 비슷한 값만 출력한다면 앙상블을 하나마나 의미가 없다.

이런점에서 의사결정트리가 앙상블에 최적인 모델이라고 볼 수 있다. 앙상블을 하는 과정에서 보통 학습 데이터에서 일정 비율의 샘플을 랜덤하게 추출해 여러개의 모델을 학습시키는 방법을 사용하는데 선형 회귀 등 다른 모델들은 학습 데이터가 조금 바뀌더라도 결과값이 크게 바뀌지 않는 반면 의사결정트리는 학습 데이터에 따라 트리 구조가 많이 바뀔 수 있다. 따라서 앙상블에서는 의사결정트리 모델을 많이 사용하게 된 것이다.

앙상블의 종류

앙상블에는 부스팅과 배깅이 있다. 부스팅은 여러개의 모델을 학습시킬 때, 전의 모델이 잘못 분류한 샘플에 대해 가중치를 줘서 다음 모델을 학습시킬 때 적용한다. 쉽게 말해서 부스팅에선 모델이 점점 발전하는 방식으로 학습이 된다고 할 수 있다. 이 방법은 마치 인간이 학습을 하는 과정과 비슷하다. 인간은 어떤 것을 처음 배울땐 서툴지만, 한번 두번 배우고나서 점점 과거에 실수했던 기억을 이용해 더 잘 배우게 된다.

반면 배깅의 경우는 모델들을 서로 독립적으로 유지시킨다. 대표적으로 랜덤 포레스트가 있다. 훈련 데이터셋에서 랜덤으로 샘플을 추출하고 각각 다른 데이터 셋 샘플을 만들어서 여러개의 모델을 훈련시킨다. 이렇게 훈련된 모델들은 서로 다른 데이터에서 학습되었으므로 상호 독립적이다. 이렇게 학습된 모델들은 투표(voting)를 이용해 최종 결과값을 결정하게 된다.

비유적으로 설명하면 부스팅은 직렬적, 배깅은 병렬적이다. 부스팅은 한 사람이 어떤 것을 여러 번 배우면서 익혀나가는 과정과 같다면 배깅은 여러 사람이 머리를 맞대고 의견을 모아 생각하는 것과 똑같다.

앙상블은 왜 사용하는가?

어떤 예측 모델의 불확실성을 설명할 때, 분산과 바이어스의 관점으로 설명할 수 있다. 분산은 훈련 데이터 셋이 가지고 있는 노이즈를 학습함에 의한 에러라면, 바이어스는 모델 자체의 성능에 따른 에러다.

부스팅 모델의 경우는 가중치를 이용해 모델을 점점 발전시키므로, 모델이 표현할 수 있는 범위를 늘려 모델의 "바이어스"에 따른 에러를 줄일 수 있다.

반면 배깅 모델의 경우는 훈련 데이터 셋에서 여러 샘플을 뽑아 여러 개의 모델을 학습시키므로 데이터 셋이 가지고 있는 노이즈가 희석 되어, 모델의 "분산"에 따른 에러를 줄일 수 있다.

앙상블의 결과를 병합하는 방법

기초 분류기의 결과를 병합하는 방법에는 투표(voting)와 스태킹(stacking)이 있다. 투표는 가장 많은 표를 얻은 결과를 출력하는 것이고, 스태킹은 모든 기초 분류기의 결과를 가중치에 따라 더한 값을 출력하는 것이다.

저작자표시 비영리 변경금지

'Data Science' 카테고리의 다른 글

누락값(Missing value)를 다루는 방법들 (0)	2022.05.09
[논문 리뷰] ESRGAN (0)	2022.03.25
[논문 리뷰] Attention is all you Need (transformer) (0)	2022.03.04
[논문 리뷰] SRGAN (0)	2022.02.18
빈도주의 vs 베이지안 (0)	2022.02.06

PREV 1 2 3 4 ···40 NEXT

데이터의 바다로

전체 글

프로그래머스 인공지능 데브코스 후기... 그 1년 후

다시 돌아보는 프로그래머스 인공지능 데브코스

데브코스를 수료하며 나에게 남은 것들

데브코스 수료 그 1년 후...

'About me' 카테고리의 다른 글

[자아성찰] 열등감? 가면 증후군?

가면 증후군이란?

나는 어떨까

가면 증후군을 해결하기

'Others' 카테고리의 다른 글

[ML] 의사결정나무(Decision Tree) 뿌시기

의사결정나무(Decision Tree) 뿌시기

의사결정나무란?

의사결정나무의 장단점

의사결정나무가 만들어지는 방식

왜 의사결정트리는 앙상블 모델에서 많이 쓰일까?

앙상블의 종류

앙상블은 왜 사용하는가?

앙상블의 결과를 병합하는 방법

'Data Science' 카테고리의 다른 글

+ Recent posts

티스토리툴바