Computer Engineering/머신러닝(ML: Machine Learning)

[ML] 3-1. 머신러닝의 훈련 조건 (좋은 데이터와 나쁜 데이터)

잇트루 2021. 4. 24. 08:00
반응형

[이전글]

[ML] 2-2. 머신러닝의 종류 및 적용 사례 (2)

ittrue.tistory.com/36

 

[ML] 2-2. 머신러닝의 종류 및 적용 사례 (배치 학습, 온라인 학습, 사례 기반 학습, 모델 기반 학습)

[이전글] [ML] 2-1. 머신러닝의 종류 및 적용 사례 (1) ittrue.tistory.com/35 [ML] 2-1. 머신러닝의 종류 및 적용 사례 [이전글] [ML] 1. 머신러닝이란 무엇인가? (About ML: Machine Learning) ittrue.tistory.c..

ittrue.tistory.com

머신러닝 훈련 조건

머신러닝을 통해 문제 해결을 위해서는 머신러닝 알고리즘도 중요하지만 가장 기본적인 훈련 데이터를 잘 다룰 줄 알아야 합니다. 간단한 문제일 지라도 훈련 데이터를 수집, 처리 등의 해결이 부족하면 결과물 또한 미흡한 결과물을 나타낼 수밖에 없습니다. 이러한 문제를 해결하기 위해선 어떤 준비를 해야 하며, 어떻게 분석 및 처리를 해야 할까요?

 

1. 가능한 많은 데이터가 필요하다.

머신러닝으로 문제를 해결하고 좋은 결과를 도출하기 위해서는 많은 데이터를 필요로 합니다. 예를 들어 이미지 분석, 음성 인식 등과 같은 문제를 해결하기 위해서는 수십 또는 수백만 개의 이르는 데이터가 필요할 수 있습니다. 훈련 알고리즘이 잘 짜여 있더라도 데이터량이 충분하지 않으면 알고리즘의 성능이 떨어질 수 있기 때문입니다. 일반적으로 데이터가 많으면 많을수록 훈련 모델의 성능이 높아집니다.

 

2.  대표성 없는 훈련 데이터는 포함시키지 않는다.

대표성이 없는 훈련 데이터 중 데이터 수가 적을 때에 자주 발생하고 우연히 추가된 대표성이 없는 데이터를 샘플링 잡음(Sampling noise)이라 하며, 훈련 데이터가 많음에도 불구하고 표본 추출 방법이 잘못되어 발생하는 대표성이 없는 데이터를 샘플링 편향(Sampling bias)이라 합니다. 예를 들어 1인당 GDP와 삶의 만족도 관계에서 샘플링 잡음은 1인당 GDP가 낮음에도 불구하고 매우 높은 삶의 만족도를 가지고 있는 소수의 국가 또는 1인당 GDP가 높음에도 불구하고 매우 낮은 삶의 만족도를 가진 소수의 국가들을 가리킬 수 있습니다. 이러한 몇몇의 소수의 데이터에 의해 훈련 모델의 정확도가 낮아지게 될 수 있습니다. 샘플링 편향의 경우 국가의 이름에 특정 알파벳이 포함된 국가들은 삶의 만족도가 높거나 낮을 수 있는데 이는 1인당 GDP와 삶의 만족도 관계에서는 일반화할 수 없는 데이터이기 때문에 훈련 모델의 정확도가 낮아질 수 있습니다. 그렇기 때문에 대표성 없는 훈련 데이터는 모델 훈련에 포함시키지 않아야 합니다. 

 

3. 품질이 낮은 데이터들은 고치거나 무시해야 한다.

일부 샘플들이 이상치를 포함하고 있는 게 명확하다면 고치거나 무시해야 합니다. 이러한 이상치 값들은 누락되어 나타날 수도 있고, 일부 데이터가 존재할 수 없는 데이터로 나타날 수 있습니다. 이러한 이상치 데이터를 해결하기 위해서는 해당 특성들을 제외하여 훈련 데이터에 포함시키지 않거나, 해당 샘플 자체를 제외하거나, 누락된 값을 평균값 또는 중간값으로 대체하는 등 여러 가지 방법이 있습니다. 간단한 예로 어떤 쇼핑몰에서 광고를 내기 위해 성별 또는 연령별 관심분야를 분석하고자 한다면, 회원들의 성별과 연령별로 나누어야 합니다. 여기서 몇몇 회원들의 성별 또는 연령이 누락되거나 없는 데이터 값을 가지고 있는 경우를 말합니다. 이 값들을 삭제, 수정, 무시하는 등 여러 가지 방법으로 모델을 훈련시킬 수 있습니다.

 

4. 관련이 높은 특성들을 찾아야 한다.

문제 해결을 위해서는 주어진 데이터가 문제 해결과 관련이 높은 특성들을 찾아야 합니다. 준비되어 있는 데이터들의 특성 중에는 문제를 해결하기 위한 유용한 특성들이 존재하게 됩니다. 이러한 특성들을 추출하여 조합하는 등 새로운 특성들을 만들 수 있습니다. 예를 들어 쇼핑몰에서 성별과 연령을 조합하여 특정 성별의 연령에 따라 판매가 잘되는 물건들을 카테고리 또는 광고로 이용하는 방법이 있습니다.

 

 

[다음글]

[ML] 3-2.머신러닝의 훈련 조건 (2) - 과대적합과 과소적합

ittrue.tistory.com/39

 

[ML] 3-2. 머신러닝의 훈련 조건 (과대적합과 과소적합)

[이전글] [ML] 3-1. 머신러닝의 훈련 조건 (1) - 좋은 데이터와 나쁜 데이터 ittrue.tistory.com/38 [ML] 3-1. 머신러닝의 훈련 조건 (좋은 데이터와 나쁜 데이터) [이전글] [ML] 2-2. 머신러닝의 종류 및 적용 사.

ittrue.tistory.com

 

반응형