머신 러닝 알고리즘에서 누락 된 데이터와 희소 데이터의 차이점


20

희소 데이터와 누락 된 데이터의 주요 차이점은 무엇입니까? 기계 학습에 어떤 영향을 미칩니 까? 보다 구체적으로, 희소 데이터와 누락 된 데이터가 분류 알고리즘 및 회귀 (예측 숫자) 유형의 알고리즘에 미치는 영향. 누락 된 데이터의 백분율이 중요하고 누락 된 데이터가 포함 된 행을 삭제할 수없는 상황에 대해 이야기하고 있습니다.


4
희소 데이터는 많은 값이 0임을 의미하지만 값이 0 임을 알고 있습니다. 데이터가 누락되면 일부 또는 많은 값이 무엇인지 알 수 없습니다 .
Anna SdTC

감사. 저도 그렇게 생각했지만 확인하고 싶었습니다. 또한 문제에서 언급했듯이 일반적으로 이러한 유형의 데이터 세트가 기계 학습 문제에서 어떻게 처리되는지 알고 싶습니다 ..
피곤하고 지루한 개발

1
귀하의 질문이 약간 모호하다고 생각합니다. "기계 학습"에는 다양한 방법과 도구가 포함되어 있으므로 대답은 자신이 무엇을하고 싶은지에 달려 있습니다. 다음은 누락 된 데이터를 처리하는 몇 가지 방법에 대한 설명입니다. stats.stackexchange.com/questions/103500/…
Anna SdTC

감사. 광범위한 도구와 유형의 ml 알고리즘을 알고 있습니다. 그러나 일반적인 접근법이 있는지 알고 싶었습니다.
피곤하고 지루한 dev

답변:


16

이해를 돕기 위해 예제를 사용하여 설명하겠습니다. 12 개의 센서가있는 장치에서 데이터를 수집한다고 가정 해 봅시다. 그리고 10 일 동안 데이터를 수집했습니다.

수집 한 데이터는 다음과 같습니다. 여기에 이미지 설명을 입력하십시오

대부분의 센서 출력이 0이므로 스파 스 데이터라고합니다. 이는 센서가 제대로 작동하지만 실제 판독 값이 0임을 의미합니다. 이 행렬은 높은 차원의 데이터 (12 축)를 갖지만 정보가 더 적다고 말할 수 있습니다.

장치의 센서 2 개가 오작동한다고 가정 해 보겠습니다.
그런 다음 데이터는 다음과 같습니다.여기에 이미지 설명을 입력하십시오

이 경우 Sensor1 및 Sensor6의 데이터를 사용할 수 없음을 알 수 있습니다. 결과에 영향을주지 않고 수동으로 데이터를 채워야하거나 실험을 다시 수행해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.