데이터에서 새로운 지식을 발견하기위한 지침


9

나는 나 자신이나 다른 사람을 지적하기 위해 무언가를 계획한다. 일반적으로 질문이이 프로세스를 시작하며 종종 특정 답변을 요구하는 사람이 있습니다.

덜 편향된 방식으로 데이터에 대한 흥미로운 것을 어떻게 배울 수 있습니까?

지금 나는 대략이 방법을 따르고 있습니다.

  1. 요약 통계.
  2. 스트립 차트.
  3. 산포도.
  4. 흥미로운 데이터 하위 세트로 반복 할 수도 있습니다.

그러나 그것은 체계적이거나 과학적으로 보이지 않습니다.

내가 생각하지 않을 데이터에 관한 사항을 밝히기 위해 따라야 할 지침이나 절차가 있습니까? 적절한 분석을 언제했는지 어떻게 알 수 있습니까?

답변:


6

탐색 적 데이터 분석의 전체 필드 (EDA), 및라는이 주제에 대한 훌륭한 책있다 탐색 적 데이터 분석 존 W. Tukey에 의해이.

나는 당신이 그래프를 사용하는 것을 좋아합니다-데이터에 따라 유용 할 수있는 다른 많은 그래프가 있습니다-얼마나 많은 변수가 있습니까? 변수의 성격은 무엇입니까 (범주? 숫자? 연속? 수? 서수?)

여러 변수가있는 데이터에 종종 유용한 그래프 중 하나는 산점도 행렬입니다.

다양한 유형의 특이 치를 찾을 수 있는데, 이는 종종 흥미로운 점입니다.

그러나 저는이 전체 과정이 실제로 체계적이고 과학적으로 만들어 질 수 있다고 생각하지 않습니다. 체계적이고 과학적인 접근이 가능하기 전에 탐구가 온 것입니다. 여기서 핵심 측면은 장난입니다.


(+1) 언급 한 책에 대한 링크를 제공 할 수 있습니까?
steffen

공학 및 통계 핸드북 itl.nist.gov/div898/handbook/eda/eda.htm 의 EDA .
Selden

@Peter Flom 13 변수는 두 세트의 입력에서 실행되는 프로그램에 의해 생성 된 두 세트의 출력을 비교하여 생성됩니다. 프로그램은 주기적으로 실행됩니다. 변수는 서수, 범주, 범주, 범주, 범주, 개수, 개수, 개수, 개수, 숫자, 숫자, 개수 및 개수입니다. 이름은 id, machineA, inputA, machineB, inputB, new, same, missing, newP, missingP, lengthA, lengthB, scoreA, scoreB입니다. 그러나 가장 최근의 결과 만 비교하기로 결정한 것도 좋은 생각입니다.
Selden

이 책은 실제로 탐색 데이터 분석 (EDA가 아님)이라고합니다. John W. Tukey (저는 에디션의 표지에 EDA라는 레이블이 붙어 있기 때문에 제 기억이 나를 속였습니다) 링크 : amazon.com/Exploratory-Data-Analysis-John-Tukey/dp / 0201076160 /…
Peter Flom

@selden 글쎄, ID는 아마도 유용한 변수가 아닐 것이다. 두 범주 형 변수 사이에서 모자이크 플롯을 볼 수 있습니다. 범주 형과 숫자 형의 평행 상자 그림이 좋을 수 있습니다.
Peter Flom

1

연대순 데이터, 즉 시계열 데이터가있는 경우 "알려진 정보"가 있으며 "알 수없는 상태"가 발견 대기 중입니다. 예를 들어 1,9,1,9,1,5,1,9,1,9와 같은 10주기 동안 데이터 포인트 시퀀스가있는 경우이 샘플을 기반으로 1,9,1,9를 합리적으로 예상 할 수 있습니다. 미래에 일어날 것입니다. 데이터 분석에 따르면 DGF가 보유하지 않았다는 것을 시사하는 + -3 시그마 한계 내에 있지만 6기에는 "비정상적인"판독 값이 있음을 알 수 있습니다. Inlier / Outlier를 마스킹 해제하면 데이터에 대한 사항을 알 수 있습니다. 또한 평균값은 예상 값이 아닙니다. 이 아이디어는 데이터를 분석하기 전에 알려지지 않았을 수있는 평균 이동 및 / 또는 현지 시간 추세를 쉽게 감지 할 수 있습니다 (가설 ​​생성). 이제 다음 10 개의 판독 값이 1,9,1,9 일 가능성도 있습니다. 1,5,1,9,1,9는 "5"가 반드시 향한 것은 아니라고 제안합니다. 불변 상수를 나타내는 적합한 모델에서 오류 과정을 관찰하면 다음과 같은 자연 상태 중 하나가 나타날 수 있습니다. 1) 특정 시점에서 매개 변수가 변경되었을 수 있습니다. 2. 가중 분석 (GLS)이 필요할 수 있습니다. 3. 전력 변환을 통해 데이터를 변환해야 할 수도 있습니다. 4. 오차의 분산을 실제로 모델링해야 할 수도 있습니다. 매일 데이터를 제대로 분석하면 일관된 / 예측 가능한 동작을 반영하는 각 휴일 주위에 응답 창이 나타납니다 (납, 동시 및 지연 구조). 또한 해당 월의 특정 날짜가 중요한 영향을 미치거나 월요일 휴일 전 금요일에 탁월한 활동이 있음을 알 수 있습니다. 도 9는 "5"가 반드시 향한 것은 아니라고 제안한다. 불변 상수를 나타내는 적합한 모델에서 오류 과정을 관찰하면 다음과 같은 자연 상태 중 하나가 나타날 수 있습니다. 1) 특정 시점에서 매개 변수가 변경되었을 수 있습니다. 2. 가중 분석 (GLS)이 필요할 수 있습니다. 3. 전력 변환을 통해 데이터를 변환해야 할 수도 있습니다. 4. 오차의 분산을 실제로 모델링해야 할 수도 있습니다. 매일 데이터를 제대로 분석하면 일관된 / 예측 가능한 동작을 반영하는 각 휴일 주위에 응답 창이 나타납니다 (납, 동시 및 지연 구조). 또한 해당 월의 특정 날짜가 중요한 영향을 미치거나 월요일 휴일 전 금요일에 탁월한 활동이 있음을 알 수 있습니다. 도 9는 "5"가 반드시 향한 것은 아니라고 제안한다. 불변 상수를 나타내는 적합한 모델에서 오류 과정을 관찰하면 다음과 같은 자연 상태 중 하나가 나타날 수 있습니다. 1) 특정 시점에서 매개 변수가 변경되었을 수 있습니다. 2. 가중 분석 (GLS)이 필요할 수 있습니다. 3. 전력 변환을 통해 데이터를 변환해야 할 수도 있습니다. 4. 오차의 분산을 실제로 모델링해야 할 수도 있습니다. 매일 데이터를 제대로 분석하면 일관된 / 예측 가능한 동작을 반영하는 각 휴일 주위에 응답 창이 나타납니다 (납, 동시 및 지연 구조). 또한 해당 월의 특정 날짜가 중요한 영향을 미치거나 월요일 휴일 전 금요일에 탁월한 활동이 있음을 알 수 있습니다. 반드시 그런 것이 아닙니다. 불변 상수가 존재할 수있는 적합한 모델에서 오류 과정을 관찰하면 다음과 같은 자연 상태 중 하나가 드러날 수 있습니다. 1) 특정 시점에서 매개 변수가 변경되었을 수 있습니다. 2. 가중 분석 (GLS)이 필요할 수 있습니다. 3. 전력 변환을 통해 데이터를 변환해야 할 수도 있습니다. 4. 오차의 분산을 실제로 모델링해야 할 수도 있습니다. 매일 데이터를 제대로 분석하면 일관된 / 예측 가능한 동작을 반영하는 각 휴일 주위에 응답 창이 나타납니다 (납, 동시 및 지연 구조). 또한 해당 월의 특정 날짜가 중요한 영향을 미치거나 월요일 휴일 전 금요일에 탁월한 활동이 있음을 알 수 있습니다. 반드시 그런 것이 아닙니다. 불변 상수를 나타내는 적합한 모델에서 오류 과정을 관찰하면 다음과 같은 자연 상태 중 하나가 나타날 수 있습니다. 1) 특정 시점에서 매개 변수가 변경되었을 수 있습니다. 2. 가중 분석 (GLS)이 필요할 수 있습니다. 3. 전력 변환을 통해 데이터를 변환해야 할 수도 있습니다. 4. 오차의 분산을 실제로 모델링해야 할 수도 있습니다. 매일 데이터를 제대로 분석하면 일관된 / 예측 가능한 동작을 반영하는 각 휴일 주위에 응답 창이 나타납니다 (납, 동시 및 지연 구조). 또한 해당 월의 특정 날짜가 중요한 영향을 미치거나 월요일 휴일 전 금요일에 탁월한 활동이 있음을 알 수 있습니다. 불변 상수를 나타내는 적합한 모델에서 오류 과정을 관찰하면 다음과 같은 자연 상태 중 하나가 나타날 수 있습니다. 1) 특정 시점에서 매개 변수가 변경되었을 수 있습니다. 2. 가중 분석 (GLS)이 필요할 수 있습니다. 3. 전력 변환을 통해 데이터를 변환해야 할 수도 있습니다. 4. 오차의 분산을 실제로 모델링해야 할 수도 있습니다. 매일 데이터를 제대로 분석하면 일관된 / 예측 가능한 동작을 반영하는 각 휴일 주위에 응답 창이 나타납니다 (납, 동시 및 지연 구조). 또한 해당 월의 특정 날짜가 중요한 영향을 미치거나 월요일 휴일 전 금요일에 탁월한 활동이 있음을 알 수 있습니다. 불변 상수를 나타내는 적합한 모델에서 오류 과정을 관찰하면 다음과 같은 자연 상태 중 하나가 나타날 수 있습니다. 1) 특정 시점에서 매개 변수가 변경되었을 수 있습니다. 2. 가중 분석 (GLS)이 필요할 수 있습니다. 3. 전력 변환을 통해 데이터를 변환해야 할 수도 있습니다. 4. 오차의 분산을 실제로 모델링해야 할 수도 있습니다. 매일 데이터를 제대로 분석하면 일관된 / 예측 가능한 동작을 반영하는 각 휴일 주위에 응답 창이 나타납니다 (납, 동시 및 지연 구조). 또한 해당 월의 특정 날짜가 중요한 영향을 미치거나 월요일 휴일 전 금요일에 탁월한 활동이 있음을 알 수 있습니다. 가중 분석 (GLS)이 필요할 수 있습니다. 3. 전력 변환을 통해 데이터를 변환해야 할 수도 있습니다. 4. 오차의 분산을 실제로 모델링해야 할 수도 있습니다. 매일 데이터를 제대로 분석하면 일관된 / 예측 가능한 동작을 반영하는 각 휴일 주위에 응답 창이 나타납니다 (납, 동시 및 지연 구조). 또한 해당 월의 특정 날짜가 중요한 영향을 미치거나 월요일 휴일 전 금요일에 탁월한 활동이 있음을 알 수 있습니다. 가중 분석 (GLS)이 필요할 수 있습니다. 3. 전력 변환을 통해 데이터를 변환해야 할 수도 있습니다. 4. 오차의 분산을 실제로 모델링해야 할 수도 있습니다. 매일 데이터를 제대로 분석하면 일관된 / 예측 가능한 동작을 반영하는 각 휴일 주위에 응답 창이 나타납니다 (납, 동시 및 지연 구조). 또한 해당 월의 특정 날짜가 중요한 영향을 미치거나 월요일 휴일 전 금요일에 탁월한 활동이 있음을 알 수 있습니다. 일관되고 예측 가능한 행동을 반영하는 각 공휴일 주변의 동시 및 지연 구조). 또한 해당 월의 특정 날짜가 중요한 영향을 미치거나 월요일 휴일 전 금요일에 탁월한 활동이 있음을 알 수 있습니다. 일관되고 예측 가능한 행동을 반영하는 각 공휴일 주변의 동시 및 지연 구조). 또한 해당 월의 특정 날짜가 중요한 영향을 미치거나 월요일 휴일 전 금요일에 탁월한 활동이 있음을 알 수 있습니다.


0

데이터 마이닝은 두 가지 범주로 나눌 수 있습니다. 특정 변수에 대한 데이터 세트 / 변수의 영향을 측정하는 데 관심이있는 경우 감독 학습으로 간주됩니다. 객관적인 심층 탐구 학습을 위해 감독되지 않은 학습을 받고 있습니다.

첫 번째 단계는 데이터의 그래프 및 통계 분석 (분포 이해 및 직관 이해)입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.