데이터 셋을 첫눈에


10

내 무지를 용서해주세요

나는 내가 찾은 많은 새로운 데이터에 직면하고있는 상황에서 나 자신을 계속 찾고 있습니다. 이 데이터는 일반적으로 다음과 같습니다.

Date     Number1  Number2  Category1  Category2
20120125      11      101        Dog      Brown
20120126      21       90        Cat      Black
20120126      31      134        Cat      Brown
(...)

보통 언뜻보기에 추세가 있는지 실제로 알 수는 없습니다. 다양한 열 사이의 상관 관계는별로 중요하지 않지만 가능한 모든 열 / 범주 조합에 대한 플롯을 수동으로 만들 필요가 없다면 기쁠 것입니다.

숫자, 날짜 및 범주로 처리해야하는 열과 함께 데이터 테이블을 수락 한 다음 플롯을 진행할 수있는 도구가 있습니까?

  • 두 숫자 열 사이의 상관 관계
  • 각 범주에 대해 별도의 추세선이있는 각 두 숫자 열의 상관 관계
  • 각 숫자 열을 시계열로
  • 범주로 구분 된 시계열의 각 숫자 열
  • 기타

결국 이것은 많은 수의 플롯을 생성하며, 대부분 노이즈 만 표시합니다. 이상적으로이 도구는 상관 관계에 따라 플롯의 점수를 매기고 결과적으로 가장 높은 점수의 플롯으로 시작하는 슬라이드 쇼를 표시 할 수 있습니다. 이것은 매우 불완전하지만 데이터 세트를 한 눈에 볼 수 있습니다.

그래서? 모두가 이것을 위해 사용하는 도구가 있습니까? 나는 그것에 대해 알지 못합니까, 아니면 우리가 만들어야 할 것이 있습니까?


답변 해 주셔서 대단히 감사합니다. 데이터에서 언급 한 각 도구를 테스트하는 데 시간이 걸립니다. 시험 후 답을 고를 것입니다. 나는 너무 나쁘다고 생각합니다. 하나 이상을 선택할 수 없습니다 :)
postrational

답변:


15

@Ondrej와 @Michelle은 여기에 좋은 정보를 제공했습니다. 다른 곳에서는 언급하지 않은 몇 가지 요점을 해결하여 기여할 수 있는지 궁금합니다. 테이블 형식의 데이터에서 많은 것을 얻을 수 없다는 것에 대해 스스로를 깨우지 않을 것입니다. 테이블은 일반적으로 정보를 제시하는 좋은 방법이 아닙니다 (참조 : Gelman et al., Turning Tables to Graphs ). 반면, 새로운 데이터 세트를 탐색하는 데 도움이되는 모든 올바른 그래프를 자동으로 생성하는 도구를 요구하는 것은 귀하를 대신하여 생각할 도구를 요구하는 것과 거의 같습니다. (잘못하지 마십시오, 당신의 질문은 당신이 그렇게 멀리 가지 않는다는 것을 분명히 인식합니다. 나는 실제로 그런 도구가 결코 없을 것임을 의미합니다.) 이것과 관련된 좋은 토론을 찾을 수 있습니다. 여기 .

이 말은 데이터를 탐색하는 데 사용할 수있는 종류의 플롯에 대해 조금 이야기하고 싶었습니다. 질문에 나열된 줄거리는 좋은 출발이지만, 우리는 조금 최적화 할 수 있습니다. 우선, 변수 쌍을 상관시키는 "많은 수의 플롯"을 만드는 것은 이상적이지 않을 수 있습니다. 산점도에는 두 변수 간의 한계 관계 만 표시됩니다 . 여러 변수를 조합하여 중요한 관계를 숨길 수 있습니다. 이 접근법을 강화하는 첫 번째 방법은 산점도 행렬 을 만드는 것입니다모든 페어 별 산점도를 동시에 표시합니다. 산점도 행렬은 다양한 방법으로 향상 될 수 있습니다. scatterplot.matrixR의 자동차 패키지 의 기능은 이러한 모든 작업을 훌륭하게 수행 할 수 있습니다 (예를 들어 위에 링크 된 페이지의 절반 아래에서 볼 수 있음).

그러나 산점도 행렬은 좋은 시작이지만 여전히 한계 투영 만 표시합니다. 이것을 넘어서려고 시도하는 몇 가지 방법이 있습니다. 하나는 R 에서 rgl 패키지를 사용하여 3 차원 도표를 탐색하는 입니다. 또 다른 방법은 조건부 도표를 사용하는 것입니다. 코 플롯 은 3 개 또는 4 개의 변수 사이의 관계를 동시에 도울 수 있습니다. 특히 유용한 접근 방식은 산점도 행렬을 대화식 으로 사용하는 것입니다(예를 들어, '브러싱'등) 더 배우려면 더 많은 노력이 필요합니다. 브러싱을 사용하면 매트릭스의 한 프레임에서 하나 이상의 점을 강조 표시 할 수 있으며 해당 점은 다른 모든 프레임에서 동시에 강조 표시됩니다. 브러시를 움직여서 모든 변수가 어떻게 변하는 지 확인할 수 있습니다. 업데이트 : 내가 언급하지 않은 또 다른 가능성은 평행 좌표 플롯 을 사용하는 것 입니다. 이는 응답 변수를 구별하지 않는 단점이 있지만, 예를 들어 X 변수 간의 상관 관계를 검사하는 데 유용 할 수 있습니다.

또한 수집 된 날짜별로 정렬 된 데이터를 검토해 주셔서 감사합니다. 데이터는 항상 시간이 지남에 따라 수집되지만 사람들이 항상 그렇게하는 것은 아닙니다. 선 그래프를 그리는 것은 좋지만 자기 상관부분 자기 상관 그래프로 보완하는 것이 좋습니다 . R에서, 이들에 대한 기능은 각각 acfpacf각각이다.

나는이 모든 것이 자동으로 모든 플롯을 만들 수있는 도구를 제공한다는 의미에서 귀하의 질문에 대답하지는 못하지만 한 가지 의미는 실제로 당신이 두려워하는만큼 많은 플롯을 만들 필요가 없다는 것입니다 예를 들어, 산점도 행렬은 줄의 코드 일뿐 입니다. 또한 R에서는 일부를 자동화 하는 함수 / 재사용 가능한 코드를 작성할 수 있어야합니다 (예 : 변수 목록과 날짜 순서를 취하는 함수를 상상할 수 있습니다) , line, acf 및 pacf 플롯이있는 각각에 대해 새 창을 표시합니다.


언제나 그렇듯이 훌륭한 포인트입니다. :)
Michelle

2
(+1) 놓치지 마세요 ggobimarginal.plot으로부터 latticeExtra의 패키지를.
chl

7

각 숫자 열 쌍 사이의 상관은 상관 행렬로 표시 될 수 있습니다. 순전히 숫자 일 필요는 없으며 색상으로 구분하여 한 눈에 평가할 수 있습니다. R에 대한 corrplot 패키지를 확인하십시오 .

추가 분석을 위해 Rattle 은 매우 유용한 GUI 도구입니다.

"corrplot"또는 "Rattle"이라는 키워드를 사용하여 Stack Exchange를 검색하면 이러한 도구 및 대체 도구에 대해 다루는 몇 가지 주제가 있습니다. 마찬가지로 이 하나 .

행운을 빕니다!


4

@Ondrej는 좋은 조언을 해주었으므로 소프트웨어가 가져온 데이터를 처리하는 방법에 대한 귀하의 질문에 중점을 둘 것입니다. 문자 데이터 "Category 1"및 "Category 2"를 사용하면 이러한 데이터 조각에서 수학 연산을 수행 할 수 없기 때문에 소프트웨어가이를 그룹 또는 요소로 자동 처리합니다. 즉, 숫자가 필요한 분석에 해당 범주 (또는 구문을 사용하거나 메뉴 방식 시스템 대신 명령 행을 사용하는 경우 오류가 발생 함)의 항목을 입력하지 못하게됩니다.

"번호 1"및 "번호 2"와 같은 데이터의 경우 소프트웨어는이를 숫자로 읽습니다. 순전히 숫자 데이터를 포함하는 그룹 / 요소가있는 경우 소프트웨어에 그룹 / 요소임을 지시해야합니다.

때때로 날짜를 통계 소프트웨어로 잘못 가져올 수 있습니다. 데이터를 가져 오면 통계 소프트웨어의 데이터 유형에 "날짜"에 대한 "날짜"유형이 표시되는 것을 볼 수 있습니다. 데이터 유형이 날짜 이외의 것으로 표시되면 문제가있는 것입니다. 날짜로 표시 되더라도 소프트웨어 설정 방법에 따라 달의 13 일 또는 25 일과 같은 날짜와 같은 날짜가있는 일부 행의 가져 오기를 확인하십시오. 때로는 미국 / 영국 날짜 형식으로 인해 가져 오기에서 데이터가 손상 될 수 있습니다 일 / 월의 반전으로 인해

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.