플로팅을 위해 다른 차수의 스케일링 데이터


9

다음 데이터 세트를 살펴보십시오.

 Date        Visits   Carts      carts       Orders
                      Created   converted    Created
2011-11-11    12277     161        9          36  
2011-11-12    11871     93         5          19    
2011-11-13    13072     107        8          8     
2011-11-14    13594     112        4          34    
2011-11-15    12741     129        8          43    
2011-11-16    15491     261        16         57 
2011-11-17    13418     186        17         42    

날짜에 X 축이 있고 나머지 데이터가 Y 축에 있음을 사용하여 그래프에 이것을 플롯하라는 요청을 받았습니다. 문제는 데이터의 규모가 크게 다르다는 것입니다. 방문수는 수천 명이고 작성된 주문은 수십 명 미만인 경우 데이터는 그래프에 잘 표시되지 않습니다.

이 시나리오에서 통계학자가 무엇을하는지 궁금해서 방문수를 1000으로 나눈 다음 설명 (방문수 (K))을 입력 할 수 있지만 Carts Created와 동일한 문제가 발생하기 시작합니다. 수백에 있고 다른 모든 것은 낮은 수십에 있습니다.

이 시나리오에서 어떤 종류의 작업이 수행됩니까?

답변:


14

선 차트를 Y 축에 대해 서로 다른 스케일을 갖지만 X 축 (날짜)이 정렬 된 일련의 작은 배수로 플로팅하는 것은 무리가 없습니다. 여기에 이미지 설명을 입력하십시오

나는 이것이 원시 데이터를 검사하고 다른 꺾은 선형 차트 사이의 추세를 비교할 수 있기 때문에 좋은 출발이라고 생각합니다. IMO 먼저 원시 데이터를 확인한 다음 원시 데이터를 검토 한 후 차트를 비교할 수 있도록 변환 또는 차트를 정규화하는 방법을 고려해야합니다.

King이 이미 언급했듯이 변수는 이름과 숫자를 기준으로 자연스러운 순서를 가지고 있으며 적절하다고 가정하면 각 주에서 변환 된 백분율을 기준으로 세 가지 새로운 변수를 만들었습니다. 새로운 변수는 다음과 같습니다.

% Carts Created = Carts_Created/Visits
% Orders Created = Orders_Created/Carts_Created
% Carts Converted = Carts_Converted/Orders_Created

비율을 만드는 것은 시리즈를 공통 스케일에 가깝게 만드는 방법이지만, 모든 선을 하나의 차트에 배치하는 것 (아래와 같이)은 여전히 ​​시리즈를 효과적으로 시각화하기가 어렵습니다. 생성 된 주문 및 카트 변환 레벨은 다른 시리즈의 드워프를 변환합니다. 이 척도에서 장바구니가 생성 된 시리즈의 변형을 볼 수 없습니다 (그리고 이것이 가장 관심이있는 것으로 생각됩니다). 여기에 이미지 설명을 입력하십시오

다시 말하지만, IMO는 이것을 검사하는 더 좋은 방법은 다른 척도를 사용하는 것입니다. 아래는 다양한 척도를 사용한 백분율 차트입니다.

여기에 이미지 설명을 입력하십시오

이 그래픽을 사용하면 시리즈간에 나에게 실제로 의미있는 상관 관계가있는 것처럼 보이지 않지만 각 시리즈 (특히 변환 된 비율) 내에서 많은 흥미로운 변형이 있습니다. 무슨 일이야 2011-11-13? 주문 생성 비율이 훨씬 낮았지만 생성 된 모든 주문은 전환 장바구니였습니다. 사이트 방문 또는 비율 또는 비율 카트가 생성 된 경향을 설명 할 수있는 다른 개입이 있습니까?

이것은 모두 탐색 적 데이터 분석 일 뿐이며 더 많은 단계를 수행하려면 데이터에 대한 통찰력이 더 필요합니다 (이것이 좋은 출발이기를 바랍니다). 다른 방법으로 꺾은 선형 차트를 정규화하여 비슷한 규모로 그릴 수는 있지만 어려운 작업이며 일부 데이터를 선택하는 대신 정보가 제공되는 정보를 기반으로 임의의 스케일을 효과적으로 선택하여 수행 할 수 있다고 생각합니다 기본 정규화 체계. 많은 선 그래프를 동시에 보는 또 다른 흥미로운 응용 프로그램은 수평선 그래프 이지만 많은 다른 선 차트를 한 번에 더 많이 볼 있습니다.


답변에 대한 자세한 내용에 감사드립니다. 원래는 여러 차트가있었습니다. 내 상사는 그래프의 모든 시리즈를 원한다고 결정했습니다 (아마도 너무 많은 시리즈이지만 그것을 볼 수있는 것은 아닙니다) :) 데이터 정규화를 고려할 것이라고 생각합니다. 그래프를 사용하여 추세를 보려고합니다. 테이블 데이터는 일반적으로 그래프 아래에 표시됩니다.
Mike

@ 마이크, 그것은 합리적인 요청입니다. 계열의 정규화는 추세를 변경하지 않아야합니다 (각 계열의 수준과 변동 만). 다행히도 효과적이고 의미있는 방법으로 시리즈를 정규화하는 방법에 대한 통찰력있는 답변을 얻으시기 바랍니다. 그러나 한 마디 만해도 일반적으로 하나의 차트에 3-5 줄만 표시하고 싶을 때 모든 비교를 수행하는 것이 훨씬 더 어렵습니다 (작은 배수는이 문제의 해결 방법입니다).
Andy W

1
@Mike 예,이 경우 (숫자없이 데이터를 시각화하기 만하면) 병렬 디스플레이 에서 같이 최소 / 최대 스케일로 데이터를 간단히 표현할 수 있습니다 . 표 아래에 숫자를 표시 하는 것도 좋습니다.
chl December

1
@chl이 제안한 것처럼 최소 / 최대 스케일로 정규화에 대한 추가 참고 사항. 이상 치가 큰 경우에는 원시 데이터를 먼저 보는 것이 좋습니다. 정규화 프로세스에 해당 값을 포함하지 않는 것이 좋습니다 (예 : 선 그래프가있는 경우 정규화 된 그래프에있는 경우에는 분명해야 함) 하나의 높은 / 낮은 값으로 나머지는 평평합니다). Michael Friendly도 그래프 아래 표를 포함하는 데 동의 할 것이라고 생각 합니다.
Andy W

2

2 개의 y 축, 방문수 (k) 및 장바구니가 하나 만들어지고 다른 하나는 다른 하나 (또는 ​​목적에 맞는 방법)로 만들 수 있습니다.

이것은 분명히 우아한 방법은 아니지만 몇 년 전에 시간의 흐름에 따라 추세를 비교하고 싶었던 기억이납니다.

또는

목적에 맞으면 시간에 따른 백분율 변화를 플로팅 할 수 있습니다.


2 개의 다른 Y 축으로 언급 한 경로를 고려했지만 마음에 들지 않는 점은 두 개의 Y 축 중 하나에 맞지 않는 새로운 시리즈가 도입 된 경우 아마도 붙어있을 것입니다. 제안 해 주셔서 감사합니다. 어쩌면 나는 이것을 더 고려할 것입니다 :)
Mike

백분율 사용에 대한 두 번째 제안은 어떻습니까? 즉, 시작 날짜 (또는 어느 날짜로 차트를 예쁘게 만드는지)에 모든 것을 100으로 색인화합니다. 원하는만큼 새로운 시리즈를 추가 할 수 있습니다!

그것은 옵션입니다. 현재이 데이터를 정규화하는 방법과 작동하는지 파악하려고 시도하고 있습니다. 실패 백분율 아이디어를 줄 것이다 실패 :)
Mike

2

결국 각 값을 최대 값으로 나눈 다음 100을 곱하여 데이터를 정규화하기로 결정했습니다.

  1. 최대 값을 찾으십시오.

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    12277     161        9          36  
    2011-11-12    11871     93         5          19    
    2011-11-13    13072     107        8          8     
    2011-11-14    13594     112        4          34    
    2011-11-15    12741     129        8          43    
    2011-11-16    15491     261        16         57 
    2011-11-17    13418     186        17         42    
    
    maximum       15491     261        17         57
    
  2. 각 숫자를 최대 값으로 나눈 다음 100을 곱하십시오.

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    79.25     61.68      52.94      63.15  
    2011-11-12    76.63     35.63      29.41      33.33    
    2011-11-13    84.38     40.99      47.05      14.03      
    2011-11-14    87.75     42.91      23.52      59.64    
    2011-11-15    82.24     49.42      47.05      75.43    
    2011-11-16    100       100        94.11      100
    2011-11-17    86.61     71.26      100        73.68    
    
  3. 그런 다음 그래프에 이것을 플로팅했습니다. 분명히 이것은 추세만을 보여 주며 사용자는 페이지 하단에 데이터 테이블을 가지고 있습니다.


0

그것은 나에게도 접근 방식입니다-X로 나눔으로써 다른 차원을 동일한 스케일로 조정하지만 최대 또는 최소 값이 아닌 평균 값을 사용합니다. 그 이유는-시간이 지남에 따라 데이터를 추가함에 따라 최대 또는 최소가 변경 될 가능성이 있으며, 마지막 차트에서 100 %였던 것은 이번에는 다른 것입니다. 차트는 이전 차트와 쉽게 조정할 수 없습니다. 평균을 사용하면 변경 사항이 과감하지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.