데이터 유형 (공칭 / 소수 / 간격 / 비)이 실제로 변수 유형으로 간주되어야합니까?


10

예를 들어 표준 교과서에서 얻은 정의는 다음과 같습니다.

변수-모집단 또는 표본의 특성. 전의. 테스트시 주식 또는 등급의 가격

데이터-실제 관측 값

따라서 두 개의 열 보고서 [Name | 수입] 열 이름은 변수 및 실제 관측 값입니다. {dave | 100K}, {jim | 200K}는 데이터입니다

따라서 [이름] 열이 명목 데이터이고 [소득]이 비율 데이터라고 말하면 대부분의 교과서와 같이 데이터 유형 대신 변수 유형으로 묘사하는 것이 더 정확하지 않습니까? 나는 이것이 의미 론적 일 수 있다는 것을 이해하고, 그것이 너무도 괜찮습니다. 그러나 나는 여기서 뭔가를 놓칠지도 모른다는 것을 두려워합니다.


의미있는 차이로 나를 때리지 않습니다. 개인적으로 받아 들일 수있는 문구를 고려하고 싶습니다. "가변"의 정의는 조금 벗어난 것 같습니다.
Nick Stauner

2
@Nick 나는 구어체 "특성"을 수학적 "실제 함수"로 변환하면 랜덤 변수의 정의의 일부를 얻는다고 믿는다. (물론 누락 된 부분은 모집단의 시그마 필드에 대한 측정 가능성입니다.) 일반적으로 "샘플의 특성"을 기술 용어 통계 로 변환합니다 . 아마도 이것이 당신이 "조금." 이러한 변환을 통해 변수는 Stevens의 의미에서 전혀 "유형"을 갖지 않습니다 (우리는 이산 형을 연속 분포 와 구별 할 수만 있음 ). 그러나 일부 데이터는 가능합니다.
whuber

답변:


16

스티븐스 '규모의 유형학은 반드시 변수의 몇 가지 고유 한 특성이 아니며, 심지어 데이터 자체하지만, 우리가 정보를 처리하는 방법에 - 우리가 그것을 사용하고 무엇을 할 의미 .

어떤 상황에서, 우리가 무엇을하고 있는지에 따라 정확히 같은 값을 비율, 간격, 서수 또는 명목으로 간주 할 수 있습니다. 그것은 하나의 분석에서 다음 분석으로 변경 될 수있는 값을주는 의미에 달려 있습니다. 스티븐스의 유형학에는 가치가 있지만 그것에 대해 지나치게 처방 할 필요는 없습니다.

스케일이 의미라는 중요성의 중요성에 관한이 문제는 적어도 같은 주 (1953)로 거슬러 올라갑니다.

이 시점은 Velleman과 Wilkinson (1993)에 의해 더욱 명확 해 졌는데, 이들은 티켓 중 하나에 경품이 수여되는 리셉션에 입장 할 때 연속 번호가 매겨진 티켓을받는 사람들의 예를 제공합니다. 티켓의 숫자를 사용하는 것에 따라 4 가지 스케일 모두에 대한 해석이 있습니다.

예를 들어 '내가 이겼 니?' 숫자를 명목으로 취급하는 질문인데, '승차권을 얻기에는 너무 일찍 도착 했습니까?' 그것을 서수로 취급하는 질문입니다. 반면에, 방에있는 사람들의 수를 추정하기 위해 5 개의 무작위 티켓 번호를 사용하는 (그리고 이것은 종이에 없다고 생각합니다.) 위로 상을 받으면 총 출석을 추정 할 수있는 5 개의 난수가 있습니다.

"좋은 데이터 분석은 데이터 유형을 가정하지 않습니다", "Stevens 카테고리는 데이터의 고정 된 속성을 설명하지 않습니다", "Stevens 카테고리는 데이터 스케일을 설명하기에 불충분합니다"및 "Stevens의 기준에 따라 통계 절차를 분류 할 수 없음"(실제로) 각 진술은 섹션 제목입니다).

Tukey는 비판을 여러 곳에서 제공하기도했다 (예 : Mosteller의 5 장과 Tu1977의 1977 년 책 데이터 분석 및 회귀 ). Mosteller와 Tukey는 이름 , 등급 (주문 된 레이블), 순위 (1에서 시작하여 가장 크거나 가장 작은 것을 나타낼 수 있음), 계산 된 분수 (0과 1로 제한되며 백분율 포함), 개수 (음수가 아닌)를 제공했습니다. 정수), 금액 (음수가 아닌 실수), 잔액 (무한, 양수 또는 음수).

저의 작업에서, 레벨 과 관련된 변수 (때때로 '주식'변수라고도 함)와 흐름 사이의 큰 차이를 인식하지 못하는 사람들로 인해 분석에 심각한 문제가 발생하는 상황을 보았습니다. 이러한 유형의 간단한 예는 차이점입니다 저장 탱크에 실제로있는 물의 양과 순서대로 흐르는 물의 양에 적합한 분석 종류. 이것들은 (일부 경우) Mosteller 및 Tukey ' amounts '유형 의 하위 범주 (그리고 동일한 경우 Stevens의 체계에서 비율 변수 모두) 일 것이므로 유형학 문제는 매우 미묘하지만 여전히 적절한 분석에 중대한 영향을 미칠 수 있습니다.

PFVelleman and L.Wilkinson (1993),
"호칭, 서수, 간격 및 비율 유형이 잘못되었습니다 "
American Statistician , vol. 47 1 호 pp. 65-72

(작동중인 버전은 여기 2 차 저자 웹 페이지에서 제공되는 것 같습니다 )

Lord, F. (1953),
"축구 숫자의 통계적 처리",
American Psychologist , 8 , pp.750-751

(본 논문의 연도는 내가 링크 한 Velleman 및 Wilkinson 논문의 버전에 대한 참조에서 잘못 제공되었지만 논문 본문에서 올바르게 언급 됨)


감사. 매우 철저한 답변. 나는 그 선을 따라 생각하고 있었지만이 물건을 여러 번 연구 할 때 그것이 구체적이고 합의에 도달 한 것처럼 보입니다. 그래서 제가 여기서 끝났습니다.
사용자 42

스티븐스의 유형학은 처음 출판 된 이후 논쟁과 논쟁을 벌이고 있습니다. 때로는 정리가 아닌 유용한 프레임 워크입니다.
Glen_b-복지 주 모니카

Stevens와 Mosteller 외에 "새로운 마음에 드는 것"이 ​​있습니까? 레벨 / 흐름 예에서, 내가 당신을 올바르게 이해한다면, 둘 다 같은 유형을 가지지 만 다르게 취급되어야합니까? 이 차이점을 설명해 주시겠습니까? 그리고 예를 들어 값의 로그 변환이이 유형에 어떻게 적용됩니까? 감사.
Erich Schubert

1. 나는 최근에 시도한 것을 알지 못합니다. 사람들을 덜 적절한 분석으로 끌어들이는 경향이 있기 때문에 그것들이 반드시 유용 할 필요는 없다고 생각합니다. 매우 실제-유형별 분석 목록은 끔찍한 통계 분석을 끝내지 않으면 서 적절한 상황에서 고려할 가능성에서 통계의 방대한 양을 잘라냅니다. .. ctd
Glen_b-복지 주 모니카

ctd ... 2. 레벨과 흐름이 매우 다른 방법의 한 가지 예 : 매일 레벨을 보면 오늘 레벨은 이전 레벨과 개입 한 유입 또는 유출 (또는 둘의 합)이됩니다. 둘 다 가능하다면). 따라서 레벨 측정은 종종 매우 의존적입니다. 독립적 인 것처럼 취급하는 것은 이치에 맞지 않지만 사람들은 항상 그렇게합니다. 3. 나는 당신이 로그에 대해 무엇을 묻고 있는지 잘 모르겠습니다. 그것에 대해 더 명확하게 설명 할 수 있습니까? 어떤 유형학 (내가 하나 이상 언급 한 것에 주목)?
Glen_b-복지 주 모니카

1

데이터의 유형은 변수의 유형과 관련이 있지만 동일하지는 않습니다. 대부분의 경우, 동일하지만 반드시 그럴 필요는 없습니다.

예를 들어 정규 분포에서 N 개의 표본을 수집하는 경우입니다. 숫자 (비율 또는 스케일) 데이터라고 생각할 것입니다. 그러나 N 개의 범주가 있고 범주마다 빈도가 1 인 범주 형 변수라고 말할 수도 있습니다. 바보처럼 보이지만 유효한 변수이기도합니다.


이것은 "실제 문제는 측정의 의미"라고 쓴 Stevens (이 유형론을 공식화 한 것으로 인정되는)와는 약간 상충되는 것 같습니다. 이러한 데이터를 항상 명목으로 취급하도록 선택할 수 있지만 Stevens의 추정에서 데이터를 명목으로 만들지는 않습니다. 그의 논문은 gaius.fpce.uc.pt/niips/novoplano/mip1/mip1_201314/scales/…에 있습니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.