테이블에 넣을 유효 숫자 수?


13

게시 할 유효 숫자의 수에 대해 잘 정립 된 규칙이 있습니까?

구체적인 예 / 질문은 다음과 같습니다.

  • 유효 숫자의 수를 변동 계수와 연관시키는 방법이 있습니까? 예를 들어, 추정치가 12.3이고 CV가 50 % 인 경우 '.3'으로 표시되는 정보가 0에 접근한다는 의미입니까?

  • 신뢰 구간의 범위가 여러 개인 경우 여전히 동일한 수의 유효 숫자를 가져야합니다. 예 :

    12.3 (1.2, 123.4) vs 12 (1.2, 120)

  • 오차 추정치의 유효 숫자 수가 평균의 유효 숫자와 같거나 적어야합니까?


가능하면 테이블을 사용하지 마십시오. :) 그래픽은 테이블보다 거의 항상 읽기 쉬운 IMO입니다 (숫자가 많지 않은 경우는 예외입니다). 저널과 그들의 리뷰어가 불행히도 항상 동의하지는 않습니다 ....
JMS

3
@JMS Good point, 그러나 표는 다양한 유형 (연속, 명목 및 순서)의 변수를 사용하여 통계 단위의 세부 특성 (예 : 임상 진단 등으로 교차 분류) 및 기타 결과 도출에 유용합니다. 통계적 모델링 자체 (혼란 행렬, 회귀 계수 등)에서 수치에 맞지 않습니다 (또는 정규 계수를 점 차트로 표시하는 Gelman의 접근 방식을 항상 생각하는 경우는 아님). 우리는 둘 다 필요합니다. 문제는 언제 테이블 대신 IMO가 필요한지에 대한 것입니다.
chl

@ 치 페어. 나는 거의 항상 말했다 :). 큰 n-way 테이블과 같은 것은 그래픽으로 (완전히) 재현 할 수 없습니다. 내가 말한 포럼에 따라 다릅니다. 테이블은 완벽하다는 장점이 있지만 독자는 실제로 모든 추가 정보를 흡수 합니까? 그래프에 맞지 않는 매개 변수가 너무 많으면 테이블을 읽기가 어렵다고 주장합니다. 그러나 재현성 이외의 다른 경우에는 완전한 결과에 액세스 할 수 있어야한다고 생각합니다 (온라인, 부록 등). 이 경우에도 데이터 및 코드를 원합니다! 방황 OT, 미안 ..
JMS

또한 회귀 계수와 혼동 (상관, 공분산 등) 행렬은 일반적으로 전자의 경우 그래픽 표시, 도트 플로트 또는 유사하고 후자의 경우 히트 맵 또는 그래프에 더 적합하다고 생각합니다.
JMS

@JMS 나는 당신의 요점에 동의하지만,이 경우에는 그림 제한이 있으며, 다른 경우에는 그림 요금이 있습니다. 또한이 경우 독자가 테이블을 살펴보고 제시 된 수치에 초점을 맞추면 밀교 인물의 요점을 파악하는 데 시간을 낭비하지 않습니다. 그러나 나는 재현성을 전적으로 지원하며, 내가있는 동안 첨부 된 코드에 테이블 시각화를 추가 할 수 있습니다.
David LeBauer

답변:


19

나는 보편적 인 규칙이 의심 스럽기 때문에 나는 그것을 만들지 않을 것입니다. 이러한 생각과 그 이유를 공유 할 수 있습니다.

  • 요약에 데이터 자체 (최대, 최소, 차수 통계 등)가 반영되는 경우 데이터를 처음 기록 할 때 사용한 것과 동일한 수의 유효 숫자를 사용하십시오. 이는 데이터의 정확성과 관련하여 문서 전체에서 일관된 표현을 제공합니다.

  • nn3n3030<n300

    CV는 이와 관련하여 유용한 정보를 제공 하지 않습니다 .

    -정확하게 일부 추정값을 얻을 수 있습니다. 다른 것을 맞추기 위해 반올림 할 필요는 없습니다. 예를 들어, 1,000,000 정수의 평균은 표준 오류 0.00301 인 10.977 일 수 있습니다. 평균을 소수점 이하 세 자리 (4-5 시그 그림)에 쓰 겠다는 결정은 마지막 자리가 부분적으로 신뢰할 수 있음을 나타내는 SE의 크기 순서에 따라 결정되었습니다. SE를 세 개의 시그 피겨 (소수점 다섯 자리)에 쓰는 결정은 더 임의적입니다. 두 시그 피그가 작동합니다. 아마 아닐 것입니다; 4 개의 시그 피그 (sig figs)도 작동하며 평균적으로 4-5 시그 피그와 일치 할 것이다. 4 개 이상의 시그 무화과는 과잉 일 것입니다. (데이터의 네 번째 순간의 관점에서 SE 자체의 표준 오류를 추정하고 적절한 반올림 량을 결정하는 데 사용할 수 있지만 대부분의 사람들은 그런 문제에 빠지지 않습니다 ...)

  • 상당한 라운딩을 할 때 리더에게 신호를 보냅니다 . 보고서에서 통계 테스트 자체를 논의 할 때는 특히주의하십시오 . 사람들이 자신의 계산을 확인하기 위해 작업을 사용할 수 있기 때문입니다. 때로는 약간의 차이만으로도 오류가 나타날 수 있습니다. 123에서 120까지 반올림하고 다른 사람이 작업을 확인하고 123을 얻었고 사용자 중 한 명이 실수했다고 의심하여 ​​문제를 일으키고 싶지 않습니다.

  • 일관성을 유지하십시오 . 한 지점에서 값을 123으로 나열한 후 나중에 120으로 참조하면 일부 독자를 잃을 수 있습니다.

  • 말도하지 마라 . (예를 들어 데이터에 2 개의 시그 피겨 만있는 경우 15 개의 시그 피겨에 통계 결과를 제공하는 보고서를 발견하면 자동으로 무능력을 의심합니다.)


2
정말 좋은 조언이므로 많은 +1입니다. 같은 맥락에서, 나는 학생들에게 설문 조사 (또는 투표)에서 수집 한 데이터를 표본 크기 (표준 오류에 영향을 미치는)를 고려하지 않고 소수로 %로 요약하는 것이 실제로 의미가 없음을 보여주고 싶습니다.
chl

0

12 (1.2, 123.4)를 제안합니다. .3은 거의 의미가 없기 때문에 생략하지만, 많은 사람들은 (1.2, 120) 120의 마지막 '0'이 중요하다고 가정합니다.


CI에 관심 통계를 표시하기로 동의 한 경우 관심 통계에 대해 10 진수를 생략하도록 제안하는 이유는 무엇입니까 (예 : 12에 의미가없는 경우 123.4에 의미가있는 이유)?
chl

@ chl :별로 이해가되지 않지만 생략하면 오해의 소지가 있습니다. 123.4를 입력하면 당신과 같은 누군가가 여분의 숫자를보고 무시하고 아무런 해를 끼치 지 않습니다. 내가 120을 넣으면 많은 독자들이 이것이 3 자리로 정확하다고 생각할 것입니다.
AVB

여전히 123 대신 123.4를 권장하는 이유를 아직 명확하지 않습니다 (이 예에서는 .3을 생략했지만 .4는 아닙니까?)
David LeBauer
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.