통계적 무작위성에 대한 몇 가지 질문


15

에서 위키 백과의 통계 randoness :

글로벌 임의성과 로컬 임의성이 다릅니다. 무작위성에 대한 대부분의 철학적 개념은 전역 적이다. 왜냐하면 어떤 하위 시퀀스가 ​​무작위 적으로 보이지 않더라도 "장기적으로"시퀀스는 실제로 무작위로 보인다는 생각에 근거하기 때문이다. 예를 들어, 길이가 충분한 "정확한"난수 시퀀스에서는 0이 아닌 긴 시퀀스가있을 가능성이 있지만 전체적으로 시퀀스는 무작위 일 수 있습니다. 국소 랜덤 성은 랜덤 분포가 근사되는 최소 시퀀스 길이가있을 수 있다는 생각을 말합니다."정확한"랜덤 프로세스에 의해 생성 된 숫자를 포함하여 동일한 자릿수의 긴 스트레치는 샘플의 "로컬 랜덤 성"을 감소시킬 것입니다 (1 만 자릿수의 시퀀스에 대해서는 로컬로만 무작위 일 수 있습니다. 예를 들어).

따라서 패턴을 나타내는 서열은 통계적으로 랜덤하지 않은 것으로 입증되지 않았다. 램지 이론의 원리에 따르면, 충분히 큰 물체는 반드시 주어진 하부 구조를 포함해야합니다 ( "완전 장애는 불가능합니다").

나는 두 문장의 의미를 굵게 이해하지 못합니다.

  1. 첫 번째 문장은 무언가가 짧은 길이의 로컬 무작위가 아닌 더 긴 길이의 로컬 무작위를 만드는 것을 의미합니까?

    괄호 안의 예제는 어떻게 작동합니까?

  2. 두 번째 문장은 패턴을 나타내는 서열이 통계적으로 랜덤하지 않다는 것을 증명할 수 있습니까? 왜?

감사


1
좋은 질문. 나는이 텍스트가 약간 당황 스럽다는 것을 안다. 시퀀스가 무작위인지 아닌지는 시퀀스 생성 방법과 관련이 있다고 생각했을 것입니다. 결과가 아닙니다. 나는 언어 적 문제가 여기에 있다고 생각한다. 상식적으로 (그리고 아마도 덜 명백한 철학자들에게) 그것은 무질서하게 보이는 것에 관한 것입니까?
피터 엘리스

3
@ 피터, 생성 메커니즘 만 참조 할 수 있다면 임의성을 정의 하는 데 어려움을 겪을 수 있습니다 . 궁극적으로, 임의 순서의 모든 유틸리티는 숫자가 생성 된 방식이 아니라 포함 된 숫자에 있기 때문에 순서에 따라 순전히 무작위를 정의하고 테스트하는 방법이 있어야한다고 생각하지 않습니까?
whuber

1
확실히 나는 당신이 그 결과로부터 무작위성을 테스트 할 수 있음에 동의합니다-무작위의 타당성에 대한 증거를 열망하지 않고. 아마도 세대를 기반으로 한 정의의 철학적 도전에 대해 더 많은 독서와 사고를해야 할 것입니다.
피터 엘리스

나는 무작위성이 미지의 것과 동의어 일 뿐이라고 생각합니다. 나도이 문장의 감독을 찾을 수있다.
확률 론적

답변:


15

이 개념은 일부 실행 코드로 깔끔하게 설명 할 수 있습니다. 우리 R는 좋은 의사 난수 생성기를 사용하여 10,000 개의 0과 1의 시퀀스를 생성하여 시작합니다.

set.seed(17)
x <- floor(runif(10000, min=0, max=2))

이것은 기본적인 난수 테스트를 통과합니다. 예를 들어, t-test를가 평균을 비교하기 의 p- 값이 40.09 우리는 0과 똑같이 가능성이 있다는 가설을 받아 들일 수 %를,.1/240.09

이 숫자에서 우리 는 5081 번째 값에서 시작하여 연속적인 값 의 하위 시퀀스를 추출 합니다.1000

x0 <- x[1:1000 + 5080]

이것들이 무작위로 보인다면, 그들은 또한 동일한 난수 테스트를 통과해야합니다. 예를 들어 평균이 1/2인지 테스트 해 보겠습니다.

> t.test(x0-1/2)

    One Sample t-test

data:  x0 - 1/2 
t = 2.6005, df = 999, p-value = 0.009445
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
 0.01006167 0.07193833 
sample estimates:
mean of x 
    0.041 

낮은 p- 값 (1 % 미만)을 강하게 평균 현저하다 제안 보다 보다 . 실제로이 하위 시퀀스의 누적 합계는 상승 추세가 강합니다.1/2

> plot(cumsum(x0-1/2))

무작위 걷기?

그것은 무작위 행동이 아닙니다!

원래 시퀀스 (누적 합계로 표시)를이 하위 시퀀스와 비교하면 현재 진행중인 작업을 알 수 있습니다.

무작위 걷기

긴 시퀀스는 실제로 임의의 보행처럼 동작하지만 추출한 특정 하위 시퀀스 에는 동일한 길이의 모든 하위 시퀀스 중에서 가장 긴 상향 상승이 포함됩니다. "비 랜덤"동작을 나타내는 다른 하위 시퀀스도 추출 할 수있을 것 같습니다. 예를 들어 약 개를 중심으로 한 행에 약 20 개의 행이 나타납니다.9000


이러한 간단한 분석에서 알 수 있듯이, 어떤 테스트도 시퀀스가 ​​무작위로 나타나는 것을 "증명"할 수 없습니다 . 우리가 할 수있는 것은 무작위 서열이 예상 한 행동에서 충분히 벗어나서 무작위가 아니라는 증거를 제공하는지 테스트하는 것 입니다. 이것은 난수 테스트 배터리의 작동 방식입니다. 난수 시퀀스에서 발생할 가능성이 거의없는 패턴을 찾습니다. 그들은 한 번에 한 번씩 무작위로 숫자가 무작위로 표시되지 않는다는 결론을 내릴 수 있습니다. 다른 시도는 거부 할 것입니다.

그러나 장기적으로, 우리 모두가 죽은 것처럼, 임의의 난수 생성기는 가능한 모든 1000 자리 시퀀스를 생성 하며 무한히 여러 번 수행됩니다. 논리적 인 문제에서 우리를 구출하는 것은 그러한 명백한 수차가 발생하기 위해 끔찍한 시간을 기다려야한다는 것입니다.


감사! 관련 질문 : 일부 방법으로 생성 된 의사 난수의 임의성을 테스트 할 때 임의성이 균일 분포를 의미합니까? 다시 말해, 무작위 분포는 균일 분포를 테스트하는 것만합니까? 더 편향된 분포가 직관적으로 나에게 덜 무작위로 보이기 때문에 나는 이것을 물었다.
Tim

@Tim : 아니오. 가우시안 랜덤성에 대한 많은 일반적인 테스트가 있으며 모든 분포에 대한 테스트를 구성 할 수 있어야합니다.
naught101

1
팀, 모든 분포는 확률 적분 변환 (및 이산적이고 비 절대적으로 연속적인 분포에 대한 일반화)을 통해 균일 한 분포와 명확한 수학적 관계를 맺습니다 . 따라서 무작위성을 일반적으로 이해하려면 균일 분포를 이해하면 충분합니다. 실제로, 그것들은 무한한 이진수의 문자열과 관련 될 수 있습니다 : 그들은 간격의 실수를 나타냅니다[0,1)

2
나는 대답의 상단을 거의 "보고" "Whuber"라고 말할 수 있습니다 :) 아주 좋은!
PhD

2

이 발췌문은 "로컬 랜덤 성"및 "글로벌 랜덤 성"이라는 용어를 사용하여 랜덤 변수의 한정된 수의 샘플로 발생할 수있는 것과 랜덤 변수의 확률 분포 또는 기대를 구별합니다.

xi{0,1}θθlimn1ni=1nxi=θ

[0,1][a,b]0a<b1θ

여기에 새로운 것은 없습니다.

n

따라서, 나는이 발췌에 대해 생각하는 뇌 세포를 너무 많이 태우지 않을 것입니다. 수학적으로 그렇게 정확하지 않으며 무작위의 본질에 대해 실제로 오도합니다.

의견을 기반으로 편집 : 역사적 지식에 대한 귀하의 의견에 @kjetilbhalvorsen +1. 그러나 나는 여전히이 용어의 가치가 제한적이고 오해의 소지가 있다고 생각합니다. 설명하는 표는 예를 들어 표본이있는 작은 표본이 실제 예상 값과 거리가 멀거나 아마도 0 번 (0 번의 Bernoulli 예제에서) 반복 가능한 긴 반복 시퀀스를 의미하는 오해의 소지가있는 것으로 보입니다. 덜 무작위성 (이 가짜 "로컬 무작위성"을 나타내지 않는다고 말함으로써). 신진 통계 학자에게 더 오해의 소지가 없다고 생각합니다!


"글로벌 임의성"이 특이한 것처럼 보이지만 "로컬 임의성"은 20 년 이상의 역사를 가지고 있습니다. 예를 들어 isiweb.ee.ethz.ch/papers/arch/umaure-mass-inspec-1991-1.pdf를 참조하십시오 .
whuber

nn

2
나는 때때로 이것을 읽은 것을 기억한다 : 사람들이 시뮬레이션, 실험 등에 사용될 "임의의 숫자"테이블을 가진 책을 출판했을 때,이 중 일부는 작은 시뮬레이션에 사용하기에 적합한 것으로 표의 일부를 표시했다 ( "local" 더 큰 시뮬레이션에만 사용되어야하는 임의성 ") 및 기타 부품 ("전역 임의성 "제외) 따라서 개념은 가치있는 무언가를 가리키는 것 같습니다!
kjetil b halvorsen

1
죄송합니다.이 부분을 읽은 부분이 기억 나지 않습니다. 그러나 무작위성을 정의하는 철학적 문제와는 별개로, 1000 개의 난수가 필요한 매우 작은 시뮬레이션이 있고 고품질의 랜덤 생성기가 1000 개의 0을 제공하는 경우, ¿ 어떻게해야합니까? 그러한 발생이 가능하고 실제로 "임의의 무작위"순서로 필요하다는 사실에도 불구하고, 시뮬레이션은 망가졌습니다!
kjetil b halvorsen

1
고마워, 나는 내 정죄에 너무 가혹했을 것입니다. 나는 이것의 언어를 조금 바꿀 것이다.
Chris A.

-1

Wikipedia 게시물의 저자는 무작위성을 잘못 해석하고 있다고 생각합니다. 그렇습니다. 무작위가 아닌 것처럼 보일 수도 있지만 시퀀스를 생성 한 프로세스가 실제로 무작위라면 출력이어야합니다. 특정 서열이 무작위가 아닌 것으로 보이는 경우, 이는 독자에 대한 잘못된 인식입니다 (즉, 인간은 패턴을 찾도록 설계됩니다). 밤하늘에 북두칠성과 오리온 등을 볼 수있는 능력은 별의 패턴이 무작위가 아니라는 증거는 아닙니다. 나는 무작위성이 무작위가 아닌 것처럼 보인다는 데 동의합니다. 프로세스가 짧은 시퀀스에 대해 실제로 비 랜덤 패턴을 생성하는 경우 무작위 프로세스가 아닙니다.

프로세스가 다른 샘플 크기로 변경되는 것은 아닙니다. 표본 크기를 늘리면 랜덤하지 않은 것으로 보이는 임의의 서열이 나타날 확률이 높아집니다. 20 개의 임의 관측치에서 10 % 확률로 패턴을 볼 수있는 경우 총 관측치 수를 10000으로 늘리면 어딘가에서 비 랜덤 성이 나타날 가능성이 높아집니다.


2
"프로세스가 짧은 시퀀스에 대해 비 랜덤 패턴을 실제로 생성하는 경우 무작위 프로세스가 아닙니다"는 전적으로 잘못된 것입니다. 예를 들어, 공정한 동전을 100 번 뒤집 으면 6 개의 머리 또는 6 개의 꼬리가 한 줄로 나타날 것으로 예상 됩니다. 이는 거의 모든 사람의 "무작위"의 의미에 의해 "[짧은 순서에 대한 진정한 비 랜덤 패턴"입니다. " "짧은 시퀀스"앞에 "all"을 적용하는 등보다 신중하게 자격이 필요한 것을 작성해야한다고 생각합니다.
whuber

정말? 난수 생성기에서 꼬리 머리 줄을 볼 것으로 기대 하기 때문에 우리가 그것을 볼 때 놀라지 말아야한다고 생각했을 것입니다. 왜 이것이 비 임의로 간주됩니까? 하나는 100 화나게했다 번호 생성기를했고, 그것을 의도적으로 행에 4 개 이상 머리 또는 꼬리를 피할 경우 것 보면 정말 무작위 과정보다 더 무작위로하지만 실제로 랜덤하지 않은 것입니다. 무작위성에 대한 순진한 관점은 모든 패턴이 부족하다는 것입니다.
P auritus

귀하의 의견은 정확하지만 귀하의 답변에 대한 설명은 명확하지 않으며이 시점에서도 모순됩니다. 예를 들어 "단순한 시퀀스에 대한 완전 비 랜덤 패턴"을 생성하여 의미하는 것이 무엇인지 또는 "비 랜덤 성 확인"의 의미를보다 정확하게 설명하는 것을 고려하십시오.
whuber

모순이 없습니다. 랜덤 생성기는 비 랜덤 패턴을 생성한다고 생각하는 것 같습니다. 그것은 모순입니다. 당신은 진정으로 무작위적인 과정이 무작위가 아닌 관측을 생성 할 것이라고 주장하고 있습니다. 당신이 묘사하고있는 것은 "클러스터링 환영 (clustering illusion)"이라고 불리는데, 이것은 무작위 분포에서 클러스터를 잘못 인식하는 경향이 있습니다. 내가 말하는 것은 프로세스가 무작위가 아닌 관측치를 생성하면 무작위가 아니라는 것입니다. 임의의 프로세스가 임의의 비 관측 관측치 문자열을 생성 할 것으로 예상하지만이를 비 랜덤이라고합니다. Apophenia의 고전적인 예.
P auritus

1
자신의 입장을 잘못 진술 한 대담 자와 대화를하기가 어렵습니다. 죄송합니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.