“무작위 변수”란 무엇입니까?

69

"무작위 변수"라고 할 때 무엇을 의미합니까?

— 발티 마크
소스

35

랜덤 변수는 알 수없는 이벤트에 따라 값이 달라지는 변수입니다. 알 수없는 이벤트를 "상태"로 요약하면 랜덤 변수가 상태의 함수입니다.

예:

주사위 롤이 3 개 있다고 가정합니다 ( , , ). 그런 다음 상태 입니다. $D_{1}$ $D_{2}$ $D_{3}$ $S=(D_{1},D_{2},D_{3})$

하나의 랜덤 변수 는 5의 수입니다. 이것은: $X$

엑스 = (디_{1} = 5 ?) + (디_{2} = 5 ?) + (디_{삼} = 5 ?)

$X=(D_{1}=5?)+(D_{2}=5?)+(D_{3}=5?)$

다른 임의의 변수 는 주사위 롤의 합이다. 이것은: $Y$

와이 = 디_{1} + 디_{2} + 디_{삼}

$Y=D_{1}+D_{2}+D_{3}$

— 폴
소스

명확하고 간결한 답변에 감사드립니다. 그것은 결과에서 알 수없는 상태를 분리 할 목적으로 질문을 제기합니다 (이것은 확률 이론에서 "무작위 변수"의 도메인과 범위가 어떻게 호출되는지 추측합니다). 미지의 상태라고 불리는데 a sample, 결과와 구별 해달라고 요청했습니다 . 절대적으로 결정적이지 않고 전혀 변수가 아니지만 함수를 소개하고 무작위 변수라고 부르는 이유는 무엇입니까? 결과를 바로 샘플링 할 수없는 이유는 무엇입니까?

— Val

2

"이벤트"가 "알려지면"무작위 변수는 어떻게됩니까? 이 답변에 따르면 더 이상 존재할 수 없습니다! "알려진"(순전히 주관적인) 같은이 같은 생각에 대한이 답변의 의존은 무작위 변수의 정의 나 설명으로서 만족스럽지 못합니다.

— whuber

1

@ whuber 영어와 다른 사람의 언어는 반드시 정확하지 않습니다. 실제로 "알다"가 아니라 "종속하다"라는 단어를 선택하는 것 같습니다. "함수의 기능"은보다 정확하지만 "알 수없는 사건"은 모호하므로 수학자들은 "확률 공간", "시그마 대수", "측정 가능한 기능"등을 정의합니다.보다 엄격한 치료가 필요한 경우 Wikipedia 그것을 가지고 en.wikipedia.org/wiki/Random_variable

— 폴

1

@whuber 위키피디아가 정밀함을 얻기 위해 수학적 전문 용어로 돌진하는 동안, 나는 당신의 대답, 예를 들어 읽을 가치가 있지만 실행하는데 약 16 개의 문단이 필요한 적절한 평신도의 예입니다. 그러나 읽는 데 5 초가 걸리는 답변을 원하는 학부생에게 무엇을 말해야할까요? 고객은 정의의 간결함을 높이 평가합니다.

— Paul

5

확률 공간에서 측정 가능한 실제 값 함수입니다. "측정 가능", "실제 가치 함수"및 "확률 공간"과 같은 각 기술 용어를 사용하여 잠재 고객의 90 %를 잃어 버렸으며 실제로는 0.1 % 만 정의를 이해하고 평가했습니다. 또한 순전히 수학적 정의입니다. 실제 통계 문제에 어떻게 적용 할 수 있는지를 명시 할 때까지는 쓸모가 없지만 적어도 정확합니다 (완전히 일반적인 것은 아님).

— whuber

69

소개

최근의 의견을 생각할 때, 나는 지금까지 모든 답글이 "가변"과 같은 정의되지 않은 용어와 "알 수 없음"과 같은 모호한 용어를 사용하거나 "함수"와 "확률 공간"과 같은 기술적 인 수학적 개념에 호소한다는 것을 알았습니다. "무작위 변수"의 평범하고 직관적이지만 정확한 정의를 원하는 비 수학적 사람에게 무엇을 말해야합니까? 임의 현상의 간단한 모델을 설명하는 일부 예비 단계 후에 한 줄에 들어갈 정도로 짧은 정의를 제공합니다. 그것은 cognoscenti를 완전히 만족시키지 못할 수도 있기 때문에 나중에 이것을 일반적인 기술 정의로 확장하는 방법을 설명합니다.

상자에 티켓

비하인드 아이디어에 접근하는 한 가지 방법 확률 변수는 받는 사람 호소하는 난수의 티켓 - 인 - 어 - 박스 모델 . 이 모델은 실험 또는 관찰을 티켓으로 가득 찬 상자로 대체합니다. 각 티켓 에는 실험 의 가능한 결과 가 기록 됩니다. (결과는 "머리"또는 "꼬리"처럼 간단 할 수 있지만 실제로는 주가의 이력, 긴 실험의 완전한 기록 또는 문서의 모든 단어 순서와 같이 더 복잡한 것입니다. .) 가능한 모든 결과는 티켓 중에서 한 번 이상 나타납니다. 일부 결과는 많은 티켓에 나타날 수 있습니다.

실제로 실험을 수행하는 대신 모든 티켓을 철저히 혼합하지만 맹목적으로 하나만 선택한다고 상상해보십시오. 실제 실험 이 마치 이런 식으로 수행 된 것처럼 작동 해야한다는 것을 보여줄 수 있다면 잠재적으로 복잡하고 비싸고 긴 실제 실험을 단순하고 직관적 인 사고 실험 (또는 "통계 모델")으로 줄 였습니다. "). 이 모델이 제공하는 명확성과 단순성은 실험을 분석 할 수있게합니다.

예

표준 사례는 동전 던지기 및 주사위 놀이 및 카드 놀이의 결과에 관한 것입니다. 2016 년 미국 대통령 선거 결과에 대해 우려하고 있다고 가정 해 봅시다. (작은) 단순화로서 저는 두 주요 정당 중 하나 인 공화당 (R)이라고 가정하겠습니다. 또는 민주당 (D)이 이길 것입니다. (현재 이용 가능한 정보로) 결과가 불확실하기 때문에, 티켓에 상자에 넣는 것을 상상해보십시오. 일부는 "R"이 적혀 있고 다른 것은 "D"가 있습니다. 결과 모델은이 상자에서 정확히 하나의 티켓을 가져 오는 것입니다.

누락 된 부분 이 있습니다. 각 결과에 대해 얼마나 많은 티켓 이 있는지 아직 규정하지 않았습니다 . 사실, 이것을 알아내는 것은 통계의 주요 문제입니다. 관찰 (및 이론)에 기초하여 상자에있는 각 결과의 상대적 비율에 대해 무엇을 말할 수 있습니까?

( 상자에있는 각 티켓 종류의 비율 이 각 티켓의 실제 개수가 아니라 그 속성을 결정 한다는 것이 분명하기를 바랍니다 . 비율은 평소와 같이 각 종류의 티켓 수를 나눈 값으로 정의됩니다. 예를 들어, 하나의 "D"티켓과 하나의 "R"티켓이있는 상자는 백만 개의 "D"티켓과 백만 개의 "R"티켓이있는 상자와 정확히 동일하게 작동합니다. 모든 티켓의 50 %, 따라서 티켓이 완전히 혼합 될 때 각각 50 %의 기회가 발생합니다.)

모델을 정량적으로 만들기

그러나 여기서는 랜덤 변수를 정의하려는 목표에 가깝기 때문에이 질문을 추구하지 마십시오. 지금까지 모델의 문제점은 정량화 할 수 없다는 점에서 정량적 질문에 답할 수 있기를 원합니다. 또한 사소한 것도 아닙니다. "회사에 10 억 유로가 미국 해양 화석 연료 개발에 투자 한 경우 2016 년 선거 결과로이 투자의 가치가 얼마나 변할까요? ? " 이 경우 모델이 너무 단순하여이 질문에 대한 현실적인 답을 얻을 수있는 방법은 많지 않지만 경제 담당자에게 문의하여 가능한 두 가지 결과에 대한 의견을 구할 수 있습니다.

민주당이 이기면 투자가 얼마나 변할까요? (답은 달러 라고 가정하십시오 .) $d$
공화당이 이기면 얼마나 변할까요? (답은 달러 라고 가정하십시오 .) $r$

답은 숫자입니다. 모델에서 사용하기 위해, 나는 직원들에게 상자에있는 모든 티켓과 모든 "D"티켓을 통해 " 달러" 를 쓰고 모든 "R"티켓을 통해 " 달러 "를 합니다. 이제 우리는 투자의 불확실성을 명확하고 정량적으로 모델링 할 수 있습니다. 선거 후 가치 변화는이 상자에서 무작위로 뽑은 단일 티켓에 쓰여진 금액을받는 것과 같습니다. $d$ $r$

이 모델은 투자에 대한 추가 질문에 답변하는 데 도움이됩니다. 예를 들어, 투자 가치에 대해 얼마나 불확실해야 합니까? 이 불확실성에 대해 (간단한) 수학 공식이 있지만, 실제로 어떤 종류의 결과가 발생하고 확산을 측정하는지 확인하기 위해 모델을 반복해서 (1,000 회 이상) 반복해서 사용하여 답을 합리적으로 정확하게 재현 할 수 있습니다. Box-in-a-box 모델은 불확실한 결과에 대해 정량적으로 추론 할 수있는 방법을 제공합니다.

랜덤 변수

불확실하거나 가변적 인 현상에 대한 정량적 답변을 얻기 위해 박스형 티켓 모델을 채택하고 티켓에 숫자를 쓸 수 있습니다. 숫자를 작성하는이 과정은 단 하나의 규칙 만 따라야합니다. 일관성 이 있어야합니다 . 예를 들어, 모든 민주당 티켓에는 예외없이 " 달러"가 기록되어야하고 모든 공화당 티켓에는 " 달러"가 쓰여 져야합니다. $d$ $r$

확률 변수 상자에 항공권 번호를 쓸 수있는 일관된 방법이다.

$X$ $Y$ $\omega$ $X$ $\omega$ $X(\omega)$ $X$ $X(\text{D})=d$ $X(\text{R}) = r$ $X$ $X$ $X$

$X$

이후 : 측정 가능성에 대해

랜덤 변수의 정의에 "측정 가능" 이라는 경고 가 수반 될 때, 정의 자가 염두에두고있는 것은 가능한 많은 결과가있는 상황에 대한 박스형 티켓 모델의 일반화입니다. (기술적으로는 셀 수 없이 무한한 결과가 있거나 불합리한 확률이 포함 된 경우에만 필요 하며, 후자의 경우도 피할 수 있습니다.) 무한히 많은 결과 로 인해 총계 의 비율 이 무엇인지 말하기는 어렵습니다 . 무한히 많은 "D"티켓과 무한히 많은 "R"티켓이 있다면, 상대적인 비율은 무엇입니까? 우리는 하나의 무한대를 다른 무한대로 나눈다는 것을 알 수 없습니다!

이 경우 비율을 지정하는 다른 방법이 필요합니다. "측정 가능한"티켓 세트는 비율을 정의 할 수있는 상자에있는 티켓 모음입니다. 이것이 완료되면, 우리가 "비율"로 생각한 숫자를 "확률"이라고합니다. (모든 티켓 컬렉션에 티켓과 관련된 확률이 필요한 것은 아닙니다.)

$X$ $X(\omega)$ $a$ $b$ $a$ $b$

— 우버
소스

7

이전에 임의의 변수 또는 상자 내 티켓 모델에 익숙하지 않은 사용자를 위해 웹 사이트 quantdec.com/envstats/notes/class_06/tutorial.htm 에 대한 빠른 대화식 자습서가 실습과 몇 가지 추가 개념을 제공합니다.

— whuber

2

이러한 개념을 보여주는 실제 예제는 stats.stackexchange.com/a/68782 에 나와 있습니다.

— whuber

2

NB 나는 많은 사람들이 상자 안에있는 표의 의미에서 "인구"라는 용어를 대략 사용한다고 생각합니다. 실제 (물리적) 모집단을 샘플링하기위한 확률 모델 만 만들 수있는 것처럼 들리기 때문에이 용어를 사용하지 않습니다. 샘플링되는 실제 인구가있는 경우에도 티켓과 티켓간에 완벽한 일대일 대응이 거의 없습니다. 예를 들어, 2014 년 1 월 1 일에 중국 사람들을 태울 수있는 사람은 아무도 없습니다. 사람들이 언제 태어 났는지, 언제 죽는 지, 심지어 중국 사람인지에 대한 불확실성 때문입니다.

— whuber

4

@jsk이 답변의 소개는 왜 그런 관리가 필요한 것 같은지를 설명합니다. 이 스레드에서 두 개의 다른 답변에 정확하고 완전한 정의 ( "확률 공간에서 상태 공간으로 알려진 측정 가능 공간으로의 측정 가능 함수")가 포함되어 있지만,이 정의에는 시그마 대수, 확률 측정, 측정 가능한 기능. 독자들은 "그것은 대학원 수준의 물건"이라고 불평 할 것 입니다.

— whuber

4

@ user4205580 순수하게 수학적 정의의 경우 수학자에게는 랜덤 변수가 단순히 "주어진"이기 때문에 "일관성"이 전혀 필요하지 않습니다. 통계적 적용의 경우 여기에서 논의 된 바와 같이 많은 데이터가 수치 적이 지 않기 때문에 중요한 조건입니다. 랜덤 변수는 모델과 분석 목표에 적합한 방식으로 구성되어야합니다. 당신은이 개념적인 구별에서 당신에게 어떤 가치가 있는지 스스로 결정할 수 있습니다.

— whuber

16

비공식적으로, 랜덤 변수는 각각의 가능한 결과에 숫자 코드를 할당하는 방법입니다. *

실시 예 1

$\{H,T\}$

$X$ $X(H)=1$ $X(T)=0$ $1$ $0$

실시 예 2

{A ♠, K ♠, \dots, 2 ♠, A ♡, K ♡, \dots, 2 ♡, A ♢, K ♢, \dots, 2 ♢, A ♣, K ♣, \dots, 2 ♣} .

$\{A♠, K♠, \dots, 2♠, A♡, K♡, \dots, 2♡, A♢, K♢, \dots, 2♢, A♣, K♣, \dots, 2♣ \}.$

브릿지에서 에이스는 4 높은 카드 포인트, 킹 3, 퀸 2 및 잭 1의 가치가 있습니다. 다른 카드는 0 포인트의 가치가 있습니다.

$Y$ $Y\left(A♡ \right)=4$ $Y\left(J♣ \right)=1$ $Y\left(7♠ \right)=0$

$H$ $T$ $A♠$

* 공식적으로 랜덤 변수는 (샘플 공간의) 각 결과를 실수로 매핑하는 함수입니다.

— 케니 LJ
소스

5

+1. 이 답변은 요점에 도달하고 정확하며 명확합니다. 따라서이 스레드의 다른 응답에 퍼져있는 "알 수 없음"및 "변경"값에 대한 넌센스를 피하십시오.

— whuber

12

일반 변수와 달리 임의 변수는 변경되지 않은 단일 값으로 대체되지 않을 수 있습니다. 오히려 통계적 특성 등과 같은 분포 랜덤 변수를 언급 할 수있다. 분포는 변수가 주어진 값을 취할 확률을 제공하거나 평균 또는 표준 편차와 같은 특정 매개 변수가 주어진 범위에 속하는 함수입니다.

분포에서 정수와 같은 계산 가능한 세트의 값을 설명하는 경우 임의 변수는 이산 형 으로 분류 될 수 있습니다 . 랜덤 변수에 대한 다른 분류는 연속적 이며 분포가 실수와 같은 셀 수없는 세트의 값을 포함하는 경우 사용됩니다.

— 샤피
소스

2

정규 분포 확률 변수를 의미하지 않는 경우 "정상 변수"라는 용어를 사용하지 않는 것이 가장 좋습니다.

— Rob Hyndman

동의했다. 비록 그들이 "정상 변수"라고 말하고 "무작위"또는 "분배"라는 단어를 어딘가에 던져 넣지 않았다면 개인적으로 몇 초 동안 웃긴 사람을 보게 될 것입니다. 그러나 나는 또한 통계학자가 아닌 엔지니어이기 때문에 많은 도메인 관련 표기법을 사용하지 않습니다.

— Sharpie

7

랜덤 변수는 주의를 끌지 않으면 신중하게 분류 될 수 있습니다 . 그것들이 단지 셀 수있는 셀이라면 우리는 이산 :-P 라고 말합니다. 또한, 당신은 처방하기보다는 처방하는 것을 의미하지만, 설명 이 더 적절할 것 같습니다. 어쨌든 좋은 대답입니다. 희망적으로 +1하면 니트 선택을 완화하는 데 도움이됩니다!

— 워키 토키

@walkytalky 수정 해 주셔서 감사합니다-몇 가지 수정했습니다.

— Sharpie

1

모든 변수는 값의 자리 표시 자입니다. 이 값이나 해당 값을 변수에 할당 할 수 있습니다 (경우에 따라 할당 할 수있는 값 세트가 type 이라는 세트로 제한됨 ). 변하지 않는 단일 값을 유지하는 변수를 '상수'라고합니다. 랜덤 변수는 알려진 값을 유지하면서 랜덤 변수는 알 수 없다고 말할 수 있습니까? 이것은 임의의 변수가 전혀 변수가 아니라는 다른 답변과 모순됩니다. 알 수없는 상태를 다른 것으로 매핑하는 기능입니다. 그들은 무작위가 아니며 변수가 아니라고 말합니다.

— Val

6

나는이 이야기를 들었다 :

무작위 변수는 신성 로마 제국과 비교할 수 있습니다. 신성 로마 제국은 거룩하지 않았고 로마가 아니 었으며 제국도 아니 었습니다.

같은 방식으로 랜덤 변수는 랜덤이 아니며 변수도 아닙니다. 그것은 단지 기능 일뿐입니다. (이야기는 여기에 출처 : source ).

이것은 사람들이 기억하는 데 도움이 될 수있는 최소한의 간단한 설명입니다.

— 크 제틸 비 할보 르센
소스

3

에서 위키 백과 :

수학 (특히 확률 이론 및 통계)에서 랜덤 변수 (또는 확률 변수)는 일반적으로 확률 공간을 측정 가능한 공간에 매핑하는 측정 가능한 함수입니다. 사건의 모든 가능한 결과를 실수로 매핑하는 랜덤 변수는 기본 통계에서 자주 연구되며 과학 실험에서 얻은 데이터를 기반으로 예측을하기 위해 과학에서 사용됩니다. 과학적 응용 이외에도 우연한 확률과 확률 적 사건의 게임을 분석하기 위해 무작위 변수가 개발되었습니다. 확률 변수의 유용성은 확률 론적 질문에 답하는 데 필요한 수학적 특성 만 포착하는 능력에서 비롯됩니다.

에서 cnx.org :

랜덤 변수는 고정 된 조건에서 랜덤 실험의 모든 가능한 결과에 고유 한 숫자 값을 할당하는 함수입니다. 랜덤 변수는 변수가 아니라 이벤트를 숫자로 매핑하는 함수입니다.

— 메퍼 C. 팔라 부 즐라
소스

4

cnx.org 정의 중 어느 것도 정확하지 않습니다. 첫 번째는 애매 모호하기 때문에 오해의 소지가 있으므로 "고유 한"및 "고정 된 조건"을 사용하고 두 번째는 단순히 잘못 되었기 때문입니다. RV는 이벤트 (측정 가능한 결과 집합 )가 아니라 결과 (샘플 공간의 요소)에 정의됩니다 .

— whuber

P = κ λ e^{- λ t}

$P=\kappa \lambda e^{-\lambda t}$

κ = \int_{0}^{\infty} P (t) d t

$\kappa=\int_0^\infty P(t) dt$

E D (t) = λ e^{- λ t}

$ED(t)=\lambda e^{-\lambda t}$

E D (t)

$ED(t)$

1

f (x)

$f(x)$

3

일반적으로 X로 표시되는 랜덤 변수는 결과가 불확실한 변수입니다. 이 변수의 특정 결과를 관찰하는 것을 실현이라고합니다. 보다 구체적으로는 확률 공간을 측정 가능한 공간 (일반적으로 상태 공간이라고 함)에 매핑하는 함수입니다. 랜덤 변수는 이산 적이거나 (고유 한 값을 가질 수 있음) 연속적입니다 (무한한 값을 가질 수 있음).

두 개의 주사위를 굴릴 때 얻은 총계 인 랜덤 변수 X를 고려하십시오. 2에서 12까지의 값을 가질 수 있으며 (공평한 주사위가 주어질 때 같은 확률로) 주사위가 굴릴 때까지 결과는 확실하지 않습니다.

— 그레이엄 쿡슨
소스

5

그냥 생각하지만 12 (1/36)를 굴릴 확률이 7 (1/6)과 같다고 말하는 것처럼 읽습니다.

— jefflovejapan

0

수학이 아닌 대학 연구에서 랜덤 변수는 변수가 확률에 걸릴 수있는 값의 맵이라고 들었습니다. 이것은 확률 분포를 그릴 수 있습니다

최근에 저는 수학자들이 생각하는 것과 다른 점을 깨달았습니다. 랜덤 변수에 의해 간단한 함수 X : Ω → R을 의미하는 것으로 나타 났으며, 이는 샘플 공간 Ω의 요소 ( 위에 설명 된 결과, 티켓 또는 개별 ) 를 취하여 이를 범위의 실수 R로 변환합니다 ( -∞, ∞). 즉, 그것은 무작위가 아니며 변수가 전혀 없다는 점에서 적절하게 언급되었습니다. 랜덤 성은 일반적으로 측정 공간 (Ω, P)의 일부로 확률 측정 P와 함께 제공됩니다. P는 랜덤 변수와 유사하게 샘플을 R에 매핑하지만이 시간 범위는 [0,1]로 제한되며 랜덤 변수는 (Ω, P)를 (R, P)로 변환하여 랜덤 변수에 확률이 있다고 말할 수 있습니다 측정 P : R-> [0,1]이므로 R의 모든 x에 대해 발생 확률을 말할 수 있습니다.

왜 이런 종류의 랜덤 변수가 필요한지 모르고 왜 R의 요소를 처음에 샘플링 할 수 없습니까? 샘플을 숫자 값으로 변환하면 샘플을 주문하고 분포를 도출하며 기대치를 계산할 수 있습니다. 나는 측정 이론 튜토리얼 (모형에 대한 측정 이론)을 읽고이 아이디어를 얻었습니다. 수학자들은 무작위 변수를 더 잘 적용 할 수 있지만 불필요한 연구에서 찾을 수는 없습니다. 동일한 텍스트는 특히 알파벳 엔트로피를 계산하기 위해 항상 샘플을 숫자로 변환 할 필요가 없음을 나타냅니다. $\Omega$

H (Ω) = \sum 피 (Ω_{나는}) 엘 엔 (Ω_{나는})

$H(\Omega) = \sum{P(\Omega_i) ln (\Omega_i)}$

적분은 임의의 변수의 실제 값이 필요하지 않습니다.

— 발
소스

X

$X$

A

$A$

σ

$\sigma$

A

$\mathcal{A}$