통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

5
베이지안 통계는 메타 분석을 더 이상 사용하지 않습니까?
메타 분석이 더 이상 사용되지 않는 경우 베이지안 통계가 첫 번째 연구에서 마지막으로 적용되는지 궁금합니다. 예를 들어, 다른 시점에서 수행 된 20 개의 연구를 가정 해 봅시다. 첫 번째 연구의 추정 또는 분포는 정보 가 없는 사전 으로 수행되었습니다 . 두 번째 연구는 사후 분포를 이전과 같이 사용합니다. 새로운 사후 …

2
로지스틱 회귀에 대한 iid 가정이 있습니까?
로지스틱 회귀의 반응 변수에 iid 가정이 있습니까? 예를 들어 데이터 포인트 가 있다고 가정 합니다. 응답 가 의 Bernoulli 분포에서 온 것 같습니다 . 따라서 매개 변수 가 다른 Bernoulli 분포 가 있어야합니다 .Y i p i = 로짓 ( β 0 + β 1 x i ) 1000 p100010001000와이나는와이나는Y_i피나는= …

6
최소 제곱 추정기의 분산에서 항에 대한 직관적 인 설명
경우 전체 순위의 역은 존재하고 우리는 최소 제곱 추정 얻을 : 및X T X β = ( X T X ) - 1 X Y 바르 ( β ) = σ 2 ( X T X ) - 1XXXXTXXTXX^TXβ^=(XTX)−1XYβ^=(XTX)−1XY\hat\beta = (X^TX)^{-1}XYVar(β^)=σ2(XTX)−1Var⁡(β^)=σ2(XTX)−1\operatorname{Var}(\hat\beta) = \sigma^2(X^TX)^{-1} 분산 공식에서 을 직관적으로 설명하는 방법은 무엇입니까? …

2
가정 . 확인
다음 진술이 사실임을 확인하는 가장 쉬운 방법 은 무엇입니까 ? 가정 . 확인 \ sum_ {I = 1} ^ {N} (Y_i - Y _ {1}) \ SIM \ 텍스트 감마 {} (N-1, 1) .Y1,…,Yn∼iidExp(1)Y1,…,Yn∼iidExp(1)Y_1, \dots, Y_n \overset{\text{iid}}{\sim} \text{Exp}(1)∑ni=1(Yi−Y(1))∼Gamma(n−1,1)∑i=1n(Yi−Y(1))∼Gamma(n−1,1)\sum_{i=1}^{n}(Y_i - Y_{(1)}) \sim \text{Gamma}(n-1, 1) 참고 Y(1)=min1≤i≤nYiY(1)=min1≤i≤nYiY_{(1)} = \min\limits_{1 \leq i \leq …

1
오버 샘플링에 대한 의견, 특히 SMOTE 알고리즘에 대한 의견
휴무 . 이 질문은 의견 기반 입니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 사실과 인용으로 답변 할 수 있도록 질문을 업데이트하십시오 . 휴일 2 년 전 . 분류의 오버 샘플링과 특히 SMOTE 알고리즘에 대한 귀하의 의견은 무엇입니까? 왜 클래스 데이터의 불균형과 불균형 오류 비용을 …


5
통계학자가 랜덤 행렬을 정의한 이유는 무엇입니까?
저는 10 년 전에 수학을 공부했습니다. 그래서 수학과 통계 배경이 있지만이 질문이 저를 죽이고 있습니다. 이 질문은 여전히 ​​약간 철학적입니다. 통계학자가 랜덤 행렬로 작업하기 위해 모든 종류의 기술을 개발 한 이유는 무엇입니까? 무작위 벡터가 문제를 해결하지 않았습니까? 그렇지 않다면 랜덤 행렬의 다른 열의 평균은 얼마입니까? Anderson (2003, Wiley)은 랜덤 벡터를 …


4
분산이 표준 편차보다 더 근본적인 개념입니까?
에 이 심리 측정 웹 사이트 나는 읽었 깊은 수준의 분산은 표준 편차보다 더 근본적인 개념입니다. 이 사이트는 왜 분산이 표준 편차보다 더 근본적인지를 더 자세히 설명하지는 않지만이 사이트에서 비슷한 내용을 읽은 것을 상기시켜주었습니다. 예를 들어, 이 의견에서 @ kjetil-b-halvorsen은 "표준 편차는 해석,보고에 좋습니다. 이론을 발전시키기 위해서는 분산이 더 좋습니다"라고 …

5
직관 (기하학적 또는 기타)
분산의 기본 정체성을 고려하십시오. Var(X)===E[(X−E[X])2]...E[X2]−(E[X])2Var(X)=E[(X−E[X])2]=...=E[X2]−(E[X])2 \begin{eqnarray} Var(X) &=& E[(X - E[X])^2]\\ &=& ...\\ &=& E[X^2] - (E[X])^2 \end{eqnarray} 중심 모멘트를 중심이 아닌 모멘트로 정의하는 간단한 대수적 조작입니다. 다른 상황에서 를 편리하게 조작 할 수 있습니다. 또한 평균을 계산 한 다음 분산을 계산하기 위해 두 패스가 아닌 단일 패스 데이터를 통해 …

3
신경망을 비선형 분류 모델로 만드는 것은 무엇입니까?
비선형 분류 모델의 수학적 의미를 이해하려고합니다. 방금 신경망이 비선형 분류 모델이라는 기사를 읽었습니다. 그러나 나는 단지 그것을 깨닫는다. 첫 번째 레이어 : h1= x1※ wx 1 시간 1+ x2※ wx 1 시간 2h1=x1∗wx1h1+x2∗wx1h2h_1=x_1∗w_{x1h1}+x_2∗w_{x1h2} h2= x1※ wx 2 시간 1+ x2※ wx 2 시간 2h2=x1∗wx2h1+x2∗wx2h2h_2=x_1∗w_{x2h1}+x_2∗w_{x2h2} 후속 레이어 와이= b * wB의 …

1
* 백만 * 계수 / 독립 변수로 다변량 회귀 분석을 실제로 수행합니까?
나는 기계 학습을 배우는 데 시간을 보내고 (재귀에 대한 미안 :) 다변량 선형 회귀의 경우 회귀 계수 계산을위한 직접 방정식 풀기보다 Gradient Descent를 선택 하는 규칙에 흥미를 느끼지 못했습니다 . 경험 법칙 : 피처 수 (읽기 계수 / 독립 변수)가 또는 백만 이상인 경우 그라디언트 디센트 (Gradient Descent)를 사용하지 않으면 …

4
정규 최소 제곱이 푸 아송 회귀보다 성능이 우수한 이유는 무엇입니까?
도시의 각 지역에서 살인 사건의 수를 설명하기 위해 회귀 분석을 시도하고 있습니다. 내 데이터가 포아송 분포를 따른다는 것을 알고 있지만 다음과 같이 OLS를 맞추려고했습니다. log(y+1)=α+βX+ϵlog(y+1)=α+βX+ϵlog(y+1) = \alpha + \beta X + \epsilon 그런 다음 포아송 회귀 분석도 시도했습니다. 문제는 내가 OLS 회귀에서 더 나은 결과를 얻는다는 것입니다. 의사 가 높고 …

4
통계에서
나는 통계를 연구하고 종종를 포함하는 수식을 접하게되는데 log이것을 log기본 10 의 기본 의미로 해석해야 하거나 통계에서 기호 log 가 일반적으로 자연 로그라고 가정 하면 항상 혼란스러워합니다 ln. 특히 저는 Good-Turing Frequency Estimation 을 예로 들어 공부하고 있지만 제 질문은 더 일반적인 질문입니다.

4
카이-제곱 거리를 사용하여 두 히스토그램 비교
두 얼굴의 이미지를 비교하고 싶습니다. 나는 그들의 LBP- 히스토그램을 계산했습니다. 이제이 두 히스토그램을 비교하고이 히스토그램이 어느 정도 (0-100 %)인지 알 수있는 정보를 얻어야합니다. 이 작업을 해결하는 방법에는 여러 가지가 있지만 LBP 방법의 저자는 카이-제곱 거리가 히스토그램 교차점 및 로그 우도 통계량보다 우수하다는 점을 강조합니다. 저자는 또한 카이-제곱 거리의 공식을 보여줍니다. …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.