통계 및 빅 데이터

3

정확한 위치를 알 수 없지만 알려진 모수를 갖는 정규 분포 (예 : 및 에 따라 분포 된 두 개의 객체가 있다고 가정합니다 . 위치가 좌표 에 대한 분포 (즉, 및 는 각각 및 대해 예상되는 좌표를 포함하는 벡터 의해 설명되도록 양쪽이 변량 법선이라고 가정 할 수 있습니다 . 또한 객체가 …

41 normal-distribution distance-functions

8

주어진 샘플이 푸 아송 분포에서 추출되는지 어떻게 테스트 할 수 있습니까?

정규성 테스트를 알고 있지만 "포아송"을 어떻게 테스트합니까? ~ 1000이 아닌 음이 아닌 정수의 샘플을 가지고 있는데, Poisson 분포에서 가져온 것으로 의심되며 테스트하고 싶습니다.

41 hypothesis-testing distributions poisson-distribution goodness-of-fit

13

평균 연령이 평균 연령보다 통계가 더 좋은 이유는 무엇입니까?

Wolfram Alpha 를 보면 또는이 위키 백과 페이지 중간 연령별 국가 목록 분명히 중앙값 은 연령대에있어 선택의 통계로 보인다. 산술 평균 이 왜 통계가 더 나쁜지 설명 할 수 없습니다 . 왜 그래야만하지? 이 사이트가 존재하는지 몰랐기 때문에 원래 여기에 게시 되었습니다 .

41 mean median

4

제로 상관 관계가 반드시 독립성을 의미하지는 않는 이유

두 변수의 상관 관계가 0 인 경우 왜 반드시 독립적이지 않습니까? 특수한 상황에서 제로 상관 변수가 독립적입니까? 가능하다면 고도로 기술적 인 설명이 아닌 직관적 인 설명을 찾고 있습니다.

41 correlation independence

1

오류 측정을 해석하는 방법?

특정 데이터 세트에 대해 Weka에서 분류를 실행 중이며 공칭 값을 예측하려고하면 출력에 정확하고 잘못 예측 된 값이 구체적으로 표시됩니다. 그러나 이제 숫자 속성으로 실행하고 출력은 다음과 같습니다. Correlation coefficient 0.3305 Mean absolute error 11.6268 Root mean squared error 46.8547 Relative absolute error 89.2645 % Root relative squared error 94.3886 % …

41 machine-learning error weka mse rms

3

내가 어떻게 계산

가정하자 및 Φ ( ⋅ )는 밀도 함수 표준 정규 분포의 분포 함수이다.ϕ ( ⋅ )ϕ(⋅)\phi(\cdot)Φ ( ⋅ )Φ(⋅)\Phi(\cdot) 적분을 어떻게 계산할 수 있습니까? ∫∞− ∞Φ ( w - a비) ϕ(w)D w∫−∞∞Φ(w−ab)ϕ(w)dw\int^{\infty}_{-\infty}\Phi\left(\frac{w-a}{b}\right)\phi(w)\,\mathrm dw

41 mathematical-statistics normal-distribution integral

9

F- 측정 값을 해석하는 방법?

f- 측정 값의 차이를 해석하는 방법을 알고 싶습니다. 나는 f- 측정이 정밀도와 리콜 사이의 균형 잡힌 평균이라는 것을 알고 있지만 F- 측정 차이의 실질적인 의미에 대해 묻고 있습니다. 예를 들어 분류기 C1의 정확도가 0.4이고 다른 분류기 C2의 정확도가 0.8 인 경우 C2가 C1과 비교하여 두 가지 테스트 예를 올바르게 분류했다고 …

41 classification precision-recall

3

0과 1 사이의 결과 (비율 또는 분수)에 대한 회귀

나는 비 예측 모델 구축 생각하고 , 와 과 . 따라서 비율은 과 사이 입니다.a ≤ b a > 0 b > 0 0 1A / Ba/ba/ba ≤ ba≤ba \le ba > 0a>0a > 0b > 0b>0b > 0000111 선형 회귀를 사용할 수는 있지만 자연스럽게 0..1로 제한되지는 않습니다. 관계가 선형이라고 …

41 regression logistic generalized-linear-model beta-distribution beta-regression

5

성향 점수는 회귀 분석에서 공변량을 추가하는 것과 어떻게 다릅니 까?

나는 성향 점수와 인과 분석에 비교적 익숙하지 않다는 것을 인정한다. 새로 온 사람으로서 나에게 분명하지 않은 한 가지는 성향 점수를 사용한 "밸런싱"이 회귀 분석에서 공변량을 추가 할 때 발생하는 것과 수학적으로 어떻게 다른가? 연산에서 다른 점은 무엇이며 회귀 분석에서 소집단 공변량을 추가하는 것보다 더 나은 이유는 무엇입니까? 방법을 실험적으로 비교하는 …

41 regression multivariate-analysis causality propensity-scores

6

랜덤 포레스트-오버 피팅 처리 방법

컴퓨터 과학 배경을 가지고 있지만 인터넷에서 문제를 해결하여 데이터 과학을 가르치려고합니다. 나는 지난 몇 주 동안이 문제를 연구 해 왔습니다 (약 900 행과 10 기능). 처음에는 로지스틱 회귀를 사용했지만 이제는 임의의 포리스트로 전환했습니다. 훈련 데이터에서 임의의 포리스트 모델을 실행하면 auc (> 99 %)의 값이 실제로 높아집니다. 그러나 테스트 데이터에서 동일한 …

41 random-forest overfitting

3

통계적 독립성은 인과 관계 부족을 의미합니까?

두 개의 랜덤 변수 A와 B는 통계적으로 독립적입니다. 이는 프로세스의 DAG에서 및 물론 입니다. 그러나 그것은 B에서 A 로의 정문이 없다는 것을 의미합니까?P ( A | B ) = P ( A )(A⊥⊥B)(A⊥⊥B)(A {\perp\!\!\!\perp} B)P(A|B)=P(A)P(A|B)=P(A)P(A|B)=P(A) 따라서 합니다. 그렇다면, 통계적 독립성은 자동적으로 인과 관계 부족을 의미합니까?P(A|do(B))=P(A)P(A|do(B))=P(A)P(A|do(B))=P(A)

40 independence causality bayesian-network dag

5

실제 하이퍼 파라미터 최적화 : 랜덤 대 그리드 검색

저자는 현재 Bengio와 Bergsta의 Hyper-Parameter Optimization에 대한 Random Search [1]를 진행하고 있는데, 여기서 저자는 거의 동일한 성능을 달성하는 데있어 그리드 검색보다 랜덤 검색이 더 효율적이라고 주장합니다. 내 질문은 : 여기 사람들이 그 주장에 동의합니까? 내 작품에서 나는 무작위 검색을 쉽게 수행 할 수있는 도구가 없기 때문에 그리드 검색을 주로 사용했습니다. …

40 machine-learning hyperparameter optimization

4

왜 다른 것 대신 S 자형 기능이 필요한가?

사실상의 표준 시그 모이 드 함수 인 이 (심층적이지 않은) 신경망과 로지스틱 회귀 분석에서 왜 그렇게 인기가 있습니까?11+e−x11+e−x\frac{1}{1+e^{-x}} 계산 시간이 빠르거나 감쇄 속도가 느린 다른 많은 파생 함수를 사용하지 않는 이유는 무엇입니까? S 자형 함수에 대한 Wikipedia 에는 몇 가지 예가 있습니다 . 느린 부패와 빠른 계산으로 내가 가장 좋아하는 …

40 logistic neural-networks least-squares

6

시뮬레이션은 언제 사용합니까?

이것은 매우 간단하고 멍청한 질문입니다. 그러나 학교에있을 때 수업에서 시뮬레이션의 전체 개념에 거의 관심을 기울이지 않아서 그 과정에 약간의 두려움이 생겼습니다. 평신도 용어로 시뮬레이션 프로세스를 설명 할 수 있습니까? (데이터, 회귀 계수 등을 생성 할 수 있음) 시뮬레이션을 사용할 때의 실제 상황 / 문제는 무엇입니까? R로 주어진 예제를 선호합니다.

40 simulation

5

연속 변수와 범주 형 (명목) 변수의 상관 관계

연속 형 (종속 변수)과 범주 형 (명목 : 성별, 독립 변수) 변수 사이의 상관 관계를 찾고 싶습니다. 연속 데이터는 정상적으로 배포되지 않습니다. 이전에는 Spearman 's 사용하여 계산했습니다 . 그러나 나는 그것이 옳지 않다는 말을 들었다.ρρ\rho 인터넷에서 검색하는 동안 상자 그림이 얼마나 관련되어 있는지 알 수 있습니다. 그러나 Pearson의 제품 모멘트 …

40 correlation categorical-data descriptive-statistics biostatistics spearman-rho