통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

3
두 정규 분포의 랜덤 변수 사이의 유클리드 거리 분포는 무엇입니까?
정확한 위치를 알 수 없지만 알려진 모수를 갖는 정규 분포 (예 : 및 에 따라 분포 된 두 개의 객체가 있다고 가정합니다 . 위치가 좌표 에 대한 분포 (즉, 및 는 각각 및 대해 예상되는 좌표를 포함하는 벡터 의해 설명되도록 양쪽이 변량 법선이라고 가정 할 수 있습니다 . 또한 객체가 …




1
오류 측정을 해석하는 방법?
특정 데이터 세트에 대해 Weka에서 분류를 실행 중이며 공칭 ​​값을 예측하려고하면 출력에 정확하고 잘못 예측 된 값이 구체적으로 표시됩니다. 그러나 이제 숫자 속성으로 실행하고 출력은 다음과 같습니다. Correlation coefficient 0.3305 Mean absolute error 11.6268 Root mean squared error 46.8547 Relative absolute error 89.2645 % Root relative squared error 94.3886 % …

3
내가 어떻게 계산
가정하자 및 Φ ( ⋅ )는 밀도 함수 표준 정규 분포의 분포 함수이다.ϕ ( ⋅ )ϕ(⋅)\phi(\cdot)Φ ( ⋅ )Φ(⋅)\Phi(\cdot) 적분을 어떻게 계산할 수 있습니까? ∫∞− ∞Φ ( w - a비) ϕ(w)D w∫−∞∞Φ(w−ab)ϕ(w)dw\int^{\infty}_{-\infty}\Phi\left(\frac{w-a}{b}\right)\phi(w)\,\mathrm dw

9
F- 측정 값을 해석하는 방법?
f- 측정 값의 차이를 해석하는 방법을 알고 싶습니다. 나는 f- 측정이 정밀도와 리콜 사이의 균형 잡힌 평균이라는 것을 알고 있지만 F- 측정 차이의 실질적인 의미에 대해 묻고 있습니다. 예를 들어 분류기 C1의 정확도가 0.4이고 다른 분류기 C2의 정확도가 0.8 인 경우 C2가 C1과 비교하여 두 가지 테스트 예를 올바르게 분류했다고 …


5
성향 점수는 회귀 분석에서 공변량을 추가하는 것과 어떻게 다릅니 까?
나는 성향 점수와 인과 분석에 비교적 익숙하지 않다는 것을 인정한다. 새로 온 사람으로서 나에게 분명하지 않은 한 가지는 성향 점수를 사용한 "밸런싱"이 회귀 분석에서 공변량을 추가 할 때 발생하는 것과 수학적으로 어떻게 다른가? 연산에서 다른 점은 무엇이며 회귀 분석에서 소집단 공변량을 추가하는 것보다 더 나은 이유는 무엇입니까? 방법을 실험적으로 비교하는 …

6
랜덤 포레스트-오버 피팅 처리 방법
컴퓨터 과학 배경을 가지고 있지만 인터넷에서 문제를 해결하여 데이터 과학을 가르치려고합니다. 나는 지난 몇 주 동안이 문제를 연구 해 왔습니다 (약 900 행과 10 기능). 처음에는 로지스틱 회귀를 사용했지만 이제는 임의의 포리스트로 전환했습니다. 훈련 데이터에서 임의의 포리스트 모델을 실행하면 auc (> 99 %)의 값이 실제로 높아집니다. 그러나 테스트 데이터에서 동일한 …

3
통계적 독립성은 인과 관계 부족을 의미합니까?
두 개의 랜덤 변수 A와 B는 통계적으로 독립적입니다. 이는 프로세스의 DAG에서 및 물론 입니다. 그러나 그것은 B에서 A 로의 정문이 없다는 것을 의미합니까?P ( A | B ) = P ( A )(A⊥⊥B)(A⊥⊥B)(A {\perp\!\!\!\perp} B)P(A|B)=P(A)P(A|B)=P(A)P(A|B)=P(A) 따라서 합니다. 그렇다면, 통계적 독립성은 자동적으로 인과 관계 부족을 의미합니까?P(A|do(B))=P(A)P(A|do(B))=P(A)P(A|do(B))=P(A)

5
실제 하이퍼 파라미터 최적화 : 랜덤 대 그리드 검색
저자는 현재 Bengio와 Bergsta의 Hyper-Parameter Optimization에 대한 Random Search [1]를 진행하고 있는데, 여기서 저자는 거의 동일한 성능을 달성하는 데있어 그리드 검색보다 랜덤 검색이 더 효율적이라고 주장합니다. 내 질문은 : 여기 사람들이 그 주장에 동의합니까? 내 작품에서 나는 무작위 검색을 쉽게 수행 할 수있는 도구가 없기 때문에 그리드 검색을 주로 사용했습니다. …

4
왜 다른 것 대신 S 자형 기능이 필요한가?
사실상의 표준 시그 모이 드 함수 인 이 (심층적이지 않은) 신경망과 로지스틱 회귀 분석에서 왜 그렇게 인기가 있습니까?11+e−x11+e−x\frac{1}{1+e^{-x}} 계산 시간이 빠르거나 감쇄 속도가 느린 다른 많은 파생 함수를 사용하지 않는 이유는 무엇입니까? S 자형 함수에 대한 Wikipedia 에는 몇 가지 예가 있습니다 . 느린 부패와 빠른 계산으로 내가 가장 좋아하는 …

6
시뮬레이션은 언제 사용합니까?
이것은 매우 간단하고 멍청한 질문입니다. 그러나 학교에있을 때 수업에서 시뮬레이션의 전체 개념에 거의 관심을 기울이지 않아서 그 과정에 약간의 두려움이 생겼습니다. 평신도 용어로 시뮬레이션 프로세스를 설명 할 수 있습니까? (데이터, 회귀 계수 등을 생성 할 수 있음) 시뮬레이션을 사용할 때의 실제 상황 / 문제는 무엇입니까? R로 주어진 예제를 선호합니다.
40 simulation 

5
연속 변수와 범주 형 (명목) 변수의 상관 관계
연속 형 (종속 변수)과 범주 형 (명목 : 성별, 독립 변수) 변수 사이의 상관 관계를 찾고 싶습니다. 연속 데이터는 정상적으로 배포되지 않습니다. 이전에는 Spearman 's 사용하여 계산했습니다 . 그러나 나는 그것이 옳지 않다는 말을 들었다.ρρ\rho 인터넷에서 검색하는 동안 상자 그림이 얼마나 관련되어 있는지 알 수 있습니다. 그러나 Pearson의 제품 모멘트 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.