통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

4
분류 확률 임계 값
일반적으로 분류에 관한 질문이 있습니다. f는 일부 데이터 D가 주어진 확률 세트를 출력하는 분류기 (classifier)라고하자. 일반적으로 P (c | D)> 0.5이면 클래스 1을 할당하고 그렇지 않으면 0을 할당한다. 분류). 내 질문은, 내가 알면, 확률을 1로 분류하면 확률이 0.2보다 클 때 분류 기가 더 잘 수행된다는 것입니다. 분류를 수행 할 때이 …


2
서로 다른 표본 크기의 평균 비교를 어떻게 해석해야합니까?
웹 사이트에서 도서 등급을 평가하십시오. 책 A의 평균 등급은 4.25이고 분산 입니다. 마찬가지로 Book B의 평가는 100 명이며 의 4.5 등급입니다 .σ = 0.25σ= 0.5σ=0.5\sigma = 0.5σ= 0.25σ=0.25\sigma = 0.25 이제 책 A의 표본 크기가 크기 때문에 '평균이 4.25로 안정화되었습니다. 이제 100 명에게 더 많은 사람이 Book B를 읽으면 평균 …


4
X와 XY 랜덤 변수 간의 상관 계수가 0.7 인 이유는 무엇입니까?
에서 촬영 의료 연구에 대한 실제 통계 더글러스 알트만은 285 페이지의 글 : ... 두 수량 X와 Y에 대해 X는 XY와 상관됩니다. 실제로, X와 Y가 난수의 표본이더라도 X와 XY의 상관 관계는 0.7이 될 것으로 예상합니다 나는 이것을 R에서 시도했고 그것은 사실 인 것 같다 : x <- rnorm(1000000, 10, 2) …

6
아마존의“평균 등급”은 오해의 소지가 있습니까?
올바르게 이해하면 1-5 척도의 도서 등급은 리 커트 점수입니다. 즉, 나를위한 3은 다른 사람을위한 3 일 필요는 없습니다. 서수 척도 IMO입니다. 실제로 서수 스케일을 평균화해서는 안되지만 모드, 중앙값 및 백분위 수를 확실히 취할 수 있습니다. 인구의 대부분이 위의 통계보다 수단을 이해하기 때문에 규칙 을 구부리 는 것이 '좋아' 입니까? 리서치 …

1
부트 스트랩 대 잭나이프
부트 스트랩과 잭나이프 방법은 추정의 바이어스 및 표준 오차를 추정하는 데 사용될 수 있으며, 리샘플링 방법의 메커니즘은 크게 다르지 않습니다. 그러나 jackknife는 연구와 실습에서 부트 스트랩만큼 인기가 없습니다. jackknife를 사용하는 대신 부트 스트랩을 사용하면 확실한 이점이 있습니까?

2
랜덤 효과, 고정 효과 및 한계 모델의 차이점은 무엇입니까?
통계에 대한 지식을 넓히려 고합니다. 나는 통계 테스트에 대한 "레시피 기반"접근 방식을 가진 물리 과학 배경에서 나왔습니다. 우리 는 그것이 연속적 이라고 말하지만 , 그것은 정상적으로 분포되어 있습니까 -OLS 회귀 . 내 독서에서 나는 랜덤 효과 모델, 고정 효과 모델, 한계 모델이라는 용어를 보았습니다. 내 질문은 : 아주 간단한 용어로 …

6
감도, 특이성, 정밀도, 정확성 및 리콜의 차이를 기억하는 가장 좋은 방법은 무엇입니까?
이 용어를 502847894789 번이나 보았지만, 나는 내 인생에서 감도, 특이성, 정밀도, 정확성 및 리콜의 차이를 기억할 수 없습니다. 그것들은 매우 간단한 개념이지만, 그 이름은 직관적이지 않기 때문에 계속 서로 혼동됩니다. 이러한 개념에 대해 생각할 수있는 좋은 방법은 무엇입니까? 달리 말하면, 왜 다른 이름들과 달리이 개념들에 대해이 이름들이 선택 되었습니까?

4
상관 관계 = 0.2는 "5 명 중 1 명만"연관이 있음을 의미합니까?
에서 바보 브레인 : 신경 과학자는 머리가 정말 최고입니다 무엇을 설명 , 딘 버넷 썼다 높이와 지능의 상관 관계가 보통 인 것으로 인용 , 높이와 정보를 의미 만에 관련있는 것처럼 보이는 에 사람들입니다.1 50.20.20.2111555 나에게,이 소리는 잘못되었다 : 나는 그 사람에 대해 우리가 아는 유일한 것이 다른 척도 (여기서는 높이)라면 …


3
재발 성 신경망과 재귀 신경망 : NLP에는 어떤 것이 더 좋습니까?
재발 성 신경망과 재귀 신경망이 있습니다. 둘 다 일반적으로 동일한 약어로 표시됩니다 : RNN. Wikipedia 에 따르면 Recurrent NN은 실제로 Recursive NN이지만 설명을 이해하지 못합니다. 또한, 자연어 처리에 어떤 것이 더 나은지 (예를 들어) 알지 못하는 것 같습니다. 사실 Socher는 자신의 튜토리얼 에서 NLP에 재귀 NN을 사용하지만 재귀 신경 네트워크의 …

6
두 개의 연속 변수가 독립적인지 어떻게 테스트합니까?
I는 샘플이 가정 의 결합 분포 X 와 Y . X 와 Y 가 독립적 이라는 가설을 어떻게 테스트 합니까?(Xn,Yn),n=1..N(Xn,Yn),n=1..N(X_n,Y_n), n=1..NXXXYYYXXXYYY 와 Y 의 합동 또는 한계 분포 법칙에 대한 가정은 없습니다 (이러한 경우 독립성은 상관 관계가 0 과 동일하므로 모든 합동 정규성이 가장 적음 ).XXXYYY000 와 Y 사이의 가능한 …

4
t- 검정의 t- 값에서 수동으로 P 값 계산
31 값의 샘플 데이터 세트가 있습니다. 실제 평균이 10과 같은지 테스트하기 위해 R을 사용하여 양측 t- 검정을 실행했습니다. t.test(x=data, mu=10, conf.level=0.95) 산출: t = 11.244, df = 30, p-value = 2.786e-12 alternative hypothesis: true mean is not equal to 10 95 percent confidence interval: 19.18980 23.26907 sample estimates: mean of …

7
카이 제곱은 항상 단측 테스트입니까?
출판 된 기사 ( pdf )에는 다음 두 문장이 포함되어 있습니다. 또한 잘못된 규칙을 적용하거나 통계 테스트에 대한 지식이 부족하여 잘못된보고가 발생할 수 있습니다. 예를 들어, 검정 의보고에서 분산 분석의 총 df를 오류 df로 간주 하거나 연구원이 또는 검정 의보고 된 p 값을 나눌 수 있습니다. 단측 값인 반면 또는 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.