통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

6
대략 정규 분포의 규모를 추정하기위한 강력한 베이지안 모델은 무엇입니까?
많은 규모 의 강력한 추정기 가 존재한다 . 주목할만한 예로는 표준 편차와 의 중앙값 절대 편차가 σ=MAD⋅1.4826σ=엠에이디⋅1.4826\sigma = \mathrm{MAD}\cdot1.4826있습니다. 베이지안 프레임 워크에는 대략 정규 분포 (예 : 특이 치로 오염 된 정규 분포) 의 위치 를 강력하게 추정 할 수있는 여러 가지 방법이 있습니다. 예를 들어 데이터가 분포 또는 라플라스 …

2
단측 체비 쇼프 불평등의 표본 버전이 존재합니까?
나는 다음과 같은 단면 Cantelli의 Chebyshev 불평등에 관심이 있습니다 . P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2. \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. 기본적으로 모집단 평균과 분산을 알고 있으면 특정 값을 관찰 할 확률의 상한을 계산할 수 있습니다. (최소한 나의 이해였습니다.) 그러나 실제 모집단 평균 및 분산 대신 샘플 …

1
R이 NA를 lm () 계수로 반환하는 이유는 무엇입니까?
나는 피팅하고있다 lm()(Q4에게 기본을, Q1, Q2, Q3) 금융 분기 지표를 포함하는 데이터 세트에 모델. 사용 lm(Y~., data = data) 내가 얻을 NAQ3에 대한 계수, 하나 개의 변수가 있기 때문에 특이성의 제외 것을 경고한다. Q4 열을 추가해야합니까?
32 r  regression 

6
신경망을 시작하는 방법
저는 신경망을 처음 접했지만 이해하는 데 관심이 많습니다. 그러나 시작하기가 쉽지 않습니다. 누구든지 좋은 책이나 다른 종류의 자료를 추천 할 수 있습니까? 반드시 읽어야합니까? 나는 어떤 종류의 팁에 감사합니다.


3
ggplot2에서 산점도 영역 주위에 깔끔한 다각형을 그리는 방법 [닫기]
산점도의 점 그룹 주위에 깔끔한 다각형을 어떻게 추가합니까? ggplot2를 사용하고 있지만의 결과에 실망합니다 geom_polygon. 데이터 세트는 탭으로 구분 된 텍스트 파일로 존재 합니다. 아래 그래프는 여러 국가에서 건강과 실업에 대한 두 가지 태도 측정치를 보여줍니다. 나는 geom_density2d덜 공상적이지만 경험적으로 더 정확한 것으로 전환하고 싶습니다 geom_polygon. 정렬되지 않은 데이터의 결과는 도움이되지 …

2
등급에 대한 신뢰 구간을 찾는 방법은 무엇입니까?
Evan Miller의 " 평균 평점으로 정렬하는 방법 "에서는 신뢰 구간의 하한을 사용하여 평가 된 항목에 대해 합리적인 집계 "점수"를 제안합니다. 그러나 Bernoulli 모델과 함께 작동합니다. 등급은 엄지 손가락 또는 엄지 손가락입니다. 항목의 등급 수가 적을 경우, 별표 에 ~ 별점 을 부여하는 등급 모델에 사용할 합리적인 신뢰 구간은 무엇입니까 ?K111kkk …

5
R에서 와이드 형식과 긴 형식간에 데이터를 변경하는 방법은 무엇입니까? [닫은]
넓은 형식 또는 긴 형식의 데이터를 가질 수 있습니다. 형식에 따라 사용 가능한 방법이 다르기 때문에 이것은 매우 중요한 것입니다. 나는 당신이 일을 알고 melt()및 cast()모양 변경 패키지,하지만 난하지 않는 것이 몇 가지가 보인다. 누군가 당신이 어떻게 이것을 간단한 개요를 줄 수 있습니까?

7
"실행"선형 또는 로지스틱 회귀 매개 변수를 계산하는 알고리즘이 있습니까?
http://www.johndcook.com/standard_deviation.html의 "정확하게 실행 분산 계산"이라는 논문 은 실행 평균, 분산 및 표준 편차를 계산하는 방법을 보여줍니다. 선형 또는 로지스틱 회귀 모델의 매개 변수가 각각의 새로운 훈련 레코드가 제공 될 때 유사하게 "동적으로"업데이트 될 수있는 알고리즘이 있습니까?

1
시계열의 혼합 효과 모델에서 예측 된 값의 합계에 대한 편차
시계열에 대한 예측을 제공하는 혼합 효과 모델 (사실 일반화 첨가제 혼합 모델)이 있습니다. 자기 상관에 대응하기 위해 데이터가 누락되었다는 사실을 감안할 때 corCAR1 모델을 사용합니다. 데이터는 총로드를 제공해야하므로 전체 예측 간격을 합산해야합니다. 그러나 그 총 부하에 대한 표준 오차의 추정치를 얻어야합니다. 모든 예측이 독립적이라면 다음과 같이 쉽게 해결할 수 있습니다. …


4
이항 데이터에 대한 분산 분석
실험 데이터 세트를 분석하고 있습니다. 데이터는 치료 유형의 쌍 벡터와 이항 결과로 구성됩니다. Treatment Outcome A 1 B 0 C 0 D 1 A 0 ... 결과 열에서 1은 성공을 나타내고 0은 실패를 나타냅니다. 치료법이 결과에 크게 다른지를 알아 내고 싶습니다. 각 실험에 대해 4 번의 처리가 여러 번 반복되었습니다 …


5
시간의 영향이 개인마다 기능적 형태가 다른 종단 데이터 모델링
맥락 : 200 명의 참가자를 대상으로 20 주 동안 일주일에 한 번 종속 변수 (DV)를 측정 한 종단 연구를 상상해보십시오. 나는 일반적으로 관심이 있지만, 내가 생각하는 전형적인 DV에는 고용 후의 업무 성과 또는 임상 심리적 개입에 따른 다양한 복지 조치가 포함됩니다. 다단계 모델링을 사용하여 시간과 DV 간의 관계를 모델링 할 …

12
파악하기 가장 어려운 통계 개념은 무엇입니까?
이것은 하나에 비슷한 질문입니다 여기에 ,하지만 서로 다른만큼 내가 가치가 묻는 것으로 생각합니다. 나는 내가 스타터로 생각할 것이라고 생각했는데, 가장 이해하기 어려운 것 중 하나는 생각이다. 광산은 확률 과 빈도 의 차이 입니다. 하나는 "현실 지식"(확률) 수준에 있고 다른 하나는 "실제 자체"(빈도) 수준에 있습니다. 너무 많이 생각하면 거의 항상 혼란스러워합니다. …
32 teaching 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.