통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
대칭 분포의 정의는 무엇입니까?
대칭 분포의 정의는 무엇입니까? 누군가 와 가 같은 분포를 가진 경우에만 임의의 변수 X엑스X 가 대칭 분포에서 나온다고 나에게 말했습니다 . 그러나 나는이 정의가 부분적으로 사실이라고 생각합니다. 및 과 같은 반례를 제시 할 수 있기 입니다. 분명히, 그것은 대칭 분포를 가지고 있지만 와 는 다른 분포를 가지고 있습니다! 내가 맞아? …

2
로그 변환이 비정규 데이터를 t- 검정하는 데 유효한 기술입니까?
논문을 검토하면서 저자들은 "정규의 전제 조건 가정을 만족시키기 위해 t 개의 검정을 수행하기 전에 자연 로그를 사용하여 기울어 진 분포를 나타내는 연속적인 결과 변수를 변환했습니다"라고 말합니다. 비정규 데이터를 분석 할 수있는 적절한 방법입니까, 특히 기본 분포가 반드시 로그 정규성이 아닌 경우 이것은 매우 어리석은 질문 일지 모르지만 이전에는이 ​​일을 보지 …

1
ggplot2를 사용하여 패싯에서 사용되지 않은 레벨 삭제
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 작년에 문을 닫았 습니다 . ggplot2s 패싯에 사용되지 않는 레벨을 제거 할 수 있습니까? 이것은 내 코드입니다. tab = as.data.frame(cbind(groups = mtcars$cyl, names = row.names(mtcars), val = mtcars$mpg, …

2
시간에 따른 로지스틱 회귀 분석에서 분류 확률 업데이트
학기 말에 학생의 성공 확률을 예측하는 예측 모델을 작성 중입니다. 저는 학생의 성공 또는 실패 여부에 특히 관심이 있습니다. 여기서 성공은 일반적으로 과정을 이수하 고 총 점수 중 70 % 이상을 달성하는 것으로 정의됩니다. 모델을 배포 할 때 학생이 과제를 제출하거나 성적을 올리는 등의 일이 발생한 직후에 더 많은 정보를 …

2
이전 이벤트 시간을 기준으로 다음 이벤트 발생시기를 예측하는 방법은 무엇입니까?
저는 고등학생이며 컴퓨터 프로그래밍 프로젝트를 진행하고 있지만 고등학교 통계 과정을 넘어서는 통계 및 모델링 데이터에 대한 경험이 많지 않아 혼란 스럽습니다. 기본적으로 누군가가 문서를 인쇄하기로 결정한 시간의 합리적으로 큰 목록 (통계 테스트 또는 측정에 대한 가정을 충족하기에 충분히 크다고 가정)을 가지고 있습니다. 이 목록을 바탕으로 이전 이벤트 시간을 모두 고려하여 …

3
혼합 효과 모델보다 반복 측정 ANOVA가 언제 선호됩니까?
이 질문에 대한 응답으로 참가자에게 무작위로 다른 범주의 그림을 제공 한 내 디자인이 반복 측정 ANOVA를 사용해야하는 예인지 여부와 관련하여 혼합 모델을 대신 사용해야한다는 대답을 얻었습니다. 나는 두 가지 형태의 의존성이 있기 때문에 : 주제와 범주. 내 질문은 지금 :이 유형의 반복 측정 디자인을 수행 할 때 항상 이런 방식으로 …

3
반 감독 학습, 능동 학습 및 분류를위한 딥 러닝
모든 리소스가 업데이트 된 최종 편집 : 프로젝트의 경우 분류를 위해 기계 학습 알고리즘을 적용하고 있습니다. 도전 과제 : 레이블이 지정된 데이터와 레이블이없는 데이터가 훨씬 제한적입니다. 목표 : 반 감독 분류 적용 어떻게 든 반 감독 라벨링 프로세스 적용 (활성 학습이라고 함) EM, Transductive SVM 또는 S3VM (Semi Supervised SVM)을 …

5
표준 편차의 2D 아날로그?
다음 실험을 고려해보십시오. 한 무리의 사람들에게 도시 목록이 제공되고 해당 위치를 표시 (또는 레이블이없는) 세계지도에 표시하도록 요청합니다. 각 도시마다 대략 각 도시를 중심으로 여러 포인트가 산포됩니다. 이스탄불에 따르면 일부 도시는 다른 도시보다 산란이 적을 것이라고 모스크바는 말합니다. 주어진 도시 에 대해 테스트에 의해 할당 에서 도시 의 위치를 나타내는 2D …

4
R 또는 SPSS를 사용하여 Likert 응답 시각화
나는 2 그룹 (82 그룹 응답자 A 그룹에서 43 그룹 B 그룹에서 39)에 각각 1-5의 65 Likert 질문에 대한 설문 조사를 완료했습니다 (강하게 동의-동의하지 않음). 따라서 66 열 (각 질문에 대해 1 + 그룹 할당을 나타내는 1)과 82 행 (각 응답자에 대해 1)의 데이터 프레임이 있습니다. R 또는 SPSS를 사용하면 …

2
2-t- 분포의 차이 분포는 무엇입니까
... 그리고 왜 ? 가정 , 평균 독립적 인 랜덤 변수이다 및 분산 각각이. 기본 통계 책에 따르면 의 분포 에는 다음과 같은 속성이 있습니다.X 2 μ 1 , μ 2 σ 2 1 , σ 2 2 X 1 − X 2X1X1X_1X2X2X_2μ1,μ2μ1,μ2\mu_1,\mu_2σ21,σ22σ12,σ22\sigma^2_1,\sigma^2_2X1−X2X1−X2X_1-X_2 E(X1−X2)=μ1−μ2E(X1−X2)=μ1−μ2E(X_1-X_2)=\mu_1-\mu_2 Var(X1−X2)=σ21+σ22Var(X1−X2)=σ12+σ22Var(X_1-X_2)=\sigma^2_1 +\sigma^2_2 이제 , X_2 는 …

4
평균 평균의 신뢰 구간을 계산하는 방법은 무엇입니까?
실험을 세 번 반복한다고 상상해보십시오. 각 실험에서 3 회 측정 값을 수집합니다. 3 가지 실험 방법의 차이점에 비해 3 중 실험은 서로 밀접하게 연관되어 있습니다. 대 평균을 계산하는 것은 매우 쉽습니다. 그러나 어떻게 평균의 신뢰 구간을 계산할 수 있습니까? 샘플 데이터 : 실험 1:34, 41, 39 실험 2:45, 51, 52 …

3
PTLOS 운동 4.1을 해결 한 사람이 있습니까?
이것은 확률 이론 : Edwin Jaynes 의 과학의 논리 , 2003 년에 주어진 연습 입니다. 여기에 부분적인 해결책이 있습니다 . 더 일반적인 부분 솔루션을 개발했으며 다른 사람이 해결했는지 궁금합니다. 내 답변을 게시하기 전에 잠시 기다렸다가 다른 사람들에게 도움을 줄 것입니다. 자, 우리가 표시된 상호 배타적이고 철저한 가설 이 있다고 가정하십시오 …

1
4 사분면에 대한 커뮤니티의 취지는 무엇입니까?
Black Swan 명성 (또는 악명) 의 Nassim Taleb 는이 개념을 자세히 설명하고 그가 "통계 한계의 맵"이라고하는 것을 개발했습니다 . 그의 기본 주장은 통계 모델의 사용이 유해한 한 종류의 의사 결정 문제가 있다는 것입니다. 이는 잘못된 결정을 내리면 결과가 지나치게 높을 수 있으며 기본 PDF를 알기가 어려운 결정 문제가 될 수 …

7
R에서 슬라이딩 윈도우의 평균
작은 슬라이드를 따라 창에서 평균을보고 싶은 값으로 구성된 벡터가 있습니다. 예를 들어 다음 값으로 구성된 벡터의 경우 4, 5, 7, 3, 9, 8 창 크기 3과 슬라이드 2는 다음을 수행합니다. (4+5+7)/3 = 5.33 (7+3+9)/3 = 6.33 (9+8)/3 = 5.67 다음 값으로 구성된 벡터를 반환하십시오. 5.33, 6.33, 5.67 나를 위해 이것을 …
19 r 


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.