통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

4
p- 값이 작을수록 더 설득력이 있습니까?
나는 값 , 유형 1 오류율, 유의 수준, 검정력 계산, 효과 크기 및 Fisher vs Neyman-Pearson 토론 에 대해 읽었습니다 . 이로 인해 나는 약간 압도되었다. 나는 텍스트의 벽에 대해 사과하지만 실제 질문으로 넘어 가기 전에 이러한 개념에 대한 나의 현재 이해에 대한 개요를 제공 할 필요가 있다고 느꼈다.ppp 내가 …

4
낮은 p- 값이 널에 대해 더 이상 증거가 아닌 이유는 무엇입니까? Johansson 2011의 주장
에서 요한슨 (2011) " 우박 불가능 : P-값, 증거, 그리고 가능성 "(여기 또한 저널 링크 낮은 것을 주) -values 종종 널 (null)에 대한 강력한 증거로 간주됩니다. Johansson 은 통계 테스트가 p- 값 0.45를 출력하는 것보다 p- 값 0.01을 출력하면 null에 대한 증거가 더 강하다고 간주 할 것을 암시합니다 . Johansson은 …

2
'p- 값'의 정확한 값이 의미가 없습니까?
필자는 2009 년 통계 학자와 논의하여 p- 값의 정확한 값은 관련이 없다고 언급했습니다. 중요한 것은 중요한지 여부는 중요합니다. 즉, 한 결과가 다른 결과보다 더 중요 할 수는 없습니다. 예를 들어, 같은 모집단 출신이거나 그렇지 않은 표본. 나는 이것에 대한 몇 가지 자질을 가지고 있지만 아마도 이념을 이해할 수 있습니다. 5 …

5
선 그림에 대한 색상 및 선 두께 권장 사항
일반적으로 맵, 다각형 및 음영 처리 된 영역에 대한 색맹 친화적 인 색 선택에 대해 많은 글을 썼습니다 (예 : http://colorbrewer2.org ). 선 색상에 대한 권장 사항과 선 그래프에 대한 다양한 선 두께를 찾을 수 없었습니다. 목표는 다음과 같습니다 서로 얽혀도 쉽게 선을 구분 가장 일반적인 형태의 색맹 인 개인은 …

1
음 이항 회귀 문제-모형이 좋지 않습니까?
카운트 데이터의 회귀 모델에 대한 Sellers and Shmueli 의 매우 흥미로운 기사를 읽고 있습니다. 처음에 그들은 (p. 944) McCullaugh와 Nelder (1989)를 인용하여 부정적인 이항 회귀는 인기가없고 문제적인 정식 연관성이 있다고 말했다. 나는 언급 된 구절을 발견했고 그것을 말한다 (M과 N의 374 쪽) "응용 프로그램에서 마이너스 이항 분포를 거의 사용하지 않은 …

2
“딥 러닝”과 다단계 / 계층 적 모델링의 차이점은 무엇입니까?
"딥 러닝"은 다단계 / 계층 모델링의 또 다른 용어입니까? 나는 전자보다 후자에 대해 더 잘 알고 있지만, 내가 알 수 있듯이, 주요 차이점은 그들의 정의가 아니라 응용 프로그램 도메인 내에서 어떻게 사용되고 평가되는지입니다. 일반적인 "딥 러닝"애플리케이션의 노드 수는 더 크고 일반적인 계층 적 형식을 사용하는 반면 다중 레벨 모델링의 애플리케이션은 …

1
GBM 매개 변수에 대한 유용한 지침은 무엇입니까?
GBM을 사용하여 매개 변수를 테스트하는 데 유용한 지침 (예 : 상호 작용 깊이, Minchild, 샘플 속도 등)은 무엇입니까? 70 ~ 100 개의 기능, 인구가 200,000 명이고 상호 작용 깊이 3과 4를 테스트하려고한다고 가정 해 보겠습니다. 어떤 매개 변수 조합이 어떤 샘플을 가장 잘 보유하는지 확인하려면 몇 가지 테스트를 수행해야합니다. 이 …

1
큰 희소 행렬의 차원 축소 (SVD 또는 PCA)
/ 편집 : 추가 후속 조치 irlba :: prcomp_irlba를 사용할 수 있습니다 / 편집 : 내 자신의 게시물에 후속. irlba이제 "center"및 "scale"인수를 사용하여이를 사용하여 기본 구성 요소를 계산할 수 있습니다. 예 : pc <- M %*% irlba(M, nv=5, nu=0, center=colMeans(M), right_only=TRUE)$v Matrix기계 학습 알고리즘에 사용하려는 크고 작은 기능이 있습니다. library(Matrix) …

8
특이 값을 평균으로 바꾸기
이 질문은 인터넷에 정통하지 않은 친구가 물었습니다. 통계 배경이 없으며이 질문에 대해 인터넷을 검색했습니다. 문제는 : 특이 치를 평균값으로 대체 할 수 있습니까? 가능하다면이 진술을 뒷받침 할 책 참조 / 저널이 있습니까?

3
Shalizi의 베이지안 역 시간 역설의 엔트로피에 대한 반박?
에서 본 논문 , 재능있는 연구원 코스 마 샤 리치는 완전히 주관적인 베이지안보기를 수락하려면, 하나의도 (엔트로피의 흐름에 의해 주어진) 시간의 화살표가 실제로 이동해야한다는 비 물리적 결과를 수용해야한다고 주장 뒤쪽을 . 이것은 주로 ET Jaynes 가 제시하고 대중화 한 최대 엔트로피 / 완전히 주관적인 베이지안 견해에 맞서기위한 시도 입니다. 이상에서 LessWrong …


5
많은 독립 변수에서 유의 한 예측 변수 탐지
겹치지 않는 두 인구 (환자 및 건강, 총 ) 의 데이터 세트 에서 연속 종속 변수에 대한 중요한 예측 변수 ( 독립 변수 중) 를 찾고 싶습니다 . 예측 변수 사이의 상관 관계가 있습니다. 나는 예측 변수 중 어느 것이 종속 변수를 가능한 정확하게 예측하기보다는 "실제로"종속 변수와 관련이 있는지 알아내는 …

3
변수 선택이 필요한 이유는 무엇입니까?
일반적인 데이터 기반 변수 선택 절차 (예 : 정방향, 역방향, 단계적, 모든 하위 집합)는 다음을 포함하여 바람직하지 않은 속성을 가진 모델을 생성하는 경향이 있습니다. 계수는 0에서 멀어졌습니다. 너무 작은 표준 오차와 너무 좁은 신뢰 구간 알려진 의미가없는 통계 및 p- 값을 테스트합니다. 지나치게 낙관적 인 모형 적합 추정치. 의미가없는 포함 …

2
통계 학습의 요소에서 k- 최근 접 이웃 분류기의 결정 경계를 그리는 방법은 무엇입니까?
Trevor Hastie & Robert Tibshirani와 Jerome Friedman의 ElemStatLearn 책 "통계학 학습의 요소 : 데이터 마이닝, 추론 및 예측 2 판"에 설명 된 줄거리를 만들고 싶습니다. 줄거리는 다음과 같습니다 에서 정확한 그래프를 생성하는 방법이 궁금합니다 R. 특히 그리드 그래픽과 계산을 참고하여 경계를 표시하십시오.

1
BUGS와 R의 모수는 어떤 분포에 대해 다른가?
BUGS와 R의 매개 변수가 Normal, log-Normal 및 Weibull 인 분포를 찾았습니다. 이들 각각에 대해, 나는 R이 사용하는 두 번째 매개 변수가 BUGS (또는 내 경우에는 JAGS)에서 사용되기 전에 역 변환 (1 / 매개 변수)이 필요하다는 것을 수집합니다. 현재 존재하는 이러한 변환의 포괄적 인 목록을 아는 사람이 있습니까? 내가 찾을 수있는 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.