통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

8
통계 학습의 요소들 앞에 읽기 책?
이 게시물을 기반으로 통계 학습 요소를 요약하고 싶습니다. 다행히도 무료로 사용할 수 있으며 읽기 시작했습니다. 나는 그것을 이해하기에 충분한 지식이 없다. 책의 주제를 더 잘 소개하는 책을 추천 할 수 있습니까? 희망적으로 그것을 이해하는 데 필요한 지식을 줄 것입니까? 관련 : 수학의 강력한 배경이 ML의 필수 요건입니까?

6
능선 회귀는 높은 차원에서 쓸모가 없습니까 ( )? OLS가 어떻게 과적 합에 실패 할 수 있습니까?
예측 변수 및 표본 크기 과 함께 좋은 오래된 회귀 문제를 고려하십시오 . 일반적인 지혜는 OLS 추정기가 능선 회귀 추정기에 의해 초과 적합하고 일반적으로 능가한다는 것입니다.최적의 정규화 매개 변수 를 찾기 위해 교차 유효성 검사를 사용하는 것이 표준 입니다. 여기에서는 10 배 CV를 사용합니다. 설명 업데이트 : 일 때 "OLS …

5
모집단 분산 계산에서 N과 N-1의 차이점은 무엇입니까?
나는 거기에 이유를하지 않았다 N및 N-1인구 분산을 계산하는 동안. 우리가 언제 사용할 N때 N-1? 더 큰 버전을 보려면 여기를 클릭하십시오 인구가 매우 많을 때 N과 N-1 사이에는 차이가 없지만 처음에 N-1이 왜 있는지는 알 수 없습니다. 편집 : 견적 n과 혼동하지 마십시오 n-1. Edit2 : 인구 추정에 대해서는 이야기하지 않습니다.


3
'재생 가능한 연구'를 어떻게 정의하고 있습니까?
이것은 지금 몇 가지 질문으로 제기되었으며, 나는 무언가에 대해 궁금해하고 있습니다. 원래 데이터의 가용성과 문제의 코드에 중점을 두어 "재현성"으로 필드 전체를 이동 했습니까? 나는 항상 재현의 핵심이 필자가 언급했듯이 실행을 클릭하고 동일한 결과를 얻는 능력은 아니라는 점을 항상 배웠다. 데이터 및 코드 접근 방식은 데이터가 정확하다고 가정하는 것 같습니다. 데이터 …

3
우리는“연민 공감”에 문제가 있습니까?
나는 이것이 주제가 아닌 것처럼 들릴 수 있지만 내 말을 듣는다. 스택 오버플로에서 게시물에 대한 투표를 받으면 모두 표 형식으로 저장됩니다. 예 : 게시물 유권자 ID 투표 유형 날짜 시간 ------- -------- --------- -------- 1012 2000-1-1 10:00:01 11 3 3 2000-1-1 10:00:01 10 5 2 2000-1-1 10:00:01 ... 등등. 투표 …

5
“p- 값”의 올바른 철자 (대문자, 이탤릭체, 하이픈)?
나는 이것이 현명하고 간결하다는 것을 알고 있지만, 통계의 공식 교육이 제한되어있는 통계 밖의 분야의 연구원으로서, 나는 항상 "p- 값"을 정확하게 쓰고 있는지 궁금합니다. 구체적으로 : "p"는 대문자로되어 있습니까? "p"는 이탤릭체로되어 있습니까? (또는 TeX에서 수학 글꼴로?) "p"와 "value"사이에 하이픈이 있어야합니까? 대안 적으로, "p- 값"을 작성하는 "적절한"방법이 없으며, 어떤 옵션은 이러한 옵션의 …

1
Scikit-learn의 One-hot vs Dummy 인코딩
범주 형 변수를 인코딩하는 방법에는 두 가지가 있습니다. 하나의 범주 형 변수에는 n 개의 값이 있습니다. 원핫 인코딩은 이를 n 개의 변수 로 변환하고 더미 인코딩은 이를 n-1 변수 로 변환합니다 . k 개의 범주 형 변수 가있는 경우 각각 n 개의 값을 갖습니다. 하나의 핫 인코딩은 kn 변수로 끝나고 …

3
SVD의 직관은 무엇입니까?
단일 값 분해 (SVD)에 대해 읽었습니다. 거의 모든 교과서에서 주어진 사양으로 행렬을 세 개의 행렬로 분해한다고 언급되어 있습니다. 그러나 행렬을 그러한 형태로 나누는 직관은 무엇입니까? 차원 축소를위한 PCA 및 기타 알고리즘은 알고리즘에 뛰어난 시각화 속성이 있지만 SVD에서는 그렇지 않다는 점에서 직관적입니다.

2
다중 회귀 분석에서 '제어하기'와 다른 변수를 '무시'하는 것에는 차이가 있습니까?
다중 회귀 분석에서 설명 변수의 계수는 해당 설명 변수와 종속 변수의 관계를 알려줍니다. 이 모든 것은 다른 설명 변수에 대한 '제어'입니다. 내가 지금까지 본 방법 : 각 계수가 계산되는 동안 다른 변수는 고려되지 않으므로 무시됩니다. '제어 된'과 '무시 된'이라는 용어를 서로 바꿔서 사용할 수 있다고 생각할 때 적절합니까?

3
K-Means 및 EM을 사용한 클러스터링 : 어떻게 관련되어 있습니까?
데이터 클러스터링 (비지도 학습) : EM 및 k- 평균 알고리즘을 연구했습니다. 나는 다음을 계속 읽습니다. k- 평균은 군집이 구형이라는 가정하에 EM의 변형입니다. 누군가 위의 문장을 설명 할 수 있습니까? 나는 구상 의미가 무엇인지, kmeans와 EM이 어떻게 관련되는지 이해하지 못합니다. 하나는 확률 론적 할당을 수행하고 다른 하나는 결정 론적 방식으로 수행하기 …

1
로지스틱 회귀 모형 적합에서 예측 값 (Y = 1 또는 0) 얻기
내가 glm로지스틱 회귀 모델에 해당하는 클래스의 객체를 가지고 있고 predict.glm인수 type="response"를 사용하여 주어진 예측 확률을 또는 으로 바꾸고 싶다고 가정 해 봅시다 . R에서 가장 빠르고 가장 정식적인 방법은 무엇입니까?Y=1Y=1Y=1Y=0Y=0Y=0 다시, 나는 알고 있지만, predict.glm컷오프 값 P (Y_i = 1 | \ hat X_ {i}) 가 정확히 어디에 있는지는 알지 …

4
SVM을 장착 할 때 이중 문제가 발생하는 이유는 무엇입니까?
데이터 포인트 및 레이블 지면 하드 마진 SVM 초기 문제는 다음과 같습니다.x1,…,xn∈Rdx1,…,xn∈Rdx_1, \ldots, x_n \in \mathbb{R}^dy1,…,yn∈{−1,1}y1,…,yn∈{−1,1}y_1, \ldots, y_n \in \left \{-1, 1 \right\} minimizew,w012wTwminimizew,w012wTw \text{minimize}_{w, w_0} \quad \frac{1}{2} w^T w s.t.∀i:yi(wTxi+w0)≥1s.t.∀i:yi(wTxi+w0)≥1 \text{s.t.} \quad \forall i: y_i (w^T x_i + w_0) \ge 1 이것은 최적화 될 변수와 제약 조건 을 가진 …
50 svm 

16
실험 디자인에 대한 추천 도서?
실험 설계에 관한 책에 대한 패널의 권장 사항은 무엇입니까? 이상적으로는 책이 여전히 인쇄 가능하거나 전자 방식으로 제공되어야하지만 항상 가능하지는 않습니다. 책에 대해 좋은 점에 대해 몇 마디도 더해 주겠다고 생각한다면 너무 좋을 것입니다. 또한 투표가 제안을 정렬하는 데 도움이되도록 답변 당 하나의 책을 목표로합니다. (커뮤니티 위키, 더 좋게 만들려면 질문을 …

4
분산 분석이 선형 회귀 분석과 동일한 이유는 무엇입니까?
분산 분석과 선형 회귀 분석이 동일하다는 것을 읽었습니다. ANOVA의 출력이 일부 값이고 일부 다른 p- 값 이라는 점을 고려할 때 어떻게 할 수 있습니까? 다른 샘플에서 샘플 평균이 동일하거나 다른지 여부를 결론으로 ​​결정합니다.에프FF피pp 그러나 평균이 같지 않다고 가정하면 (널 가설 제거) ANOVA는 선형 모형의 계수에 대해 아무 것도 알려주지 않습니다. …
50 regression  anova 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.