통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
비대칭 분포의 평균에 대해 신뢰할 수있는 비모수 적 신뢰 구간이 있습니까?
로그 정규 분포와 같이 매우 치우친 분포는 정확한 부트 스트랩 신뢰 구간을 생성하지 않습니다. 다음은 R에서 어떤 부트 스트랩 방법을 사용하든 왼쪽 및 오른쪽 꼬리 영역이 이상적인 0.025와 거리가 멀다는 것을 보여주는 예입니다. require(boot) n <- 25 B <- 1000 nsim <- 1000 set.seed(1) which <- c('basic', 'perc', 'norm', 'bca', …

2
지도 학습, 비지도 학습 및 강화 학습 : 워크 플로 기본 사항
지도 학습 1) 인간은 입력 및 출력 데이터를 기반으로 분류기를 작성합니다. 2) 해당 분류기는 훈련 데이터 세트로 훈련됩니다. 3) 해당 분류기는 테스트 데이터 세트로 테스트됩니다. 4) 출력 이 만족스러운 경우 배포 "이 데이터를 분류하는 방법을 알고 있습니다. 분류 도구를 사용하려면 정렬해야합니다." 방법의 포인트 : 레이블을 분류하거나 실수를 생성하는 방법 비지도 …


2
L1 정규화는 언제 L2보다 우수합니까?
참고 : L1에는 기능 선택 속성이 있음을 알고 있습니다. 기능 선택이 완전히 관련이 없을 때 선택할 것을 이해하려고합니다. 사용할 정규화 (L1 또는 L2)를 결정하는 방법은 무엇입니까? L1 / L2 정규화 각각의 장단점은 무엇입니까? 먼저 L1을 사용하여 기능을 선택하고 선택한 변수에 L2를 적용하는 것이 좋습니다?


13
조건부 확률에 대한 공식의 직관은 무엇입니까?
B 가 발생 했을 때 A 의 조건부 확률 에 대한 공식 은 다음과 같습니다. P ( AAA\text{A}BB\text{B}P(A | B)=P(A∩B)P(B).P(A | B)=P(A∩B)P(B). P\left(\text{A}~\middle|~\text{B}\right)=\frac{P\left(\text{A} \cap \text{B}\right)}{P\left(\text{B}\right)}. 저의 교과서는이 다이어그램의 직관을 벤 다이어그램으로 설명합니다. 점을 감안 BB\text{B} 발생했습니다 수있는 유일한 방법 AA\text{A} 이벤트의 교차점에 빠지게에 대해 발생하는이다 와 B .AA\text{A}BB\text{B} 이 경우의 …

7
추론 대 추정?
기계 학습 의 맥락에서 "추론"과 "추정"의 차이점은 무엇입니까 ? 초보자로서 우리는 임의 변수를 추론 하고 모델 매개 변수를 추정 한다고 생각합니다 . 내 이해가 맞습니까? 그렇지 않다면 차이점은 무엇이며 언제 사용해야합니까? 또한 "학습"의 동의어는 무엇입니까?


3
잠재 클래스 분석 대 군집 분석-추론의 차이?
잠재 분류 분석 (LCA)과 군집 분석에서 도출 할 수있는 추론의 차이점은 무엇입니까? LCA가 클래스를 생성하는 기본 잠재 변수를 가정하는 반면, 클러스터 분석은 클러스터링 알고리즘의 상관 속성에 대한 경험적 설명입니다. 사회 과학에서 LCA는 인기를 얻었으며 클러스터 분석이 수행하지 않는 공식적인 카이-제곱 유의성 검정이 있기 때문에 방법 론적으로 우수하다고 간주됩니다. "LCA는 이것에 …

3
클래스 불균형 문제의 근본 원인은 무엇입니까?
나는 최근 기계 / 통계학 학습에서 "클래스 불균형 문제"에 대해 많은 생각을하고 있었고, 무슨 일이 일어나고 있는지 이해하지 못하는 느낌에 더 깊이 빠져들고 있습니다. 먼저 용어를 정의 (또는 정의)하려고합니다. 클래스 불균형 문제 기계 / 통계적 학습 1 등급 0 등급의 비율이 매우 기울어 진 경우 일부 분류 (*) 알고리즘이 잘 …

2
왜 일반 오류 대신 t 오류를 사용해야합니까?
에서 이 앤드류 겔만으로 블로그 게시물, 다음과 같은 구절이있다 : 50 년 전의 베이지안 모델은 절망적으로 단순 해 보이지만 (물론 간단한 문제는 제외하고) 오늘날의 베이지안 모델은 50 년 동안 절망적으로 단순 해 보일 것으로 기대합니다. (간단한 예를 들자면, 우리는 아마도 어디에서나 일반적인 오류 대신에 t를 일상적으로 사용해야 할 것입니다. 그러나 …

2
유사 이항 분포는 무엇입니까 (GLM의 맥락에서)?
나는 quasibinomial 분포가 무엇인지, 그리고 그것이 무엇인지에 대한 직관적 인 개요를 누군가가 제공 할 수 있기를 바랍니다. 특히 다음 사항에 관심이 있습니다. 유사 이항 분포가 이항 분포와 어떻게 다른가? 반응 변수가 비율 인 경우 (예 : 값에 0.23, 0.11, 0.78, 0.98 포함) 준이 항 모델은 R에서 실행되지만 이항 모델은 그렇지 …

2
컨볼 루션 신경망 : 중앙 뉴런이 출력에서 ​​과도하게 표현되지 않습니까?
[이 질문은 또한 스택 오버플로 에서 제기되었습니다 ] 짧은 질문 나는 회선 신경 네트워크를 연구하고 있는데,이 네트워크가 모든 입력 뉴런 (픽셀 / 파라미터)을 동등하게 취급하지는 않는다고 생각합니다. 일부 입력 이미지에 컨볼 루션을 적용하는 딥 네트워크 (다중 레이어)가 있다고 가정합니다. 이미지의 "중간"에있는 뉴런은 더 깊은 층 뉴런에 대한 많은 고유 한 …

1
anova () 명령은 lmer 모델 객체와 어떤 관계가 있습니까?
희망적으로 이것은 여기 누군가가 lmer( lme4 R 패키지에서) 혼합 효과 모델에서 제곱합을 분해하는 성질에 대해 대답 할 수있는 질문입니다 . 우선이 접근법을 사용하는 것에 대한 논쟁에 대해 알고 있다고 말하고 실제로 모델을 비교하기 위해 부트 스트랩 된 LRT를 사용할 가능성이 더 높습니다 (Faraway, 2006). 그러나 결과를 복제하는 방법에 의문이 생겼으므로 …

6
'상관 관계가 인과 관계를 암시하지 않는'경우 통계적으로 유의 한 상관 관계를 발견하면 인과 관계를 어떻게 증명할 수 있습니까?
나는 상관 관계가 원인이 아니라는 것을 이해한다 . 두 변수 사이에 높은 상관 관계가 있다고 가정합니다. 이 상관 관계가 실제로 인과 관계 때문인지 어떻게 확인합니까? 또는 어떤 조건 하에서 실험 데이터를 사용하여 둘 이상의 변수 간의 인과 관계를 추론 할 수 있습니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.