통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
클러스터링 비교 : 랜드 인덱스와 정보의 변형
클러스터링을 비교하기 위해 정보 의 변화 와 랜드 인덱스 의 차이에 대한 통찰력이나 직관이있는 사람이 있는지 궁금 합니다. Marina Melia (Journal of Multivariate Analysis, 2007)의 " 클러스터링 비교-정보 기반 거리 " 라는 논문을 읽었 지만 정의의 차이를 알아 차리는 것 외에는 정보의 변화가 무엇인지 이해하지 못합니다. 랜드 인덱스가 캡처하지 않음을 …


2
랜덤 변수가 최대 일 확률을 어떻게 묶을 수 있습니까?
\newcommand{\P}{\mathbb{P}} 유한 의미를 가진 NNN 독립적 인 랜덤 변수 X1X1X_1 , ……\ldots , XnXnX_n 있고 μ1≤…≤μNμ1≤…≤μN\mu_1 \leq \ldots \leq \mu_N 및 분산 σ21σ12\sigma_1^2 , ……\ldots , σ2NσN2\sigma_N^2 . Xi≠XNXi≠XNX_i \neq X_N 이 다른 모든 XjXjX_j , j \ neq i 보다 클 확률에 분포가없는 경계를 찾고 j≠ij≠ij \neq i있습니다. 즉, …

5
자체 토폴로지를 구축하는 최신 신경망
backprop와 같은 표준 신경망 알고리즘의 한계는 원하는 숨겨진 레이어와 레이어 당 뉴런 수를 디자인 결정해야한다는 것입니다. 일반적으로 학습 속도와 일반화는 이러한 선택에 매우 민감합니다. 이것이 계단식 상관 관계 와 같은 신경망 알고리즘 이 관심을 불러 일으킨 이유 입니다. 최소 토폴로지 (입력 및 출력 장치)로 시작하고 학습이 진행됨에 따라 새로운 숨겨진 …

6
숨겨진 Markov 모델 문제의 예?
나는 숨겨진 Markov 모델을 많이 읽었으며 꽤 기본적인 버전을 직접 코딩 할 수있었습니다. 그러나 내가 배우는 두 가지 주요 방법이 있습니다. 하나는 코드로 읽고 구현하는 것이며 (두 번째로) 다른 상황에서 어떻게 적용되는지 이해하는 것입니다 (그래서 작업중인 문제와 어떻게 관련이 있는지 더 잘 이해할 수 있습니다). 지금까지 수행 한 모든 예에는 …

2
거리 공분산이 선형 공분산보다 덜 적절한 경우는 언제입니까?
방금 브라운 / 거리 공분산 / 상관에 대해 막연하게 소개되었습니다 . 의존성을 테스트 할 때 많은 비선형 상황에서 특히 유용합니다. 그러나 공분산 / 상관 관계가 종종 비선형 / 카오스 데이터에 사용되는 경우에도 자주 사용되지 않는 것 같습니다. 그것은 거리 공분산에 몇 가지 단점이있을 수 있다고 생각합니다. 그렇다면 그것들은 무엇이며 왜 …

3
회귀 분석 vs. 분산 분석 불일치 (R에서 aov vs lm)
나는 회귀가 더 일반적인 형태의 분산 분석이고 결과가 동일하다는 인상을 항상 받았다. 그러나 최근에 동일한 데이터에 대해 회귀 분석과 분산 분석을 모두 실행했으며 결과가 크게 다릅니다. 즉, 회귀 모형에서는 주 효과와 교호 작용이 모두 중요하지만 분산 분석에서는 주 효과가 중요하지 않습니다. 나는 이것이 상호 작용과 관련이 있다고 생각하지만 동일한 질문을 …
21 r  regression  anova 

5
분류 결과의 중요성을 테스트하는 올바른 방법은 무엇입니까
여러 분류기를 훈련 시키거나 여러 가지 특징 추출 방법을 사용할 수있는 상황이 많이 있습니다. 문헌에서 저자는 종종 데이터의 무작위 분할에 대한 평균 분류 오류 (즉, 이중 중첩 교차 검증 후)를 제공하고 때로는 분할에 대한 오류에 차이를 주기도합니다. 그러나 이것 자체로는 하나의 분류 기가 다른 분류기보다 훨씬 우수하다고 말할 수는 없습니다. …

3
NPS (Net Promoter Score) 결과에서 오차 한계를 어떻게 계산할 수 있습니까?
Wikipedia에서 NPS 계산 방법을 설명하겠습니다 . 순 발기인 점수는 고객에게 0에서 10까지의 평가 척도로 단일 질문을함으로써 얻습니다. 여기서 10은 "매우 가능성이 높고"0은 "아마도 없을 것"입니다. 친구 또는 동료? " 고객의 답변에 따라 고객은 발기인 (9–10 등급), 수동적 (7–8 등급) 및 비도 인 (0–6 등급)의 세 그룹 중 하나로 분류됩니다. 그런 …

3
왜 MCMC 체인의 빠른 혼합에 관심을 가져야합니까?
Markov 체인 Monte Carlo와 협력하여 추론을 도출 할 때, 우리는 빠르게 혼합되는 체인이 필요합니다. 즉, 사후 분포의지지를 통해 빠르게 움직입니다. 그러나 나는 우리가 왜이 속성이 필요한지 이해하지 못합니다. 왜냐하면 내가 이해 한 것으로부터 받아 들여진 후보 추첨은 사후 분포의 고밀도 부분에 집중해야하고 집중해야하기 때문입니다. 내가 이해하는 것이 사실이라면, 체인이 지지대 …
21 mcmc 

1
R에서 선형 모델의 새로운 입력 값을 어떻게 예측할 수 있습니까?
잠김 . 이 질문과 주제는 주제가 다르지만 역사적 의미가 있기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. R에서 선형 모델을 만들었습니다 mod = lm(train_y ~ train_x). X 목록을 전달하고 예측 / 예상 / 예측 된 Y를 얻고 싶습니다. 나는을 보았지만 predict()다른 것을위한 것이라고 생각하거나 그것을 사용하는 …

4
"편견없는"은 무엇을 의미합니까?
"분산은 편향 추정기"라는 말의 의미는 무엇입니까? 간단한 공식을 통해 편향 추정치를 편향 추정치로 변환하는 것은 무엇을 의미합니까? 이 전환은 정확히 무엇을합니까? 또한이 전환의 실제적인 용도는 무엇입니까? 특정 종류의 통계를 사용할 때이 점수를 변환합니까?

1
R에서 행렬 역의 효율적인 계산
행렬을 역으로 계산하고 solve함수를 사용하고 있습니다. 작은 행렬에서는 잘 작동하지만 solve큰 행렬에서는 속도가 매우 느립니다. SVD, QR, LU 또는 기타 분해 기능을 통해 더 빠른 결과를 얻을 수있는 다른 기능이나 기능 조합이 있는지 궁금합니다.

1
시계열에 대한 로지스틱 회귀
과거 관측치에 따라 방금 도착한 데이터의 종속 변수 (예 : 행)의 값을 예측하기 위해 스트리밍 데이터 (다차원 시계열) 컨텍스트에서 이진 로지스틱 회귀 모델을 사용하고 싶습니다. 내가 아는 한, 로지스틱 회귀 분석은 전통적으로 사후 분석에 사용되며, 각 종속 변수는 이미 검사 또는 연구의 특성에 의해 설정되었습니다. 그러나 시계열의 경우 어떻게됩니까? 우리는 …

4
차원의 저주는 무엇입니까?
구체적으로, 나는 차원의 저주를 엄격하게 보여주고 설명 할 참고 문헌 (종이, 책)을 찾고 있습니다. 이 질문은 Lafferty와 Wasserman 이이 백서 를 읽기 시작한 후에 일어났습니다 . 세 번째 단락에서 그들은 가장 잘 알려진 수렴 속도가 임을 암시하는 "잘 알려진"방정식을 언급한다 n−4/(4−d)n−4/(4−d)n^{-4/(4-d)}. 누구든지 그것에 대해 설명하고 설명 할 수 있다면 매우 …
21 theory 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.