통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

3
MaxEnt, ML, Bayes 및 기타 종류의 통계적 추론 방법 비교
나는 통계학자가 아니고 (수학적 통계 과정을 밟았지만 그 이상은 아닙니다) 최근에는 정보 이론과 통계 역학을 공부하면서 "불확실성 측정"/ "엔트로피"라는 것을 만났습니다. 나는 불확실성의 척도로 진친의 유래를 읽었고 그것은 나에게 의미가 있었다. 만든 의미가 하나 개 이상의 기능의 산술 평균을 알고있을 때 통계를 얻을 수 MaxEnt의 제인스 설명했다 또 다른 것은 …

2
문서 유사성 측정
문서를 군집화하려면 문서 쌍 간의 유사성을 측정하는 방법이 필요합니다. 두 가지 대안이 있습니다 : 코사인 유사성 -및 TF / IDF를 항의 가중치로 사용하여 문서를 항 벡터로 비교합니다 . f-divergence를 사용하여 각 문서 확률 분포를 비교하십시오 (예 : Kullback-Leibler divergence) 한 가지 방법을 다른 방법보다 선호하는 직관적 인 이유가 있습니까 (평균 …

2
전력 법칙에 대한 추세선의 적합도를 측정 / 논쟁하는 방법은 무엇입니까?
추세선에 맞추려는 데이터가 있습니다. 나는 데이터가 전력 법칙을 따를 것이라고 생각하므로 직선을 찾기 위해 로그 로그 축에 데이터를 플로팅했습니다. 이로 인해 (거의) 직선이 생겨서 Excel에서 전력 법칙에 대한 추세선을 추가했습니다. 통계가 newb이기 때문에, 내 질문은, "선 이 잘 맞는 것처럼 보입니다 "에서 "숫자 속성 는 이 그래프가 전력 법에 의해 …


4
척도 모수에 대한 유익한 사전 분포
스케일이 무엇인지에 대한 대략적인 아이디어가있을 때 스케일 모수 (정규 분포, t 분포 등)에 대한 사전 분포로 로그 정규 분포를 사용하고 있지만 알지 못한다는 측면에서 잘못하고 싶습니다. 그것에 대해 많이. 나는 그 사용이 나에게 직관적으로 의미가 있기 때문에 그것을 사용하지만 다른 사람들이 그것을 사용하는 것을 보지 못했습니다. 이것에 숨겨진 위험이 있습니까?

5
분포 차이의 유의성 평가
두 개의 데이터 그룹이 있습니다. 각각 여러 변수의 분포가 다릅니다. 이 두 그룹의 분포가 통계적으로 유의 한 차이가 있는지 확인하려고합니다. 나는 원시 형식의 데이터를 가지고 있으며 각각의 빈도 수를 가진 개별 범주를 다루기 쉽도록 비닝되었습니다. 이 두 그룹이 크게 다른지 여부를 판별하기 위해 어떤 테스트 / 프로 시저 / 방법을 …

3
결정 계수 ( ) : 나는 해석을 완전히 이해 한 적이 없다
변수 사이의 변동량을 나타내는 의 개념을 완전히 이해하고 싶습니다 . 모든 웹 설명은 약간 기계적이고 모호합니다. 나는 기계적으로 숫자를 사용하는 것이 아니라 개념을 "얻고 싶다".r2r2r^2 예 : 공부 한 시간 대 시험 점수 rrr = 0.8 r2r2r^2 = .64 이것이 무엇을 의미합니까? 시험 점수 변동의 64 %는 몇 시간으로 설명 …

5
사인파를 예측하는 데 신경망을 개선하려면 어떻게해야합니까?
여기, 보라 : 당신은 정확히 학습 데이터의 끝을 볼 수 있습니다. 훈련 데이터는 에서 로갑니다 .−1−1-1111 나는 tanh 활성화와 함께 Keras와 1-100-100-2 밀도 네트워크를 사용했습니다. p와 q의 두 값 p에서 q의 결과를 계산합니다. 이렇게하면 1 값보다 작은 값만 사용하여 모든 크기의 숫자를 얻을 수 있습니다. 나는 여전히이 분야의 초보자이므로 참고하십시오.

1
상관 이항 랜덤 변수 생성
선형 변환 접근법에 따라 상관 랜덤 이항 변수를 생성 할 수 있는지 궁금합니다. 아래에서 R에서 간단한 것을 시도하고 상관 관계를 생성합니다. 그러나 이것을 수행하는 원칙적인 방법이 있는지 궁금합니다. X1 = rbinom(1e4, 6, .5) ; X2 = rbinom(1e4, 6, .5) ; X3 = rbinom(1e4, 6, .5) ; a = .5 Y1 …

3
RMSE (root mean squared error) 대 표준 편차를 해석하는 방법은 무엇입니까?
예상 값을 제공하는 모델이 있다고 가정 해 봅시다. 그 값의 RMSE를 계산합니다. 그리고 실제 값의 표준 편차입니다. 이 두 값 (분산)을 비교하는 것이 이치에 맞습니까? 내가 생각하는 것은 RMSE와 표준 편차가 비슷하거나 동일하다면 내 모델의 오류 / 분산은 실제로 진행되는 것과 동일합니다. 그러나 이러한 값을 비교하는 것이 합리적이지 않으면이 결론이 …

3
k- 폴드 교차 검증을 사용할 때 테스트 세트가 필요합니까?
k- 폴드 유효성 검사에 대해 읽었으며 작동 방식을 이해하고 싶습니다. 홀드 아웃 방법의 경우 데이터가 세 세트로 분할되며 테스트 세트는 모델 성능을 평가하기 위해 맨 마지막에만 사용되는 반면 검증 세트는 하이퍼 파라미터 등을 조정하는 데 사용됩니다. k-fold 방법에서, 우리는 여전히 최종 테스트 세트를 유지하고 훈련 및 하이퍼 파라미터 튜닝을 위해 …

4
이미지의 엔트로피
이미지의 엔트로피를 계산하는 가장 정보 / 물리 이론상 올바른 방법은 무엇입니까? 나는 지금 계산 효율성에 관심이 없다. 나는 이론적으로 가능한 한 그것을 원한다. 회색조 이미지로 시작할 수 있습니다. 직관적 인 접근 방법 중 하나는 이미지를 픽셀 백으로 간주하고 여기서H=−∑kpklog2(pk)H=−∑kpklog2(pk) H = - \sum_k p_k log_2(p_k) KKK is the number of …

2
의료 청중의 신뢰할 수있는 간격을 요약하는 방법
스탠 및 프론트 엔드 패키지 rstanarm또는 brmsI와 같은 혼합 모델 이전과 나는 쉽게 베이지안 방식으로 데이터를 분석 할 수 있습니다 lme. Kruschke-Gelman-Wagenmakers 등이 저의 책상에 저술 한 대부분의 책과 기사를 가지고 있지만, 이것들은 베이지안의 Skylla와 의료 리뷰어의 Charybdis 사이에서 찢어진 의료 청중의 결과를 요약하는 방법을 알려주지 않습니다. "우리는 분산 된 …


5
데이터가 무작위로 누락되었는지 확인하기위한 통계적 접근
이진 분류 문제를 공격하는 데 사용할 많은 기능 벡터 세트가 있습니다 (파이썬에서 scikit learn 사용). 대치에 대해 생각하기 전에 누락 된 데이터가 '무작위로 누락'되거나 무작위로 누락되지 않은 경우 데이터의 나머지 부분에서 결정하려고합니다. 이 질문에 접근하는 현명한 방법은 무엇입니까? 더 나은 질문은 데이터가 '완전히 무작위로 누락되는지'를 묻는 것입니다. 그것을하는 현명한 방법은 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.