통계 및 빅 데이터

3

치료를 통해 데이터를 분리하는 산점도를 만들기 위해 R을 사용하는 좋은 방법은 무엇입니까?

나는 일반적으로 R과 통계에 매우 익숙하지만 기본 용량을 넘어서는 것으로 생각되는 산점도를 만들어야합니다. 나는 두 개의 관측치 벡터를 가지고 있으며 그것들과 함께 산점도를 만들고 싶어하며 각 쌍은 세 가지 범주 중 하나에 속합니다. 각 범주를 색상 또는 기호로 구분하는 산점도를 만들고 싶습니다. 나는 이것이 3 개의 다른 산점도를 생성하는 것보다 …

30 r data-visualization scatterplot

4

문자열 파싱을위한 머신 러닝 기술?

많은 주소 문자열이 있습니다. 1600 Pennsylvania Ave, Washington, DC 20500 USA 구성 요소로 구문 분석하고 싶습니다. street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA 그러나 물론 데이터는 더러워집니다. 여러 언어로 작성된 많은 국가에서 다른 방식으로 작성되었으며 철자가 틀리거나 조각이 없거나 여분의 정크가 있습니다. 현재 우리의 접근 …

30 machine-learning text-mining

9

추정량과 통계량의 차이점은 무엇입니까?

통계는 샘플에서 얻을 수있는 속성이라는 것을 알았습니다. 동일한 크기의 많은 샘플을 가져 와서이 속성을 모두 계산하고 pdf를 플로팅하면 해당 속성의 분포 또는 해당 통계의 분포가 나타납니다. 또한 통계가 추정 자라는 말을 들었습니다.이 두 개념이 어떻게 다른가요?

30 terminology estimators definition

4

두 포아송 표본의 평균이 같은지 확인

이것은 기본적인 질문이지만 답을 찾을 수 없었습니다. 두 가지 측정이 있습니다 : 시간 t1의 n1 이벤트와 시간 t2의 n2 이벤트, 둘 다 람다 값이 다른 Poisson 프로세스에 의해 생성됩니다. 이것은 실제로 뉴스 기사에서 유래 한 것으로, 본질적으로 이기 때문에 두 가지가 다르다고 주장하지만 주장이 유효한지 확실하지 않습니다. 기간이 악의적으로 선택되지 …

30 hypothesis-testing poisson-distribution

3

가능성을 엄격하게 정의하는 방법은 무엇입니까?

가능성은 다음과 같은 몇 가지 방법으로 정의 할 수 있습니다. 함수 에서 로 매핑 을 즉, .LLLΘ×XΘ×X\Theta\times{\cal X}(θ,x)(θ,x)(\theta,x)L(θ∣x)L(θ∣x)L(\theta \mid x)L:Θ×X→RL:Θ×X→RL:\Theta\times{\cal X} \rightarrow \mathbb{R} 랜덤 함수L(⋅∣X)L(⋅∣X)L(\cdot \mid X) 또한 가능성은 단지 "관측 된"가능성 임을 고려할 수 있습니다.L(⋅∣xobs)L(⋅∣xobs)L(\cdot \mid x^{\text{obs}}) 실제로 가능성은 곱셈 상수까지만 대한 정보를 가져 오므로, 가능성은 함수가 아닌 등가 …

30 mathematical-statistics likelihood likelihood-ratio parametric

4

클래스 불균형 하에서 정밀 리콜 곡선 최적화

나는 많은 예측 변수가있는 분류 작업을 가지고 있는데 (그중 하나가 가장 유익합니다) MARS 모델을 사용하여 분류기를 구성하고 있습니다 (나는 간단한 모델에 관심이 있으며 설명을 위해 glms를 사용하는 것은 다음과 같습니다) 미세 너무). 이제 훈련 데이터 (각 양성 샘플에 대해 약 2700 개의 음성 샘플)에 큰 클래스 불균형이 있습니다. Information Retrieval …

30 machine-learning roc precision-recall unbalanced-classes data-visualization

3

많은 세트의 교차점 시각화

여러 세트의 교차점 겹침을 표시하는 데 적합한 시각화 모델이 있습니까? 나는 Venn 다이어그램과 같은 것을 생각하고 있지만 어떻게 든 10 개 이상의 많은 세트에 더 잘 빌려 줄 수 있습니다. Wikipedia는 더 높은 세트의 벤 다이어그램을 보여 주지만 4 세트의 다이어그램조차도 많이 사용됩니다. 데이터의 최종 결과에 대한 나의 추측은 많은 …

30 data-visualization dataset

3

R은 텍스트 분류 작업으로 얼마나 잘 확장됩니까? [닫은]

R로 속도를 높이려고합니다. 결국 텍스트 분류를 위해 R 라이브러리를 사용하고 싶습니다. 텍스트 분류를 할 때 R의 확장 성과 관련하여 사람들의 경험이 무엇인지 궁금합니다. 고차원 데이터 (~ 300k 크기)에 빠질 수 있습니다. 특히 분류 알고리즘으로 SVM과 Random Forest를 사용하고 있습니다. R 라이브러리가 문제 크기에 맞게 확장됩니까? 감사. 편집 1 : 명확히하기 …

30 r machine-learning svm text-mining random-forest

6

이항 신뢰 구간 추정-왜 대칭이 아닌가?

다음 r 코드를 사용하여 이항 비율의 신뢰 구간을 추정했습니다. 왜냐하면 모집단에서 질병의 탐지를보고 수신기 작동 특성 곡선 설계를 설계 할 때 "전력 계산"을 대체한다는 것을 이해하기 때문입니다. n은 150이고,이 질병은 인구에서 25 %가 유행한다고 생각합니다. 나는 사람들이하는 것처럼 75 %의 감도와 90 %의 특이성에 대한 값을 계산했습니다. binom.test(c(29,9), p=0.75, alternative=c("t"), …

30 confidence-interval binomial

8

모든 통계학자가 알아야 할 이론은 무엇입니까?

나는 매우 기본적이고 최소한의 요구 사항 관점에서 이것을 생각하고 있습니다. 업계 (학계 아님) 통계학자가 정기적으로 알고 이해하고 활용해야하는 주요 이론은 무엇입니까? 마음에 떠오르는 것은 큰 법칙입니다 . 통계 분석을 데이터 분석에 적용하는 데 가장 필요한 것은 무엇입니까?

30 theory careers law-of-large-numbers

2

주요 성분 분석에서 이중 점 해석

나는이 훌륭한 튜토리얼 : R을 사용한 통계 분석 핸드북을 보았습니다. 13 장. 주요 구성 요소 분석 : R 언어로 PCA를 수행하는 방법에 대한 올림픽 헵타 슬론 그림 13.3의 해석을 이해하지 못합니다. 그래서 첫 번째 고유 벡터와 두 번째 고유 벡터를 플로팅하고 있습니다. 그게 무슨 뜻이야? 첫 번째 고유 벡터에 해당하는 …

30 r pca data-visualization interpretation biplot

2

Shapiro-Wilk 정규성 검정과 Kolmogorov-Smirnov 정규성 검정의 차이점은 무엇입니까?

Shapiro-Wilk 정규성 검정과 Kolmogorov-Smirnov 정규성 검정의 차이점은 무엇입니까? 이 두 방법의 결과는 언제 다릅니 까?

30 distributions statistical-significance normality-assumption kolmogorov-smirnov

6

신뢰 구간은 언제 유용합니까?

올바르게 이해하면 매개 변수의 신뢰 구간은 지정된 비율의 샘플에 대한 실제 값을 포함하는 구간을 생성 하는 방법으로 구성된 구간입니다. 따라서 '자신감'은 특정 샘플에서 계산 한 간격이 아니라 방법에 관한 것입니다. 통계의 사용자로서 모든 샘플의 공간이 가설이기 때문에 항상 이것에 의해 속이는 느낌이 들었습니다. 내가 가진 것은 하나의 샘플이며 그 샘플이 …

30 confidence-interval interpretation

4

로지스틱 회귀 분석에 올바른 손실 함수는 무엇입니까?

로지스틱 회귀 분석에 대한 손실 함수의 두 가지 버전에 대해 읽었습니다. 둘 중 어느 것이 정확하고 왜 그런가요? 에서 기계 학습 , 저우 ZH (중국어에)와 β=(w,b) and βTx=wTx+bβ=(w,b) and βTx=wTx+b\beta = (w, b)\text{ and }\beta^Tx=w^Tx +b : l(β)=∑i=1m(−yiβTxi+ln(1+eβTxi))(1)(1)l(β)=∑i=1m(−yiβTxi+ln⁡(1+eβTxi))l(\beta) = \sum\limits_{i=1}^{m}\Big(-y_i\beta^Tx_i+\ln(1+e^{\beta^Tx_i})\Big) \tag 1 내 대학 과정에서 zi=yif(xi)=yi(wTxi+b)zi=yif(xi)=yi(wTxi+b)z_i = y_if(x_i)=y_i(w^Tx_i + b) …

30 logistic loss-functions

1

센터링은 PCA (SVD 및 고유 분해)에서 어떻게 차이를 만들어 줍니까?

PCA의 데이터 중심화 (또는 의미가없는)는 어떤 차이가 있습니까? 수학이 더 쉬워 지거나 첫 번째 PC가 변수의 수단에 의해 지배되는 것을 막는다 고 들었지만 아직 개념을 제대로 파악할 수 없었습니다. 예를 들어, 여기서 가장 좋은 대답 은 회귀 및 PCA에서 데이터를 중심에 어떻게 차단을 제거합니까? 중심이 포인트 클라우드의 주축이 아니라 원점을 …

30 r pca svd eigenvalues centering