통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

7
신경망의 데이터 정규화 및 표준화
신경망 (ANN)을 사용하여 복잡한 시스템의 결과를 예측하려고합니다. 결과 (종속) 값의 범위는 0에서 10,000 사이입니다. 입력 변수마다 범위가 다릅니다. 모든 변수는 대략 정규 분포를 갖습니다. 훈련 전에 데이터를 확장하는 다른 옵션을 고려합니다. 한 가지 옵션은 각 변수의 평균 및 표준 편차 값을 독립적으로 사용하여 누적 분포 함수 를 계산 하여 입력 …

1
R 순위-내림차순 [닫힘]
경우에 따라 더 큰 값의 순위가 1 인 데이터의 순위를 매기려고합니다. R에 비교적 익숙하지 않지만 순위 함수에서이 설정을 조정하는 방법을 볼 수 없습니다. x <- c(23,45,12,67,34,89) rank(x) 생성합니다 : [1] 2 4 1 5 3 6 내가 원할 때 : [1] 5 3 6 2 4 1 나는 이것이 매우 …
39 r 



3
의사 결정 트리가 계산 비용이 많이 드는 이유는 무엇입니까?
에서 R의 응용 프로그램과 통계 학습에 대한 소개 , 저자는 피팅 것을 쓰기 의사 결정 트리 것은 매우 빠르고, 그러나 이것은 나에게 이해가되지 않습니다. 알고리즘은 최적의 분할을 찾기 위해 모든 기능을 수행하고 가능한 모든 방식으로 분할해야합니다. 관측치 가 숫자 피처의 경우 각 피처에 대해 분할 이 발생할 수 있습니다 .nnnnnn …
38 cart 

6
100 % 정확도 결정 트리를 얻는 이유는 무엇입니까?
의사 결정 트리의 정확도가 100 %입니다. 내가 무엇을 잘못하고 있지? 이것은 내 코드입니다. import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split x_train = x[0:2635] x_test = x[0:658] y_train …


4
R로 플로팅하려면 ggplot2 또는 ggvis를 배워야합니까?
R로 플로팅하려면 ggplot2 또는 ggvis를 배워야합니까? 나는 그들 중 하나가 어떤면에서 우월하다면 두 가지를 모두 배우고 싶지는 않습니다. R 커뮤니티가 기능이 겹치는 새 패키지를 계속 만드는 이유는 무엇입니까? 소개 블로그 게시물 ggvis는 정교한 플롯 패키지 ggplot2는 이미 주어진 만든 이유 단어를 언급하지 않습니다.

5
제곱 오차를 최소화하는 것이 절대 오차를 최소화하는 것과 같습니까? 왜 제곱 오차가 후자보다 더 인기가 있습니까?
선형 회귀 를 수행하여 많은 데이터 포인트 에 고전적인 접근 방식으로 제곱 오차가 최소화됩니다. 나는 제곱 오차를 최소화하는 것이 절대 오차를 최소화하는 것과 동일한 결과를 산출 한다는 질문에 오랫동안 당황했습니다 . 그렇지 않다면 왜 제곱 오차를 최소화하는 것이 더 낫습니까? "객관적인 기능이 구별 가능하다"이외의 다른 이유가 있습니까?y=ax+by=ax+by=ax+b(x1,y1),(x2,y2),...,(xn,yn)(x1,y1),(x2,y2),...,(xn,yn)(x_1,y_1),(x_2,y_2),...,(x_n,y_n) 제곱 오차는 모델 …

4
R에서 Stata의 "견고한"옵션 복제
robustR 에서 Stata 옵션의 결과를 복제하려고했습니다 rlm. MASS 패키지와 lmrob"robustbase"패키지 의 명령 을 사용했습니다. 두 경우 모두 결과는 Stata의 "robust"옵션과 상당히 다릅니다. 이 맥락에서 누군가 제안 할 수 있습니까? Stata에서 강력한 옵션을 실행할 때 얻은 결과는 다음과 같습니다. . reg yb7 buildsqb7 no_bed no_bath rain_harv swim_pl pr_terrace, robust Linear regression …

3
부트 스트랩 된 재 샘플에서 얻은 신뢰 구간의 의미는 무엇입니까?
이 사이트에서 부트 스트래핑 및 신뢰 구간에 대한 수많은 질문을 살펴 봤지만 여전히 혼란스러워합니다. 혼란의 이유 중 하나는 아마도 많은 지식을 이해하기에 통계 지식이 충분하지 않기 때문일 것입니다. 나는 입문 통계 과정의 중간 쯤에 있고 수학 수준은 대수 II 중반에 불과하므로 그 수준을 넘어서는 것은 혼란 스럽습니다. 이 사이트의 지식이 …

3
다항식 회귀는 왜 다중 선형 회귀의 특별한 경우로 간주됩니까?
다항식 회귀 분석이 비선형 관계를 모델링하는 경우 다중 선형 회귀 분석의 특별한 경우로 간주 할 수있는 방법은 무엇입니까? Wikipedia는 "다항식 회귀 분석은 비선형 모형을 데이터에 적합하지만 통계적 추정 문제로서 회귀 함수 가 데이터로부터 추정 된 미지의 모수에서 선형이라는 점에서 선형 적이라는 점에서 선형 적입니다. "E(y|x)E(y|x)\mathbb{E}(y | x) 모수가 2 인 …


3
교차 검증을 사용할 때 하나의 표준 오류 규칙에 대한 경험적 근거
parsimony에 찬성하여 하나의 표준 오류 규칙의 사용을 정당화하는 경험적 연구가 있습니까? 분명히 그것은 데이터의 데이터 생성 프로세스에 달려 있지만, 대량의 데이터 세트를 분석하는 것은 매우 흥미로운 읽기 일 것입니다. "한 가지 표준 오류 규칙"은 교차 유효성 검사를 통해 (또는 일반적으로 임의 추출 기반 절차를 통해) 모델을 선택할 때 적용됩니다. 복잡성 …

5
콕스 회귀 예측
다변량 콕스 회귀 분석을 수행 중이며 중요한 독립 변수와 베타 값이 있습니다. 이 모델은 내 데이터에 매우 적합합니다. 이제 저는 모델을 사용하고 새로운 관측의 생존을 예측하고 싶습니다. Cox 모델 로이 작업을 수행하는 방법을 잘 모르겠습니다. 선형 또는 로지스틱 회귀 분석에서는 쉬울 것입니다. 회귀 분석에 새로운 관찰 값을 넣고 베타로 곱하면 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.