통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

5
다단계 구조 방정식 모델링을위한 R 패키지?
모든 변수가 그룹 내에 중첩 된 개별 관측치 인 다단계 경로 모델 (예 : A는 B, B는 C, C는 D를 예측)을 테스트하려고합니다. 지금까지 나는 R에서 여러 가지 독특한 다단계 분석을 통해이 작업을 수행했습니다. SEM과 같은 기술을 사용하여 동시에 여러 경로를 테스트하고 (A-> B-> C-> D) 2 수준 (그룹의 개별)을 올바르게 …

8
R을위한 결합 패키지
잠김 . 이 질문과 주제는 주제가 다르지만 역사적 의미가 있기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. R에 사용하기 쉽고 포괄적 인 결합 분석 패키지를 추천 할 수 있습니까?

4
선형 회귀 분석에서 귀무 가설 변경
관련성이 높은 데이터가 있습니다. 선형 회귀를 실행하면 기울기가 1에 가깝습니다 (= 0.93). 내가하고 싶은 것은이 경사가 1.0과 크게 다른지 테스트하는 것입니다. 내 기대는 그렇지 않다는 것입니다. 즉, 선형 회귀의 귀무 가설을 0의 기울기에서 1의 기울기로 변경하고 싶습니다. 이것은 합리적인 접근입니까? 나는 또한 당신이 당신의 답변에 일부 R 코드를 포함 시켜서이 …

4
선형, 지수 및 로그 함수에서 최적 피팅 곡선 피팅 함수 결정
문맥: Mathematics Stack Exchange (프로그램을 작성할 수 있습니까?) 에 대한 질문에서 누군가 점 세트 를 가지고 있으며 선형, 지수 또는 로그에 곡선을 맞추고 싶습니다. 일반적인 방법은 다음 중 하나를 선택하여 시작하고 (모델 지정) 통계 계산을 수행하는 것입니다.x - y엑스−와이x-y 그러나 실제로 원하는 것은 선형, 지수 또는 대수에서 '최상의'곡선을 찾는 것입니다. …

3
SAS를 배워야하는 R 사용자를위한 리소스
저는 매일 R을 사용합니다. data.frames, apply () 함수 계열, 객체 지향 프로그래밍, 벡터화 및 ggplot2 geoms / aesthetics의 관점에서 생각합니다. SAS를 주로 사용하는 조직에서 일하기 시작했습니다. SAS 사용자를위한 R 학습 에 관한 책이 있다는 것을 알고 있지만 SAS를 사용해 본 적이없는 R 사용자를위한 유용한 자료는 무엇입니까?
18 r  sas 

2
데이터베이스에 대한 품질 보증 및 품질 관리 (QA / QC) 지침
배경 나는 기본 문헌에서 데이터베이스 로의 데이터 입력을 감독하고있다 . 데이터 입력 프로세스는 특히 사용자가 실험 설계를 해석하고 그래픽 및 테이블에서 데이터를 추출하고 결과를 표준화 된 단위로 변환해야하기 때문에 오류가 발생하기 쉽습니다. 데이터는 웹 인터페이스를 통해 MySQL 데이터베이스에 입력됩니다. 지금까지 20 개가 넘는 변수, 100 개가 넘는 종 및 500 …

3
선형 혼합 모델의 함정
선형 혼합 효과 모델 사용의 주요 함정은 무엇입니까? 모델의 적합성을 평가할 때 테스트 /주의해야 할 가장 중요한 것은 무엇입니까? 동일한 데이터 집합의 모델을 비교할 때 가장 중요한 것은 무엇입니까?


5
독립과 관련된이 수량에 이름이 있습니까?
물론 사건 A와 B가 잠 IFF 독립적 (A∩B)(A∩B)(A\cap B) = 잠 (A)(A)(A) 홍보 (B)(B)(B) . 관련 수량 Q를 정의 해 봅시다 : Q≡Pr(A∩B)Pr(A)Pr(B)Q≡Pr(A∩B)Pr(A)Pr(B)Q\equiv\frac{\mathrm{Pr}(A\cap B)}{\mathrm{Pr}(A)\mathrm{Pr}(B)} 따라서 A와 B는 Q = 1과는 독립적입니다 (분모가 0이 아닌 것으로 가정). Q에는 실제로 이름이 있습니까? 나는 그것이 지금 나를 빠져 나가는 기본 개념과 관련이 있다고 …

3
선형 모형에서 예측 한계에 대한 공식 얻기 (예 : 예측 간격)
다음 예제를 보자. set.seed(342) x1 <- runif(100) x2 <- runif(100) y <- x1+x2 + 2*x1*x2 + rnorm(100) fit <- lm(y~x1*x2) 이것은 OLS 회귀를 사용하여 x1 및 x2를 기준으로 y의 모형을 만듭니다. 주어진 x_vec에 대해 y를 예측하려면 간단히에서 얻은 공식을 사용할 수 있습니다 summary(fit). 그러나 y의 하한 예측과 상한 예측을 예측하려면 …

10
소셜 네트워크 데이터 세트
잠김 . 이 질문과 주제는 주제가 다르지만 역사적 의미가 있기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. 분류 작업에 대한 소셜 네트워크 데이터 세트 (twitter, friendfeed, facebook, lastfm 등)를 arff 형식으로 찾고 있습니다. UCI와 Google을 통한 검색은 지금까지 성공하지 못했습니다 ... 제안 사항이 있습니까?

4
선형 적으로 밀접하게 관련된 두 예측 변수 중 하나를 간단히 제거 할 수 있습니까?
Pearson 's Correlation Coefficient를 사용하면 상관 관계가 높은 여러 변수가 있습니다 ( 모델에있는 두 쌍의 변수에 대해 및 \ rho = 0.989 ).ρ=0.978ρ=0.978\rho = 0.978ρ=0.989ρ=0.989\rho = 0.989 이유는 하나 개의 변수가에서 사용되는 변수 중 일부는 고도의 상관 관계는 계산 다른 변수. 예: B=V/3000B=V/3000B = V / 3000 및 E=V∗DE=V∗DE = …

5
매트릭스 분해에 관한 필수 논문
나는 최근 매트릭스 분해에 관한 Skillicorn의 책을 읽었으며 학부 청중을 대상으로하기 때문에 약간 실망했습니다. 나는 매트릭스 분해에 관한 필수 논문 (설문 조사뿐만 아니라 획기적인 논문)의 짧은 참고 문헌을 (나 자신과 다른 사람들을 위해) 편집하고 싶다. 내가 염두에두고 주로 SVD / PCA (및 견고 / 희소 변형) 및 NNMF에 관한 것이 …

3
정규 분포의 명확한 구간 평가
정규 분포의 CDF에 대한 수식을 쉽게 처리 할 수 ​​있기 때문에 복잡한 오류 함수로 인해 다소 누락되었습니다. 그러나 대한 좋은 공식이 있는지 궁금합니다 . 또는이 문제에 대한 "최신 상태"의 근사값은 무엇입니까?엔( c−≤ x &lt; c+| μ, σ2)엔(씨−≤엑스&lt;씨+|μ,σ2)N(c_{-} \leq x < c_{+}| \mu, \sigma^2)

4
평균 및 중앙값 속성
누군가 두 문장 (a)와 (b)를 연결하는 수학적 논리를 명확하게 설명해 줄 수 있습니까? 일련의 값을 갖도록하자 (일부 분포). 지금, a) 중간 값은 모든 값에 의존하지는 않는다 [단 하나 또는 두 개의 중간 값에 의존한다]. b) 중앙값은 최소 절대 합산 편차의 위치입니다. 마찬가지로, 대조적으로 a) (산술) 평균은 모든 값에 따라 다릅니다. …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.