«normalization» 태그된 질문

일반적으로 "정규화"는 값을 지정된 범위 내에 있도록 데이터를 다시 표현하는 것을 의미합니다.

3
R에서 열 단위 행렬 정규화 [닫기]
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 육년 전 . R에서 행렬의 열 단위 정규화를 수행하고 싶습니다. 행렬이 주어지면 m각 요소를 열의 합으로 나누어 각 열을 정규화하고 싶습니다. 이 작업을 수행하는 한 가지 방법은 …

1
매우 작은 가능성 값을 확률로 변환 (정규화)
모델이 주어지면 데이터 세트 목록에 대한 가능성을 계산 한 다음 각 가능성에 대해 정규화해야합니다. 따라서 [0.00043, 0.00004, 0.00321]과 같은 것은 [0.2, 0.03, 0.77]과 같은 것으로 변환 될 수 있습니다. 내 문제는 내가 작업하고있는 로그 가능성이 매우 작다는 것입니다 (예를 들어, 로그 공간에서 값은 -269647.432, -231444.981 등입니다). 내 C ++ 코드에서 …


1
t-SNE를 적용하기 전에 데이터를 중앙에 맞추고 스케일링해야합니까?
내 데이터의 일부 기능은 큰 값을 갖는 반면 다른 기능은 훨씬 작은 값을 갖습니다. t-SNE를 적용하기 전에 더 큰 값을 향한 편향을 방지하기 위해 데이터를 중앙에 + 스케일해야합니까? 기본 유클리드 거리 측정법으로 Python의 sklearn.manifold.TSNE 구현을 사용합니다.

3
"정규화"란 무엇이며 표본 또는 분포가 정규화되었는지 확인하는 방법은 무엇입니까?
균일 분포 ( Uniform(a,b)Uniform(a,b){\rm Uniform}(a,b) )가 정규화 되는지 여부를 묻는 질문 이 있습니다. 우선, 분포가 정규화되었다는 것은 무엇을 의미합니까? 둘째, 분포가 정규화되는지 여부를 확인하는 방법은 무엇입니까? 나는 X 를 계산함으로써 이해한다 - 평균X−meansdX−meansd \frac{X-\text{mean}}{\text{sd}} 정규화 된데이터를 얻지만 여기서는분포가 정규화되었는지 여부를 묻습니다.


4
교차 검증 전 정규화
k- 폴드 교차 검증을 반복하기 전에 정규화 데이터 (평균이 0이고 표준 편차가 0이 됨)가 과적 합과 같은 부정적인 영향을 미칩니 까? 참고 : 이것은 #cases> total #features 인 상황을위한 것입니다. 로그 변환을 사용하여 일부 데이터를 변환 한 다음 위와 같이 모든 데이터를 정규화하고 있습니다. 그런 다음 기능 선택을 수행하고 있습니다. …

1
양자화 정규화는 어떻게 작동합니까?
마이크로 어레이를 사용한 유전자 발현 연구에서, 강도 데이터는 정규화되어야 개체간에, 유전자 사이에서 강도를 비교할 수있다. 개념적이고 알고리즘 적으로 "양자 정규화"는 어떻게 작동하며 이것을 비 통계 전문가에게 어떻게 설명 하시겠습니까?

3
온라인 학습의 정규화 및 기능 확장?
로지스틱 회귀 분류 기가 있다고 가정 해 봅시다. 일반적인 배치 학습에서는 과적 합을 방지하고 체중을 작게 유지하는 정규화 용어가 있습니다. 또한 기능을 정규화하고 확장합니다. 온라인 학습 환경에서 지속적인 데이터 스트림을 받고 있습니다. 각 예제에서 그라디언트 하강 업데이트를 수행 한 다음 버립니다. 온라인 학습에서 기능 스케일링 및 정규화 용어를 사용해야합니까? 그렇다면 …

4
기능 스케일링 및 평균 정규화
Andrew Ng의 기계 학습 과정을 수강하고 여러 번 시도한 후에도이 질문에 대한 답변을 얻을 수 없었습니다. 레벨을 통과했지만이 문제를 해결하는 데 도움이됩니다. 명의 학생들이 일부 수업을 받았고 수업에 중간 시험과 최종 시험이 있다고 가정 합니다. 두 시험에서 점수 데이터 세트를 수집했으며 다음과 같습니다.m = 4m=4m=4 midterm (midterm)^2 final 89 7921 …

2
CLR (중앙 로그 비율 변환)을 사용하여 PCA에 대한 데이터를 준비 할 수 있습니까?
스크립트를 사용하고 있습니다. 핵심 레코드입니다. 주어진 깊이 (열의 첫 번째 열)에 대한 열의 다른 원소 구성을 보여주는 데이터 프레임이 있습니다. PCA를 수행하고 싶습니다. 선택해야하는 표준화 방법이 혼란 스럽습니다. clr()귀하를 위해 데이터를 준비하기 위해 를 사용한 사람이 prcomp()있습니까? 아니면 내 솔루션을 방해합니까? 에서 scale 속성을 사용하는 것 외에도 함수를 clr()사용하기 전에 …

4
행 정규화의 목적은 무엇입니까
열 정규화의 이유는 동일한 척도로 측정되지 않더라도 피쳐에 동일한 가중치를 부여하기 때문에 이해하지만, 가장 가까운 이웃 문헌에서는 종종 열과 행이 정규화됩니다. 행 정규화 란 무엇입니까? 왜 행을 정규화합니까? 구체적으로, 행 정규화의 결과는 행 벡터 간의 유사성 / 거리에 어떻게 영향을 줍니까?

3
알 수없는 분포의 데이터를 정규화하는 방법
특정 유형의 반복 측정 데이터 중 가장 적절한 특성 분포를 찾으려고합니다. 본질적으로 지질학 분야에서는 종종 사건이 발생한 기간 (암석이 임계 온도 이하로 냉각 됨)을 찾기 위해 표본 (암석 덩어리)에서 광물의 방사성 연대 측정을 사용합니다. 일반적으로 각 샘플에서 여러 (3-10) 측정이 수행됩니다. 그리고, 평균 및 표준 편차 σ 가 취해진 다. …

5
매우 많은 수의 데이터 포인트에서 값을 대치하는 방법은 무엇입니까?
데이터 세트가 매우 커서 약 5 %의 임의 값이 없습니다. 이 변수들은 서로 상관되어 있습니다. 다음 예제 R 데이터 세트는 더미 상관 데이터가있는 장난감 예제 일뿐입니다. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
시계열 데이터의 실시간 정규화 알고리즘?
여러 센서 스트림에서 최신 데이터 포인트의 벡터를 가져 와서 유클리드 거리를 이전 벡터와 비교하는 알고리즘을 연구 중입니다. 문제는 서로 다른 데이터 스트림이 완전히 다른 센서에서 온 것이므로 간단한 유클리드 거리를 사용하면 일부 값이 크게 강조됩니다. 분명히 데이터를 정규화 할 수있는 방법이 필요합니다. 그러나 알고리즘은 실시간으로 실행되도록 설계되었으므로 정규화에서 모든 데이터 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.