«logistic-regression» 태그된 질문

일반적으로 로지스틱 기능을 활용하는 통계적 절차, 가장 일반적으로 다양한 형태의 로지스틱 회귀를 나타냅니다.

4
Scikit-learn : 로지스틱 회귀뿐만 아니라 SGDClassifier로 예측하기
로지스틱 회귀를 학습하는 방법은 확률 적 그라디언트 디센트 (schakit-learn)가 인터페이스를 제공하는 확률 적 그라디언트 디센트를 사용하는 것입니다. 내가하고 싶은 것은 scikit-learn의 SGDClassifier를 가져 와서 Logistic Regression here 과 동일한 점수를 얻는 것 입니다. 그러나 점수가 동일하지 않기 때문에 일부 기계 학습 향상 기능이 누락되어 있어야합니다. 이것은 내 현재 코드입니다. SGDClassifier에서 …



2
텍스트 분류 : 다른 종류의 기능 결합
내가 다루는 문제는 짧은 텍스트를 여러 클래스로 분류하는 것입니다. 내 현재 접근 방식은 tf-idf 가중 항 주파수를 사용하고 간단한 선형 분류기 (로지스틱 회귀)를 배우는 것입니다. 이것은 합리적으로 잘 작동합니다 (테스트 세트에서 약 90 % 매크로 F-1, 훈련 세트에서 거의 100 %). 큰 문제는 보이지 않는 단어 / n- 그램입니다. 분포 …

3
로지스틱 회귀 분석에서 비용 함수의 파이썬 구현
로지스틱 회귀 설정에서 파이썬, numpy 및 행렬의 곱셈과 관련된 매우 기본적인 질문이 있습니다. 먼저, 수학 표기법을 사용하지 않은 것에 대해 사과드립니다. 매트릭스 도트 곱셈과 요소 별 곱셈의 사용에 대해 혼란 스럽습니다. 비용 함수는 다음과 같이 제공됩니다. 그리고 파이썬에서 나는 이것을 다음과 같이 썼다. cost = -1/m * np.sum(Y * np.log(A) …

5
이진 분류 알고리즘을 선택하십시오
이진 분류 문제가 있습니다. 훈련 세트에서 약 1000 개의 샘플 이진, 숫자 및 범주를 포함한 10 가지 속성 이 유형의 문제에 가장 적합한 알고리즘은 무엇입니까? 기본적으로 나는 비교적 깨끗하고 시끄럽지 않은 데이터에 가장 적합한 것으로 간주되므로 SVM (공칭 속성 값을 이진 기능으로 변환 한 예비)으로 시작하겠습니다.

4
의사 결정 트리 또는 로지스틱 회귀 분석?
분류 문제를 해결하고 있습니다. 동일한 수의 범주 형 변수와 연속 변수를 포함하는 데이터 세트가 있습니다. 어떤 기술을 사용해야하는지 어떻게 알 수 있습니까? 의사 결정 트리와 로지스틱 회귀 분석 로지스틱 회귀 분석이 연속 변수에 더 적합하고 의사 결정 트리가 연속 + 범주 변수에 더 적합하다고 가정하는 것이 옳습니까?

2
불균형 데이터에 대한 이진 분류 모델
다음 사양의 데이터 세트가 있습니다. 2,821 개의 양성으로 193,176 개의 샘플로 훈련 데이터 세트 673 개의 양성으로 82,887 개의 샘플로 테스트 데이터 세트 10 가지 기능이 있습니다. 이진 분류 (0 또는 1)를 수행하고 싶습니다. 내가 겪고있는 문제는 데이터가 매우 불균형하다는 것입니다. 일부 기능 엔지니어링과 함께 데이터를 정규화하고 확장 한 후 …

2
비대칭 비용 함수를 사용한 선형 회귀?
나는 어떤 값을 예측하려는 Y(x)Y(x)Y(x) 나는 몇 가지 예측을 얻기 위해 노력하고 Y ( X ) 가능한 한 낮게되고, 여전히보다 큰 사이를 최적화를 . 즉, Y^(x)Y^(x)\hat Y(x)Y(x)Y(x)Y(x)cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}\text{cost}\left\{ Y(x) \gtrsim \hat Y(x) \right\} >> \text{cost}\left\{ \hat Y(x) \gtrsim Y(x) \right\} 간단한 선형 회귀는 완전히 잘되어야한다고 생각합니다. 그래서 나는 이것을 수동으로 구현하는 …

3
파이썬에 적합한 기본 언어 모델이 있습니까?
응용 프로그램을 프로토 타이핑하고 있으며 생성 된 일부 문장의 난이도를 계산하려면 언어 모델이 필요합니다. 파이썬에서 쉽게 사용할 수있는 훈련 된 언어 모델이 있습니까? 간단한 것 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 일부 프레임 워크를 …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 


3
과학 컴퓨팅을위한 최고의 언어
폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 대부분의 언어에는 몇 가지 과학 컴퓨팅 라이브러리가 있습니다. 파이썬은 Scipy Rust 있다 SciRust C++이 등 여러 가지 ViennaCL와Armadillo …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
이것이 기능 엔지니어링의 모범 사례입니까?
기능 공학에 대한 실질적인 질문이 있습니다 ... 로지스틱 회귀를 사용하여 주택 가격을 예측하고 우편 번호를 포함하여 많은 기능을 사용했다고 가정합니다. 그런 다음 기능의 중요성을 확인하여 zip이 꽤 좋은 기능이라는 것을 알고 있으므로 zip을 기반으로 기능을 추가하기로 결정했습니다. 예를 들어 인구 조사국에 가서 평균 수입, 인구, 학교 수 및 수를 얻습니다. …

4
R에서 서수 회귀 학습?
프로젝트를 진행 중이며 속도를 높이려면 리소스가 필요합니다. 데이터 세트는 30여 가지 변수에 대한 약 35000 개의 관측치입니다. 변수의 약 절반은 여러 가지 가능한 값을 갖는 범주 형입니다. 예를 들어 범주 형 변수를 더미 변수로 분할하면 30 개가 넘는 변수가 있습니다. 그러나 아마도 아마도 최대 몇 백입니다. (n> p). 우리가 예측하고자하는 …

2
많은 기능으로 로지스틱 회귀를 수행하는 방법은 무엇입니까?
로지스틱 회귀에 대한 이진 클래스 문제가있는 각 샘플에 대해 330 개의 샘플과 27 개의 기능이있는 데이터 세트가 있습니다. "10이면 규칙"에 따르면 각 기능을 포함하려면 최소한 10 개의 이벤트가 필요합니다. 그럼에도 불구하고 나는 긍정적 인 클래스 20 %와 부정적인 클래스 80 %의 불균형 데이터 세트를 가지고 있습니다. 이로 인해 70 개의 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.