«machine-learning» 태그된 질문

기계 학습 알고리즘은 훈련 데이터의 모델을 구축합니다. "기계 학습"이라는 용어는 모호하게 정의됩니다. 여기에는 통계 학습, 강화 학습, 비지도 학습 등이 포함됩니다. 항상 더 구체적인 태그를 추가하십시오.


1
퀴즈 : 결정 경계에 따라 분류 자에게 알리십시오.
아래 6 가지 결정 경계가 제공됩니다. 결정 경계는 보라색 선입니다. 점과 십자가는 서로 다른 두 데이터 집합입니다. 우리는 어느 것을 결정해야합니다 : 리니어 SVM 커널 SVM (2 차 다항식 커널) 퍼셉트론 로지스틱 회귀 신경망 (10 개의 정류 된 선형 단위를 갖는 숨겨진 계층 1 개) 신경망 (10 tanh 단위의 숨겨진 …

5
로지스틱 회귀 분석에 가장 중요한 기능 이해
내 데이터에서 매우 정확한 로지스틱 회귀 분류기를 만들었습니다. 이제 왜 그것이 잘 작동하는지 더 잘 이해하고 싶습니다. 특히, 어떤 기능이 가장 큰 기여를하고 있는지 (어떤 기능이 가장 중요한지) 순위를 매기고, 이상적으로는 각 기능이 전체 모델 (또는이 맥락에서)의 정확성에 기여하는 정도를 수량화하고 싶습니다. 어떻게해야합니까? 내 첫 번째 생각은 계수를 기준으로 순위를 …

1
포장에 대한 이론적 보증은 무엇입니까
나는 (대략) 들었습니다. 배깅은 예측기 / 추정기 / 학습 알고리즘의 분산을 줄이는 기술입니다. 그러나 나는이 진술에 대한 공식적인 수학적 증거를 본 적이 없다. 왜 이것이 수학적으로 사실인지 아는 사람이 있습니까? 그것은 널리 알려진 / 알려진 사실 인 것 같습니다. 나는 이것에 대한 직접적인 언급을 기대합니다. 없는 것이 있으면 놀랐습니다. 또한, …

3
PCA를 수행하기 전에 다른 표준화 요소가 아닌 표준 편차로 나누는 이유는 무엇입니까?
원시 데이터를 표준 편차로 나누는 이유에 대한 다음과 같은 정당성을 읽었습니다 (cs229 코스 노트에서). 설명이 말하는 것을 이해하더라도 표준 편차로 나누는 것이 왜 그러한 목표를 달성 할 수 있는지는 분명하지 않습니다. 그것은 모두가 같은 "규모"에 더 가깝도록 말합니다. 그러나 왜 표준 편차로 나누는 것이 그렇게되는지 완전히 명확하지는 않습니다 . 분산으로 …

1
R- 제곱 값이 모형을 비교하는 데 적합합니까?
자동차 분류 광고 사이트에서 제공되는 가격과 기능을 사용하여 자동차 가격을 예측하기위한 최상의 모델을 식별하려고합니다. 이를 위해 scikit-learn 라이브러리의 몇 가지 모델과 pybrain 및 neurolab의 신경망 모델을 사용했습니다. 지금까지 사용한 접근법은 일부 모델 (기계 학습 알고리즘)을 통해 고정 된 양의 데이터를 실행 하고 scikit-learn 메트릭 모듈로 계산 된 R2R2R^2 값을 비교하는 …


4
신경망에서“자유도”란 무엇을 의미합니까?
주교의 책 "패턴 분류 및 기계 학습"에서 신경망의 맥락에서 정규화하는 기술을 설명합니다. 그러나 훈련 과정에서 모델의 복잡성과 함께 자유도가 증가한다는 단락을 이해하지 못합니다. 관련 인용문은 다음과 같습니다. 네트워크의 효과적인 복잡성을 제어하는 ​​방법으로 정규화의 대안은 조기 중지 절차입니다. 비선형 네트워크 모델의 학습은 일련의 학습 데이터와 관련하여 정의 된 오류 함수의 반복 …

2
증권 거래소 거래에 신경망 사용
나는 신경망의 분야에 뛰어 들었고 그들에 매료되었습니다. 마지막으로 증권 거래소에서 거래 시스템을 테스트하기위한 애플리케이션 프레임 워크를 개발했으며 이제는 첫 번째 신경망을 구현할 것입니다. 매우 간단하고 원시적 인 것으로, 실제 거래 용이 아닌 초보자 용입니다. 내 접근 방식이 좋은 접근 방법인지 알고 싶습니다. 그리고 당신이 내가 무언가를 놓치고 있거나 (또는 ​​무언가에 …

1
뉴스 기사를 바탕으로 범죄 지수와 정치적 불안정 지수를 만들고 싶습니다
이 지역 프로젝트를 통해 현지 뉴스 웹 사이트를 크롤링하고 범죄 지수와 정치적 불안정 지수를 구축하려고합니다. 프로젝트의 정보 검색 부분을 이미 다뤘습니다. 나의 계획은 : 감독되지 않은 주제 추출. 거의 중복 감지. 감독 분류 및 사건 수준 (범죄 / 정치-높음 / 중간 / 낮음). 나는 파이썬과 sklearn을 사용하고 이미 그 작업에 …

3
t- 검정으로 통계적 유의성을 위해 두 분류기 정확도 결과 비교
통계적으로 유의미한 두 분류기의 정확도를 비교하고 싶습니다. 두 분류기는 모두 동일한 데이터 세트에서 실행됩니다. 이것은 내가 읽은 것에서 하나의 샘플 t- 검정을 사용해야한다고 생각하게합니다 . 예를 들면 다음과 같습니다. Classifier 1: 51% accuracy Classifier 2: 64% accuracy Dataset size: 78,000 이것이 올바른 테스트입니까? 그렇다면 분류기 간의 정확도 차이가 중요한지 어떻게 …

1
잠재 된 디리클레 할당을 사용하기위한 입력 매개 변수
주제 모델링 (Latent Dirichlet Allocation)을 사용할 때 주제 수는 사용자가 지정해야하는 입력 매개 변수입니다. Dirichlet 프로세스가 샘플링해야하는 후보 토픽 세트를 제공해야한다고 생각합니까? 이해가 정확합니까? 실제로 이런 종류의 후보 주제 세트를 설정하는 방법은 무엇입니까?

12
통계 데이터 분석에 대한 최고의 책?
잠김 . 이 질문과 주제는 주제가 다르지만 역사적 의미가 있기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. 나는이 책을 샀다 : 무엇이든 측정하는 방법 : 비즈니스에서 무형 자산의 가치 찾기 과 Head First Data Analysis : 큰 숫자, 통계 및 올바른 결정에 대한 학습자 안내서 다른 …

3
SVM 외에 어떤 알고리즘에 기능 확장이 필요합니까?
RandomForest, DecisionTrees, NaiveBayes, SVM (커널 = 선형 및 rbf), KNN, LDA 및 XGBoost와 같은 많은 알고리즘을 사용하고 있습니다. SVM을 제외하고는 모두 매우 빠릅니다. 그때는 기능 확장이 더 빨리 작동해야한다는 것을 알게되었습니다. 그런 다음 다른 알고리즘에 대해서도 동일한 작업을 수행해야하는지 궁금해지기 시작했습니다.


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.