데이터 과학

2

나는 어떤 값을 예측하려는 Y(x)Y(x)Y(x) 나는 몇 가지 예측을 얻기 위해 노력하고 Y ( X ) 가능한 한 낮게되고, 여전히보다 큰 사이를 최적화를 . 즉, Y^(x)Y^(x)\hat Y(x)Y(x)Y(x)Y(x)cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}\text{cost}\left\{ Y(x) \gtrsim \hat Y(x) \right\} >> \text{cost}\left\{ \hat Y(x) \gtrsim Y(x) \right\} 간단한 선형 회귀는 완전히 잘되어야한다고 생각합니다. 그래서 나는 이것을 수동으로 구현하는 …

13 machine-learning logistic-regression

1

퍼지 토큰 시퀀스에서 문법 인식

주로 항목 목록이 포함 된 텍스트 문서가 있습니다. 각 항목은 이름, 성, 생년월일, 전화 번호, 도시, 직업 등 여러 유형의 여러 토큰 그룹입니다. 토큰은 단어 그룹입니다. 항목은 여러 줄에있을 수 있습니다. 문서의 항목은 거의 동일한 토큰 구문을 갖지만 반드시 반드시 동일 할 필요는 없습니다. 그것들은 아이템들 사이뿐만 아니라 아이템들 사이에 …

13 data-mining clustering text-mining time-series correlation

3

언밸런스 클래스를 사용하면 유효성 검사 / 테스트 데이터 세트에서 샘플링을 사용해야합니까?

저는 기계 학습의 초보자이며 상황에 직면하고 있습니다. IPinYou 데이터 세트로 실시간 입찰 문제를 해결 중이며 클릭 예측을 시도하고 있습니다. 문제는 알 수 있듯이 데이터 세트의 균형이 매우 불균형하다는 것입니다. 1 긍정적 인 예 (클릭)에 대해 약 1300 개의 부정적인 예 (비 클릭). 이것이 제가하는 것입니다: 데이터로드 데이터 세트를 3 개의 …

13 machine-learning dataset sampling

2

데이터 프레임 열의 평균을 계산하고 상위 10 %를 찾는 방법

저는 스칼라와 스파크를 처음 접했고 야구 통계를 사용하여 자체 제작 한 운동을하고 있습니다. 사례 클래스를 사용하여 RDD를 만들고 데이터에 스키마를 할당 한 다음이를 DataFrame으로 전환하여 SparkSQL을 사용하여 특정 기준에 맞는 통계를 통해 선수 그룹을 선택할 수 있습니다. 더 자세히보고 싶은 플레이어의 하위 집합이 있으면 열의 평균을 찾고 싶습니다. 예를 들어 …

13 apache-spark scala

1

기능 생성과 기능 추출의 차이점은 무엇입니까?

아무도 기능 생성의 목적이 무엇인지 말해 줄 수 있습니까? 이미지를 분류하기 전에 왜 피쳐 공간 강화가 필요한가요? 필요한 단계입니까? 기능 공간을 풍부하게하는 방법이 있습니까?

13 machine-learning classification

2

분리 된 분류기의 앙상블로 구성된 분류기에 대한 ROC 곡선을 계산하는 효율적인 알고리즘

분류기 C_1 ... C_n이 있다고 가정합니다. 두 입력자가 동일한 입력 (예 : 의사 결정 트리의 노드)에서 true를 반환하지 않는다는 점에서 분리되어 있습니다. 나는 이들의 일부 하위 집합을 통합하는 새로운 분류기를 만들고 싶습니다 (예 : 긍정적 인 분류를 제공하기 위해 의사 결정 트리의 잎을 결정하고 싶습니다). 물론, 그렇게 할 때 민감도와 …

13 algorithms

1

Neo4j vs OrientDB vs 타이탄

사회적 관계 마이닝과 관련된 데이터 과학 프로젝트를 진행 중이며 일부 그래프 데이터베이스에 데이터를 저장해야합니다. 처음에는 Neo4j를 데이터베이스로 선택했습니다. 그러나 Neo4j는 잘 확장되지 않습니다. 내가 찾은 대안은 Titan과 oriebtDB입니다. 내가 겪었 이 이 세 가지 데이터베이스에 비교,하지만 이러한 데이터베이스에 대한 자세한 내용을 좀하고 싶습니다. 그래서 가장 좋은 것을 선택하는 데 도움이 …

13 data-mining graphs databases social-network-analysis

7

저는 프로그래머입니다. 어떻게 데이터 과학 분야에 들어가나요?

우선이 용어는 너무 모호하게 들립니다. 어쨌든 .. 나는 소프트웨어 프로그래머입니다. 내가 코딩 할 수있는 언어 중 하나는 Python입니다. 데이터 말하기 SQL을 사용할 수 있고 데이터 스크랩 핑을 수행 할 수 있습니다. 내가 지금까지 알아 낸 것은 많은 과학 기술 자료에 대한 많은 기사를 읽었습니다. 1- 통계 2- 대수 3- 데이터 …

13 beginner career

1

단일 의사 결정 트리를 추가하여 온라인 임의 포리스트

RF (Random Forest)는 Decision Trees (DT)의 앙상블에 의해 생성됩니다. 배깅을 사용하여 각 DT는 다른 데이터 서브 세트에서 학습됩니다. 따라서 새로운 데이터에 대한 의사 결정을 더 추가하여 온라인 임의 포리스트를 구현하는 방법이 있습니까? 예를 들어, 10K 샘플이 있고 10 DT를 훈련시킵니다. 그런 다음 1K 샘플을 얻고 전체 RF를 다시 훈련하는 대신 …

13 random-forest online-learning

2

심층 신경망 훈련 시각화

훈련 중에 가중치를 플롯하기 위해 멀티 레이어 네트워크에 해당하는 Hinton Diagrams를 찾으려고합니다. 훈련 된 네트워크는 Deep SRN과 다소 유사합니다. 즉, 여러 개의 힌튼 다이어그램의 동시 플롯을 시각적으로 혼란스럽게 만드는 다중 가중치 매트릭스가 많이 있습니다. 누구나 여러 계층의 반복 네트워크에 대한 가중치 업데이트 프로세스를 시각화하는 좋은 방법을 알고 있습니까? 주제에 관한 …

13 machine-learning neural-network visualization deep-learning

2

NLP의 분류 프로세스에서 구문 분석 트리에서 일반적으로 사용되는 기능은 무엇입니까?

다른 유형의 구문 분석 트리 구조를 탐색하고 있습니다. 널리 알려진 두 가지 구문 분석 트리 구조는 a) 구성 요소 기반 구문 분석 트리 및 b) 종속성 기반 구문 분석 트리 구조입니다. Stanford NLP 패키지를 사용하여 두 가지 유형의 구문 분석 트리 구조를 모두 사용할 수 있습니다. 그러나 분류 작업에 이러한 …

13 machine-learning nlp feature-selection feature-extraction

4

머신 러닝 알고리즘 학습 : 이해 수준과 알고리즘 수

최근에 나는 데이터 과학 분야 (약 6 개월)를 소개 받았으며, Andrew Ng의 머신 러닝 과정과 JHU의 데이터 과학 전문 분야에 대한 연구를 시작했습니다. 실질적인 응용 분야에서 저는 마모를 예측하는 예측 모델을 작성하는 작업을 진행했습니다. 지금까지 이러한 방법을 배우고 적용하기 위해 glm, bayesglm, rf를 사용했지만 이러한 알고리즘을 이해하는 데 많은 차이가 …

13 machine-learning

2

독립 t- 검정을 사용하여 정규 분포가 아닌 A / B 테스트 결과 분석

정규 분포에 맞지 않는 A / B 테스트 (제어 그룹 1 개, 기능 그룹 1 개)의 결과 집합이 있습니다. 실제로이 배포판은 Landau 배포판과 더 비슷합니다. 독립 t- 검정은 표본이 최소한 정규 분포를 that어야하므로 t- 검정을 유효한 유의성 검정 방법으로 사용하지 못하게합니다. 그러나 내 질문은 : 어떤 시점에서 t- 검정이 유의성 …

13 dataset statistics ab-test

1

관계형 데이터베이스가 비 관계형 데이터베이스보다 성능이 더 좋은 경우

MySQL과 같은 관계형 데이터베이스가 MongoDB와 같은 관계형 데이터베이스보다 성능이 더 좋은 경우 다른 날 Quora에서 Quora가 여전히 MySQL을 백엔드로 사용하는 이유와 성능이 여전히 좋은지에 대한 질문을 보았습니다.

13 bigdata performance databases nosql

6

모범 사례를 이해하는 데이터 세트

저는 데이터 마이닝의 CS 마스터 학생입니다. 관리자는 분류기를 실행하거나 데이터 집합으로 작업을 수행하기 전에 데이터를 완전히 이해하고 데이터가 깨끗하고 올바른지 확인해야한다고 말했습니다. 내 질문 : 데이터 세트를 이해하는 가장 좋은 방법은 무엇입니까 (수치 및 명목 속성이있는 고차원)? 데이터 세트가 깨끗한 지 확인하는 방법? 데이터 집합에 잘못된 값이 없는지 확인하는 방법?

13 statistics dataset