데이터 과학

데이터 과학 전문가, 기계 학습 전문가 및 현장 학습에 관심이있는 전문가를위한 Q & A

1
작은 텍스트 파일에 word2vec 적용
나는 word2vec에 완전히 새로운 그래서 pls는 나와 함께 견딜. 각각 1000-3000 사이의 트윗 세트를 포함하는 텍스트 파일 세트가 있습니다. 공통 키워드 ( "kw1")를 선택했으며 word2vec를 사용하여 "kw1"에 대한 의미 적으로 관련있는 용어를 찾고 싶습니다. 예를 들어 키워드가 "apple"인 경우 입력 파일을 기준으로 "ipad" "os" "mac"...와 같은 관련 용어가 표시됩니다. 따라서 …

3
언밸런스 클래스 — 오탐을 최소화하는 방법?
이진 클래스 특성이있는 데이터 집합이 있습니다. +1 클래스 (암 양성)의 623 개의 인스턴스와 -1 클래스 (암 음성)의 101,671 개의 인스턴스가 있습니다. 다양한 알고리즘 (Naive Bayes, Random Forest, AODE, C4.5)을 시도했지만 모두 허용 할 수없는 거짓 음수 비율을 가지고 있습니다. 랜덤 포레스트는 전체 예측 정확도가 가장 높고 (99.5 %)가 음성 비율이 …

3
Spark의 IPython / Jupyter 관련 문제 (인식 할 수없는 별칭)
스파크를 실험하기 위해 VM 세트를 설정하고 나가서 하드웨어를 사용하여 클러스터를 구축하는 데 돈을 씁니다. 빠른 참고 사항 : 저는 응용 기계 학습에 대한 배경 지식이있는 학계이며 데이터 과학 분야에서 약간의 연구를 중단했습니다. 나는 컴퓨팅 도구를 사용하지만 거의 설정이 필요하지 않습니다. VM 3 개 (마스터 1 개, 슬레이브 2 개)를 만들고 …

4
임의의 숲에서 과적 합을 피하는 방법?
임의의 포리스트에서 과적 합을 피하고 싶습니다. 이와 관련하여 mtry, nodesize 및 maxnodes 등을 사용하려고합니다. 이러한 매개 변수의 값을 선택하도록 도와 주시겠습니까? R을 사용하고 있습니다. 또한 가능한 경우 임의 포리스트 (R)에서 k- 폴드 크로스 유효성 검사를 사용하는 방법을 알려주십시오.

7
LinkedIn 웹 스크래핑
최근 에 LinkedIn API에 연결하기위한 새로운 R 패키지 를 발견했습니다 . 불행히도 LinkedIn API는 시작하기에 꽤 제한적입니다. 예를 들어 회사에 대한 기본 데이터 만 얻을 수 있으며 개인의 데이터와 분리됩니다. 특정 회사의 모든 직원에 대한 데이터를 얻고 싶습니다 . 사이트에서 수동으로 수행 할 수 있지만 API를 통해 불가능합니다. import.io 가 …

3
현장 인식 분해 시스템
FMA (Field-Aware Factorization Machine)와 표준 FM (FM)이 어떻게 비교되는지 설명 할 수 있습니까? 표준 : http://www.ismll.uni-hildesheim.de/pub/pdfs/Rendle2010FM.pdf "현장 인식": http://www.csie.ntu.edu.tw/~r01922136/kaggle-2014-criteo.pdf

1
지속적인 온라인 클러스터 식별 솔루션?
가상 온라인 클러스터링 응용 프로그램의 예를 보여 드리겠습니다. 시간 n에서 포인트 1,2,3,4는 청색 클러스터 A에 할당되고 포인트 b, 5,6,7은 적색 클러스터 B에 할당됩니다. 시간 n + 1에서, 파란색 점 A에 할당 된 새로운 점 a가 도입되지만, 점 b도 파란색 군집 A에 지정됩니다. 끝점 1,2,3,4, a, b는 A에 속하고 5,6,7은 B에 …

5
월별, 일별 및 주별 데이터를 병합하는 방법은 무엇입니까?
Google 트렌드는 매주 데이터를 반환하므로 매일 / 매월 데이터와 데이터를 병합하는 방법을 찾아야합니다. 내가 지금까지 한 일은 각 serie를 매일 데이터로 나누는 것입니다. 에서: 2013-03-03-2013-03-09 37 에: 2013-03-03 37 2013-03-04 37 2013-03-05 37 2013-03-06 37 2013-03-07 37 2013-03-08 37 2013-03-09 37 그러나 이것은 내 문제에 많은 복잡성을 추가하고 있습니다. 지난 …

2
서버 모니터링을위한 신경망
서버 모니터 알람을 가져와 문제의 근본 원인을 확인하기 위해 pybrain을 찾고 있습니다. 감독 학습을 사용하고 교육 데이터 세트를 관리하여 교육에 만족합니다. 데이터는 다음과 같이 구성됩니다. 서버 유형 A # 1 경보 유형 1 경보 유형 2 서버 유형 A # 2 경보 유형 1 경보 유형 2 서버 유형 B …

2
희소 데이터로 방정식 시스템 풀기
40 개의 독립 변수 (x1, ..., x40)와 하나의 종속 변수 (y)가있는 일련의 방정식을 풀려고합니다. 총 방정식 수 (행 수)는 ~ 300이며 y와 예측 값 사이의 총 제곱합 오류를 최소화하는 40 계수 세트로 풀고 싶습니다. 내 문제는 행렬이 매우 희박하고 희소 데이터로 방정식 시스템을 푸는 가장 좋은 방법을 모른다는 것입니다. 데이터 …

1
R의 MLE에 대한 피셔 득점 v / s 좌표 하강
R 기본 함수 glm()는 MLE에 Fishers Scoring glmnet을 사용하는 반면 좌표 하강 법을 사용하여 동일한 방정식을 해결하는 것으로 보입니다. Fisher Scoring이 다른 행렬 연산 외에도 2 차 미분 행렬을 계산하므로 좌표 강하는 Fisher Scoring보다 시간 효율적입니다. 좌표 하강은 O (np) 시간에 동일한 작업을 수행 할 수 있지만 수행 비용이 많이 …

4
특징 추출 기법-일련의 데이터 요약
나는 종종 시퀀스 인 예측 변수가있는 모델 (분류 또는 회귀)을 작성하고 있으며 모델에 예측 변수로 포함시킬 수있는 최선의 방법으로 변수를 요약하기위한 기술 권장 사항을 찾으려고 노력했습니다. 구체적인 예로, 고객이 향후 90 일 내에 회사를 떠날 것인지 예측하기 위해 모델을 구축한다고 가정합니다 (t와 t + 90 사이, 따라서 이진 결과). 사용 …


3
양수 및 레이블이없는 데이터 만 사용하여 이진 분류기를 만듭니다.
나는 2 개의 데이터 세트를 가지고 있는데, 하나는 탐지하고자하는 긍정적 인 인스턴스가 있고 다른 하나는 레이블이없는 인스턴스가 있습니다. 어떤 방법을 사용할 수 있습니까? 예를 들어, 구조화 된 이메일 특성 몇 가지를 기반으로 스팸 이메일 탐지를 이해하려고한다고 가정합니다. 스팸 이메일 1 개의 데이터 세트와 스팸 여부를 모르는 100000 개의 이메일 데이터 …

4
분류 규칙 생성을위한 알고리즘
따라서 분류 자에 의해 해결 된 기존의 문제 영역에 상당히 잘 맞는 머신 러닝 응용 프로그램의 가능성이 있습니다. 즉, 항목과 항목을 설명하는 속성 집합이 있습니다. 그러나 모델을 만드는 대신 Naive Bayes 또는 유사한 분류기에서와 같이 확률이 높으면 최종 사용자가 검토하고 수정할 수있는 대략적인 사람이 읽을 수있는 규칙 집합이되기를 원합니다. 연관 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.