데이터 과학

데이터 과학 전문가, 기계 학습 전문가 및 현장 학습에 관심이있는 전문가를위한 Q & A

3
다양한 통계적 기법 (회귀, PCA 등)은 표본 크기와 차원에 어떻게 비례합니까?
표본 크기 및 차원에 따라 확장되는 방법을 설명하는 알려진 일반적인 통계 기법 표가 있습니까? 예를 들어, 내 친구가 며칠 전에 크기 n의 1 차원 데이터를 간단히 정렬하는 계산 시간이 n * log (n)이된다고 말했습니다. 예를 들어 X가 d- 차원 변수 인 X에 대해 y를 회귀하면 O (n ^ 2 * …

3
통계 + 컴퓨터 과학 = 데이터 과학? [닫은]
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 질문 업데이트 는 그래서 주제에 대한 데이터 과학 스택 교류가. 휴일 오년 전에 . 나는 데이터 과학자 가되고 싶다 . 응용 통계 (계리 과학)를 연구 했으므로 훌륭한 통계적 배경 (회귀, 확률 과정, 시계열, 몇 가지 언급)이 …

1
비원 자적 특징을 가진 예측
비 원자 데이터를 예측 기능으로 사용하고 싶습니다. 이 기능이있는 테이블이 있다고 가정하십시오. - Column 1: Categorical - House - Column 2: Numerical - 23.22 - Column 3: A Vector - [ 12, 22, 32 ] - Column 4: A Tree - [ [ 2323, 2323 ],[2323, 2323] , [ Boolean, …

3
정기적으로 증가하는 기능 세트 처리
사기 탐지 시스템을 개발 중입니다. 이 필드에서는 새로운 사기가 정기적으로 나타나므로 지속적으로 모델에 새로운 기능을 추가해야합니다. 개발 프로세스 관점에서 처리하는 가장 좋은 방법이 무엇인지 궁금합니다. 새로운 기능을 기능 벡터에 추가하고 분류자를 재교육하는 것은 기존 기능을 다시 학습하는 데 너무 많은 시간이 걸리기 때문에 순진한 접근 방식으로 보입니다. 각 기능 (또는 …

2
신경망을 이용한 외환 시장 예측
ANN을 사용하여 거래 통화, 바람직하게는 USD / EUR 또는 USD / GBP를 자동화하고 싶습니다. 나는 이것이 어렵고 간단하지 않을 수 있음을 알고 있습니다. 나는 이미 몇 가지 논문을 읽고 실험을 해 보았지만 많은 운이 없었습니다. 이 작업을 수행하기 위해 전문가로부터 조언을 얻고 싶습니다. 여기까지 내가 한 일이 있습니다. 2013 년 …

4
가스 소비 이상치 탐지-신경망 프로젝트. 나쁜 결과
네덜란드의 일부 건물의 에너지 가스 소비에서 특이 치를 탐지하여 신경망 모델을 구축했습니다. 결과가 매우 좋지 않지만 이유를 찾을 수 없습니다. 저는 전문가가 아니므로 개선 할 수있는 것과 내가 뭘 잘못하고 있는지 묻고 싶습니다. 이에 대한 자세한 설명은 https://github.com/denadai2/Gas-consumption-outliers 입니다. 신경망은 역 전파를 갖는 FeedFoward 네트워크입니다. 여기에 설명 된대로 데이터 세트를 …

4
R에서 서수 회귀 학습?
프로젝트를 진행 중이며 속도를 높이려면 리소스가 필요합니다. 데이터 세트는 30여 가지 변수에 대한 약 35000 개의 관측치입니다. 변수의 약 절반은 여러 가지 가능한 값을 갖는 범주 형입니다. 예를 들어 범주 형 변수를 더미 변수로 분할하면 30 개가 넘는 변수가 있습니다. 그러나 아마도 아마도 최대 몇 백입니다. (n> p). 우리가 예측하고자하는 …

1
일반 오일러 다이어그램에서 서브셋을 그릴 수 있는지 어떻게 알 수 있습니까?
경우에 따라 겹치는 원으로 오일러 다이어그램을 그려 모든 겹치는 부분 집합을 올바른 비율로 표현하는 것이 불가능할 수 있습니다 . 이 유형의 데이터는 각 세트를 나타 내기 위해 다각형 또는 다른 그림을 사용해야합니다. 중복되는 부분 집합을 설명하는 데이터를 처리 할 때 간단한 오일러 다이어그램이 가능한지 어떻게 알 수 있습니까?

1
가장 효율적인 데이터 인덱싱 기술은 무엇입니까
우리 모두 알다시피, Lucene (java의 경우) 또는 Lucene.NET (.NET의 경우), MurMurHash, B + Tree 등과 같은 잘 알려진 색인 앱에서 사용하는 일부 데이터 색인 기법이 있습니다. No-Sql / Object의 경우 지향 데이터베이스 (C #으로 약간 쓰고 쓰려고 시도), 어떤 기술을 제안합니까? MurMurhash-2에 대해 읽었으며 특히 v3 의견에 따르면 Murmur는 매우 …

5
박사 과정 자격
Yann LeCun은 AMA 에서 최고 회사에서 일하기 위해서는 박사 학위가 매우 중요하다고 생각합니다. 통계학 석사를 받았으며 저학년은 경제학 및 수학을 전공했지만 ML PhD 프로그램을 찾고 있습니다. 대부분의 프로그램은 반드시 필요한 CS 과정이 없다고 말합니다. 그러나 나는 대부분의 입학 허가를받은 학생들이 최소한 CS 배경이 매우 강하다고 생각하는 경향이 있습니다. 현재 데이터 …
10 education 

2
이 Neo4j와 RDBMS 실행 시간의 비교가 정확합니까?
배경 : 다음은 Graph Databases 책에서 발췌 한 것으로 Neo4j 책에서 언급 된 성능 테스트를 다룹니다 . 그래프의 관계는 자연스럽게 경로를 형성합니다. 그래프 조회 또는 순회는 다음 경로를 포함합니다. 데이터 모델의 근본적인 경로 지향적 특성으로 인해 대부분의 경로 기반 그래프 데이터베이스 작업은 데이터가 배치되는 방식과 밀접하게 연계되어있어 매우 효율적입니다. 파트너와 …
10 databases  nosql  neo4j 

3
R의 메모리 제약은 무엇입니까?
리뷰어는 “ Applied Predictive Modeling ”을 검토하면서 다음 과 같이 말합니다 . 통계 학습 (SL) 교육학에 대한 한 가지 비판은 다른 모델링 기법의 평가에서 계산 성능 고려 사항이 없다는 것입니다. SL은 부트 스트랩과 모델의 튜닝 / 테스트를위한 교차 검증에 중점을 두어 계산 집약적입니다. 그에 더하여 bagging 및 boosting과 같은 기술에 …
10 apache-hadoop  r 

4
라이브러리를 사용하는 동안 효율성을 부여하기 어려운 이유는 무엇입니까?
작은 데이터베이스 처리는 언어 자체의 라이브러리 및 / 또는 유틸리티를 사용하는 Python / Perl / ... 스크립트로 쉽게 처리 할 수 ​​있습니다. 그러나 성능과 관련하여 사람들은 C / C ++ / 저수준 언어를 찾는 경향이 있습니다. 코드를 필요에 맞게 조정할 수있는 가능성은 메모리 관리, 병렬 처리, 디스크 액세스 또는 심지어 …

3
24,000 카테고리의 클래스를 인코딩하는 방법은 무엇입니까?
저는 현재 유전체학에 대한 로지스틱 회귀 모델을 연구하고 있습니다. 공변량으로 포함하려는 입력 필드 중 하나는 genes입니다. 약 24,000 개의 알려진 유전자가 있습니다. 전산 생물학에서이 수준의 가변성을 갖는 많은 특징이 있으며 수십만 개의 샘플이 필요합니다. 내가 LabelEncoder()그 24K 유전자 라면 그리고 OneHotEncoder()그들 ... 2.2GHz 쿼드 코어 i7 CPU에서 24,000 개의 컬럼으로 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.