데이터 과학

6

딥 러닝의 기본 사항을 자세히 설명하는 논문을 찾고 있습니다. 딥 러닝을위한 Andrew Ng 과정과 같은 것이 이상적입니다. 내가 어디에서 찾을 수 있는지 아십니까?

22 machine-learning deep-learning

5

나는 이것에 익숙하지 않으며 이것 뒤에 이론적 개념을 완전히 이해하고 있다고 말할 수 없습니다. 파이썬에서 여러 포인트 목록 사이의 KL 분기를 계산하려고합니다. 이것을 시도하기 위해 http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html 을 사용 하고 있습니다. 내가 겪고있는 문제는 반환 된 값이 두 숫자 목록 (1.3862943611198906)과 동일하다는 것입니다. 나는 여기서 어떤 종류의 이론적 실수를 저지르고 있지만 …

22 python clustering scikit-learn

4

데이터 과학은 데이터 마이닝과 동일합니까?

이 포럼에서 논의 할 데이터 과학에는 여러 데이터가 분석되는 동의어 나 최소한 관련된 필드가 있습니다. 내 특정 질문은 데이터 마이닝에 관한 것입니다. 몇 년 전에 데이터 마이닝에서 대학원 수업을 들었습니다. 데이터 과학과 데이터 마이닝의 차이점은 무엇이며 특히 데이터 마이닝에 능숙 해지려면 무엇을 더 살펴 봐야합니까?

22 data-mining definitions

3

직장에서의 기대치를 어떻게 관리합니까?

데이터 과학, 머신 러닝 및 모든 성공 사례에 관한 모든 우파와 함께, 데이터 과학자와 예측 모델에 대한 정당한 기대와 지나치게 부풀려진 기대 모두가 많이 있습니다. 통계 학자, 머신 러닝 전문가 및 데이터 과학자 실습에 대한 나의 질문은, 특히 모델의 예측 정확도와 관련하여 회사의 비즈니스맨의 기대치를 어떻게 관리 하는가입니다. 간단히 말해서, …

22 performance accuracy

2

계절성 또는 기타 패턴의 변화를 나타내는 시계열을 처리하는 방법은 무엇입니까?

배경 에너지 미터 판독 값의 시계열 데이터 세트를 작업 중입니다. 시리즈의 길이는 미터에 따라 다릅니다. 일부는 몇 년 동안, 다른 일부는 몇 개월에 불과합니다. 많은 사람들이 일, 주 또는 연도 내에 상당한 계절 성과 종종 여러 레이어를 표시합니다. 내가 작업 한 것 중 하나는 이러한 시계열의 클러스터링입니다. 저의 작업은 현재 …

22 data-mining clustering time-series beginner

3

xgboost : 최근 샘플에 더 중요

xgboost로 데이터를 분석 할 때 최신 포인트에 중요성을 더할 수있는 방법이 있습니까?

22 xgboost weighted-data

2

PASCAL VOC Challenge의 탐지 작업에 대한 MAP를 계산하는 방법은 무엇입니까?

Pascal VOC 리더 보드의 감지 작업에 대한 mAP (평균 평균 정밀도)를 계산하는 방법은 무엇입니까? http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=4 11 페이지 에서 : http://homepages.inf.ed.ac.uk/ckiw/postscript/ijcv_voc09.pdf 평균 정밀도 (AP). VOC2007 챌린지의 경우, 보간 평균 정밀도 (Salton and Mcgill 1986)를 사용하여 분류 및 탐지를 평가했습니다. 주어진 작업과 클래스에 대해 정밀도 / 리콜 곡선은 메서드의 순위 출력에서 계산됩니다. …

22 machine-learning neural-network svm computer-vision object-recognition

4

keras 모델의 정확도, F1, 정밀도 및 리콜을 얻는 방법?

바이너리 KerasClassifier 모델의 정밀도, 리콜 및 F1- 점수를 계산하고 싶지만 해결책을 찾지 못했습니다. 내 실제 코드는 다음과 같습니다. # Split dataset in train and test data X_train, X_test, Y_train, Y_test = train_test_split(normalized_X, Y, test_size=0.3, random_state=seed) # Build the model model = Sequential() model.add(Dense(23, input_dim=45, kernel_initializer='normal', activation='relu')) model.add(Dense(1, kernel_initializer='normal', activation='sigmoid')) # …

22 machine-learning neural-network deep-learning classification keras

3

PySpark에서 여러 데이터 프레임을 행 단위로 병합

나는 10 개 데이터 프레임이 pyspark.sql.dataframe.DataFrame로부터 얻은 randomSplit로 (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)지금은 9 가입 할 td내가 그렇게하는 방법, 하나의 데이터 프레임에 s '를? 나는 이미 시도 unionAll했지만이 함수는 두 개의 …

21 python apache-spark cross-validation pyspark

2

팬더에서 두 열로 그룹화 된 값을 합산하는 방법

다음과 같은 Pandas DataFrame이 있습니다. df = pd.DataFrame({ 'Date': ['2017-1-1', '2017-1-1', '2017-1-2', '2017-1-2', '2017-1-3'], 'Groups': ['one', 'one', 'one', 'two', 'two'], 'data': range(1, 6)}) Date Groups data 0 2017-1-1 one 1 1 2017-1-1 one 2 2 2017-1-2 one 3 3 2017-1-2 two 4 4 2017-1-3 two 5 다음과 같이 새 DataFrame을 …

21 python pandas dataframe

3

순환 서수 속성을 변환하는 좋은 방법은 무엇입니까?

내 속성으로 '시간'필드가 있지만 주기적 값이 필요합니다. '23'과 '0'시간과 같은 정보를 유지하기 위해 기능을 어떻게 변환 할 수 있습니까? 내가 생각할 수있는 한 가지 방법은 변환을 수행하는 것입니다. min(h, 23-h) Input: [0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 …

21 feature-extraction feature-scaling featurization

1

미니 배치의 크기를 선택하기위한 규칙이 있습니까?

신경망을 훈련 할 때 하나의 하이퍼 파라미터는 미니 배치의 크기입니다. 일반적인 배치는 미니 배치 당 32, 64 및 128 요소입니다. 미니 배치가 얼마나 큰 규칙 / 지침이 있습니까? 교육에 대한 영향을 조사하는 출판물이 있습니까?

21 neural-network deep-learning convnet optimization

3

Gensim으로 FastText 사전 훈련 된 모델을 어떻게로드합니까?

여기 Fasttext model 에서 fastText pretrained 모델을로드하려고했습니다 . wiki.simple.en을 사용 하고 있습니다 from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) 그러나 다음과 같은 오류가 표시됩니다. Traceback (most recent call last): File "nltk_check.py", line 28, in <module> word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) File "P:\major_project\venv\lib\sitepackages\gensim\models\keyedvectors.py",line 206, in load_word2vec_format header = utils.to_unicode(fin.readline(), encoding=encoding) File …

21 nlp gensim

3

다중 출력 회귀 분석을위한 신경망

34 개의 입력 열과 8 개의 출력 열이 포함 된 데이터 세트가 있습니다. 문제를 해결하는 한 가지 방법은 34 개의 입력을 가져 와서 각 출력 열에 대해 개별 회귀 모델을 작성하는 것입니다. 이 문제를 신경망을 사용하는 하나의 모델로만 해결할 수 있는지 궁금합니다. Multilayer Perceptron을 사용했지만 선형 회귀와 같은 여러 모델이 …

21 neural-network regression tensorflow

5

의사 결정 트리 알고리즘이 선형 또는 비선형입니까?

최근 내 친구가 인터뷰에서 의사 결정 트리 알고리즘이 선형 또는 비선형 알고리즘인지 물었습니다. 이 질문에 대한 답을 찾으려고했지만 만족스러운 설명을 찾지 못했습니다. 누구 든지이 질문에 대한 해결책에 대답하고 설명 할 수 있습니까? 또한 비선형 기계 학습 알고리즘의 다른 예는 무엇입니까?

21 machine-learning classification decision-trees algorithms pac-learning