데이터 과학

데이터 과학 전문가, 기계 학습 전문가 및 현장 학습에 관심이있는 전문가를위한 Q & A

6
딥 러닝 기본 사항
딥 러닝의 기본 사항을 자세히 설명하는 논문을 찾고 있습니다. 딥 러닝을위한 Andrew Ng 과정과 같은 것이 이상적입니다. 내가 어디에서 찾을 수 있는지 아십니까?

5
파이썬에서 KL 분기 계산
나는 이것에 익숙하지 않으며 이것 뒤에 이론적 개념을 완전히 이해하고 있다고 말할 수 없습니다. 파이썬에서 여러 포인트 목록 사이의 KL 분기를 계산하려고합니다. 이것을 시도하기 위해 http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html 을 사용 하고 있습니다. 내가 겪고있는 문제는 반환 된 값이 두 숫자 목록 (1.3862943611198906)과 동일하다는 것입니다. 나는 여기서 어떤 종류의 이론적 실수를 저지르고 있지만 …

4
데이터 과학은 데이터 마이닝과 동일합니까?
이 포럼에서 논의 할 데이터 과학에는 여러 데이터가 분석되는 동의어 나 최소한 관련된 필드가 있습니다. 내 특정 질문은 데이터 마이닝에 관한 것입니다. 몇 년 전에 데이터 마이닝에서 대학원 수업을 들었습니다. 데이터 과학과 데이터 마이닝의 차이점은 무엇이며 특히 데이터 마이닝에 능숙 해지려면 무엇을 더 살펴 봐야합니까?

3
직장에서의 기대치를 어떻게 관리합니까?
데이터 과학, 머신 러닝 및 모든 성공 사례에 관한 모든 우파와 함께, 데이터 과학자와 예측 모델에 대한 정당한 기대와 지나치게 부풀려진 기대 모두가 많이 있습니다. 통계 학자, 머신 러닝 전문가 및 데이터 과학자 실습에 대한 나의 질문은, 특히 모델의 예측 정확도와 관련하여 회사의 비즈니스맨의 기대치를 어떻게 관리 하는가입니다. 간단히 말해서, …

2
계절성 또는 기타 패턴의 변화를 나타내는 시계열을 처리하는 방법은 무엇입니까?
배경 에너지 미터 판독 값의 시계열 데이터 세트를 작업 중입니다. 시리즈의 길이는 미터에 따라 다릅니다. 일부는 몇 년 동안, 다른 일부는 몇 개월에 불과합니다. 많은 사람들이 일, 주 또는 연도 내에 상당한 계절 성과 종종 여러 레이어를 표시합니다. 내가 작업 한 것 중 하나는 이러한 시계열의 클러스터링입니다. 저의 작업은 현재 …


2
PASCAL VOC Challenge의 탐지 작업에 대한 MAP를 계산하는 방법은 무엇입니까?
Pascal VOC 리더 보드의 감지 작업에 대한 mAP (평균 평균 정밀도)를 계산하는 방법은 무엇입니까? http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=4 11 페이지 에서 : http://homepages.inf.ed.ac.uk/ckiw/postscript/ijcv_voc09.pdf 평균 정밀도 (AP). VOC2007 챌린지의 경우, 보간 평균 정밀도 (Salton and Mcgill 1986)를 사용하여 분류 및 탐지를 평가했습니다. 주어진 작업과 클래스에 대해 정밀도 / 리콜 곡선은 메서드의 순위 출력에서 ​​계산됩니다. …

4
keras 모델의 정확도, F1, 정밀도 및 리콜을 얻는 방법?
바이너리 KerasClassifier 모델의 정밀도, 리콜 및 F1- 점수를 계산하고 싶지만 해결책을 찾지 못했습니다. 내 실제 코드는 다음과 같습니다. # Split dataset in train and test data X_train, X_test, Y_train, Y_test = train_test_split(normalized_X, Y, test_size=0.3, random_state=seed) # Build the model model = Sequential() model.add(Dense(23, input_dim=45, kernel_initializer='normal', activation='relu')) model.add(Dense(1, kernel_initializer='normal', activation='sigmoid')) # …

3
PySpark에서 여러 데이터 프레임을 행 단위로 병합
나는 10 개 데이터 프레임이 pyspark.sql.dataframe.DataFrame로부터 얻은 randomSplit로 (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)지금은 9 가입 할 td내가 그렇게하는 방법, 하나의 데이터 프레임에 s '를? 나는 이미 시도 unionAll했지만이 함수는 두 개의 …

2
팬더에서 두 열로 그룹화 된 값을 합산하는 방법
다음과 같은 Pandas DataFrame이 있습니다. df = pd.DataFrame({ 'Date': ['2017-1-1', '2017-1-1', '2017-1-2', '2017-1-2', '2017-1-3'], 'Groups': ['one', 'one', 'one', 'two', 'two'], 'data': range(1, 6)}) Date Groups data 0 2017-1-1 one 1 1 2017-1-1 one 2 2 2017-1-2 one 3 3 2017-1-2 two 4 4 2017-1-3 two 5 다음과 같이 새 DataFrame을 …



3
Gensim으로 FastText 사전 훈련 된 모델을 어떻게로드합니까?
여기 Fasttext model 에서 fastText pretrained 모델을로드하려고했습니다 . wiki.simple.en을 사용 하고 있습니다 from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) 그러나 다음과 같은 오류가 표시됩니다. Traceback (most recent call last): File "nltk_check.py", line 28, in <module> word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) File "P:\major_project\venv\lib\sitepackages\gensim\models\keyedvectors.py",line 206, in load_word2vec_format header = utils.to_unicode(fin.readline(), encoding=encoding) File …
21 nlp  gensim 

3
다중 출력 회귀 분석을위한 신경망
34 개의 입력 열과 8 개의 출력 열이 포함 된 데이터 세트가 있습니다. 문제를 해결하는 한 가지 방법은 34 개의 입력을 가져 와서 각 출력 열에 대해 개별 회귀 모델을 작성하는 것입니다. 이 문제를 신경망을 사용하는 하나의 모델로만 해결할 수 있는지 궁금합니다. Multilayer Perceptron을 사용했지만 선형 회귀와 같은 여러 모델이 …

5
의사 결정 트리 알고리즘이 선형 또는 비선형입니까?
최근 내 친구가 인터뷰에서 의사 결정 트리 알고리즘이 선형 또는 비선형 알고리즘인지 물었습니다. 이 질문에 대한 답을 찾으려고했지만 만족스러운 설명을 찾지 못했습니다. 누구 든지이 질문에 대한 해결책에 대답하고 설명 할 수 있습니까? 또한 비선형 기계 학습 알고리즘의 다른 예는 무엇입니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.