데이터 과학 data-mining

3

응용 프로그램을 프로토 타이핑하고 있으며 생성 된 일부 문장의 난이도를 계산하려면 언어 모델이 필요합니다. 파이썬에서 쉽게 사용할 수있는 훈련 된 언어 모델이 있습니까? 간단한 것 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 일부 프레임 워크를 …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

2

머신 러닝 모델을 훈련시키기에 충분한 데이터가 있습니까?

저는 머신 러닝과 생물 정보학을 한동안 연구 해 왔으며, 오늘 저는 데이터 마이닝의 주요 일반 문제에 대해 동료와 대화를 나누었습니다. 기계 학습 전문가 인 제 동료는 머신 러닝의 가장 중요한 실질적인 측면은 머신 러닝 모델을 훈련시키기에 충분한 데이터를 수집했는지 여부를 이해하는 방법이라고 말했습니다 . 이 말은 내가이면에서 그토록 큰 중요성을 …

11 machine-learning data-mining dataset data-cleaning data

4

임의의 숲에서 과적 합을 피하는 방법?

임의의 포리스트에서 과적 합을 피하고 싶습니다. 이와 관련하여 mtry, nodesize 및 maxnodes 등을 사용하려고합니다. 이러한 매개 변수의 값을 선택하도록 도와 주시겠습니까? R을 사용하고 있습니다. 또한 가능한 경우 임의 포리스트 (R)에서 k- 폴드 크로스 유효성 검사를 사용하는 방법을 알려주십시오.

11 machine-learning data-mining r predictive-modeling random-forest

7

LinkedIn 웹 스크래핑

최근 에 LinkedIn API에 연결하기위한 새로운 R 패키지 를 발견했습니다 . 불행히도 LinkedIn API는 시작하기에 꽤 제한적입니다. 예를 들어 회사에 대한 기본 데이터 만 얻을 수 있으며 개인의 데이터와 분리됩니다. 특정 회사의 모든 직원에 대한 데이터를 얻고 싶습니다 . 사이트에서 수동으로 수행 할 수 있지만 API를 통해 불가능합니다. import.io 가 …

11 data-mining social-network-analysis crawling scraping

3

KS, AUROC 및 Gini의 관계

Kolmogorov–Smirnov 검정 (KS), AUROC 및 Gini 계수 와 같은 일반적인 모델 검증 통계 는 모두 기능적으로 관련되어 있습니다. 그러나 내 질문은 이것이 어떻게 관련되어 있는지 증명하는 것과 관련이 있습니다. 이 관계를 증명할 수있는 사람이 있는지 궁금합니다. 온라인에서 아무것도 찾을 수 없었지만 증거의 작동 방식에 진심으로 관심이 있습니다. 예를 들어 Gini …

11 data-mining statistics predictive-modeling accuracy

4

HPC 클러스터 작업

우리 대학에는 HPC 컴퓨팅 클러스터가 있습니다. 클러스터를 사용하여 분류 자 등을 교육합니다. 따라서 일반적으로 작업을 클러스터로 보내려면 (예 : python scikit-learn 스크립트)와 같은 명령을 포함하는 Bash 스크립트를 작성해야합니다 qsub script.py. 그러나 나는이 과정이 매우 실망 스럽다는 것을 안다. 일반적으로 노트북에 파이썬 스크립트를 작성한 다음 서버에 로그인하여 SVN 저장소를 업데이트하므로 동일한 …

11 bigdata data-mining

3

과학 컴퓨팅을위한 최고의 언어

폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 대부분의 언어에는 몇 가지 과학 컴퓨팅 라이브러리가 있습니다. 파이썬은 Scipy Rust 있다 SciRust C++이 등 여러 가지 ViennaCL와Armadillo …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

4

자주 구매하는 품목 시각화

CSV 파일에 다음 구조의 데이터 세트가 삽입되어 있습니다. Banana Water Rice Rice Water Bread Banana Juice 각 행은 함께 구매 한 품목의 모음을 나타냅니다. 예를 들어, 첫 번째 행은 항목 것을 나타내고 Banana, Water와 Rice함께 구입 하였다. 다음과 같은 시각화를 만들고 싶습니다. 이것은 기본적으로 그리드 차트이지만 입력 구조를 읽고 위와 …

10 python r data-mining visualization association-rules

3

큰 JSON 데이터 세트에서 PostgreSQL과 MongoDB 중 어느 것이 더 빠릅니까?

나는 ~ 300 바이트의 9m JSON 객체로 큰 데이터 세트를 가지고 있습니다. 기본적으로 링크 (URL, 제목 및 작성자 ID) 및 설명 (텍스트 및 작성자 ID) + 메타 데이터 인 링크 애그리 게이터의 게시물입니다. 하위 레코드를 가리키는 ID를 가진 하나의 배열 필드가 있다는 사실을 제외하고는 테이블에서 관계형 레코드 일 수 있습니다. …

10 data-mining bigdata databases sql mongodb

4

imdb 웹 페이지를 긁는 방법?

데이터 분석을 배우기위한 노력의 일환으로 Python을 사용하여 웹 스크랩 핑을 배우려고합니다. URL이 다음과 같은 imdb 웹 페이지를 긁으려고합니다. http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 BeautifulSoup 모듈을 사용하고 있습니다. 다음은 사용중인 코드입니다. r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) for movie in bs.findAll('td','title'): title = movie.find('a').contents[0] genres = movie.find('span','genre').findAll('a') genres …

10 data-mining python scraping

2

확장 가능한 이상치 / 이상 탐지

Hadoop, Hive, Elastic Search (다른 무엇보다도)를 사용하여 빅 데이터 인프라를 설정하려고하는데 특정 데이터 세트에 대해 일부 알고리즘을 실행하고 싶습니다. 알고리즘 자체의 확장 성을 원하므로 Weka, R 또는 RHadoop과 같은 도구를 사용하는 것을 제외합니다. 아파치 두싯 도서관은 좋은 옵션이 될 것 같다, 그리고 기능 회귀 및 클러스터링 작업에 대한 알고리즘을 . …

10 data-mining bigdata algorithms outlier

4

여러 유형의 모델이 왜 거의 동일한 결과를 낼 수 있습니까?

~ 400k 레코드와 9 개 변수의 데이터 세트를 분석했습니다. 종속 변수는 이진입니다. 로지스틱 회귀, 회귀 트리, 임의의 숲 및 그라디언트 강화 트리를 장착했습니다. 다른 데이터 세트에서 유효성을 검사 할 때 모두 동일한 똑같은 적합도를 제공합니다. 왜 그렇습니까? 가변 비율에 대한 나의 관측치가 너무 높기 때문이라고 생각합니다. 이것이 정확하다면, 어떤 모델 …

10 data-mining classification binary

4

대용량 데이터 세트를 이해하려면 어떤 초기 단계를 사용해야합니까? 어떤 도구를 사용해야합니까?

주의 사항 : 머신 러닝은 초보자이지만 배우기를 간절히 원합니다. 큰 데이터 세트가 있으며 패턴을 찾으려고합니다. 알려진 변수 또는 데이터에 포함되어 있지만 아직 깨닫지 못한 변수와 함께 데이터 전체에 상관 관계가있을 수 있습니다. 실제로는 변수 / 관련이 있습니다. 나는 이것이 데이터 분석 세계에서 익숙한 문제 일 것이라고 추측하고 있습니다. 그래서 몇 …

10 machine-learning data-mining tools beginner

1

사용 가능한 사용자 제품 긍정적 (클릭 데이터) 부정 클릭 데이터를 생성하는 방법은 무엇입니까?

권장 사항에 따르면 "클릭"과 같이 레이블이있는 사용자 제품 데이터가있는 것이 일반적입니다. 모델을 배우려면 클릭 앤 클릭 데이터가 필요합니다. 생성하는 가장 간단한 방법은 클릭 데이터에서 찾을 수없는 사용자 제품 쌍을 취하는 것입니다. 그러나 오해의 소지가 있습니다. 예: user1, product1 (click) user2, product2 (click) user2, product3 (click) user3, product2 (click) product1을 제외한 …

10 machine-learning data-mining

1

이전 Convolutional Layer의 델타 항과 가중치를 고려하여 Convolutional Layer의 델타 항을 어떻게 계산합니까?

두 개의 회선 레이어 (c1, c2)와 두 개의 숨겨진 레이어 (c1, c2)로 인공 신경망을 훈련하려고합니다. 표준 역 전파 접근법을 사용하고 있습니다. 역방향 패스에서 이전 레이어의 오류, 이전 레이어의 가중치 및 현재 레이어의 활성화 기능에 대한 활성화의 기울기를 기반으로 레이어의 델타 항을 계산합니다. 보다 구체적으로 l 계층의 델타는 다음과 같습니다. delta(l) …

10 machine-learning data-mining neural-network deep-learning

«data-mining» 태그된 질문