데이터 과학

데이터 과학 전문가, 기계 학습 전문가 및 현장 학습에 관심이있는 전문가를위한 Q & A


3
유사한 문서를 찾기위한 벡터 공간 모델 코사인 TF-IDF
백만 개가 넘는 문서 모음 주어진 문서에 대해 벡터 공간 모델 에서와 같이 코사인을 사용하여 유사한 문서를 찾으려고 합니다. d1⋅d2/(||d1| | | | 디2| | )d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) 이 tf-idf 와 같이 더 긴 문서에 대한 편견을 방지하기 위해 모든 tf는 기능 보강 된 빈도를 …


3
큰 JSON 데이터 세트에서 PostgreSQL과 MongoDB 중 어느 것이 더 빠릅니까?
나는 ~ 300 바이트의 9m JSON 객체로 큰 데이터 세트를 가지고 있습니다. 기본적으로 링크 (URL, 제목 및 작성자 ID) 및 설명 (텍스트 및 작성자 ID) + 메타 데이터 인 링크 애그리 게이터의 게시물입니다. 하위 레코드를 가리키는 ID를 가진 하나의 배열 필드가 있다는 사실을 제외하고는 테이블에서 관계형 레코드 일 수 있습니다. …

1
단일 RDD를 2 개로 최적으로 분할하는 Spark
특정 매개 변수에 따라 그룹으로 분할 해야하는 큰 데이터 세트가 있습니다. 작업을 가능한 한 효율적으로 처리하고 싶습니다. 그렇게하는 두 가지 방법을 상상할 수 있습니다 옵션 1- 원래 RDD 및 필터에서 맵 작성 def customMapper(record): if passesSomeTest(record): return (1,record) else: return (0,record) mappedRdd = rddIn.map(lambda x: customMapper(x)) rdd0 = mappedRdd.filter(lambda x: …

4
imdb 웹 페이지를 긁는 방법?
데이터 분석을 배우기위한 노력의 일환으로 Python을 사용하여 웹 스크랩 핑을 배우려고합니다. URL이 다음과 같은 imdb 웹 페이지를 긁으려고합니다. http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 BeautifulSoup 모듈을 사용하고 있습니다. 다음은 사용중인 코드입니다. r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) for movie in bs.findAll('td','title'): title = movie.find('a').contents[0] genres = movie.find('span','genre').findAll('a') genres …

1
지도 학습 알고리즘의 여러 레이블
해당 주제의 텍스트 모음이 있습니다. 예를 들어 "A rapper Tupac was shot in LA"로 레이블이 지정되었습니다 ["celebrity", "murder"]. 따라서 기본적으로 각 피처의 벡터에는 많은 레이블이있을 수 있습니다 (같은 양이 아님. 첫 번째 피처 벡터에는 세 개의 레이블, 두 번째 1, 세 번째 5). 각 텍스트에 해당하는 레이블이 하나만 있으면 Naive …

3
로그 파일 분석 : 가치 부분에서 정보 부분 추출
우리 제품 중 하나의 여러 로그 파일에 데이터 세트를 작성하려고합니다. 다른 로그 파일에는 고유 한 레이아웃과 내용이 있습니다. 나는 성공적으로 그룹화했으며 한 단계 만 남았습니다 ... 실제로 "메시지"로그가 최상의 정보입니다. 모든 메시지의 전체 목록을 가지고 있지는 않으며 매일 목록을 변경할 수 있기 때문에 하드 코드를 기반으로 하드 코드를 작성하는 것은 …

2
확장 가능한 이상치 / 이상 탐지
Hadoop, Hive, Elastic Search (다른 무엇보다도)를 사용하여 빅 데이터 인프라를 설정하려고하는데 특정 데이터 세트에 대해 일부 알고리즘을 실행하고 싶습니다. 알고리즘 자체의 확장 성을 원하므로 Weka, R 또는 RHadoop과 같은 도구를 사용하는 것을 제외합니다. 아파치 두싯 도서관은 좋은 옵션이 될 것 같다, 그리고 기능 회귀 및 클러스터링 작업에 대한 알고리즘을 . …

2
온라인 머신 러닝을위한 라이브러리
온라인 학습을 수행하여 재고 데이터를 예측할 패키지 (python, R 또는 독립형 패키지)를 찾고 있습니다. Vowpal Wabbit ( https://github.com/JohnLangford/vowpal_wabbit/wiki )를 발견하고 읽었으며 꽤 유망한 것처럼 보이지만 다른 패키지가 있는지 궁금합니다. 미리 감사드립니다.

1
R의 그래프에 대한 라이브러리 (라벨 전파 알고리즘 / 자주 그래프 마이닝)
문제에 대한 일반적인 설명 일부 정점이 3 또는 4 개의 가능한 값이있는 유형으로 레이블이 지정된 그래프가 있습니다. 다른 정점의 경우 유형을 알 수 없습니다. 내 목표는 레이블이없는 정점의 유형을 예측하기 위해 그래프를 사용하는 것입니다. 가능한 프레임 워크 나는 문학의 내 독서에 따라 라벨 전파 문제의 일반적인 프레임 워크로이 맞는 의심 …

2
체스에서 시간적 차이 구현
알파-베타 가지 치기 알고리즘과 재료, 왕의 안전성, 이동성, 폰 구조 및 갇힌 조각 등을 사용하여 위치를 평가하는 평가 기능을 사용하는 체스 프로그램을 개발하고 있습니다. 에서 파생 된 에프( p ) = w1⋅ 재료 + w2⋅ kingsafety + 승삼⋅ 이동성 + w4⋅ 폰 구조형 + w5⋅ 갇힌 조각에프(피)=승1⋅재료+승2⋅왕의 안전+승삼⋅유동성+승4⋅폰 구조+승5⋅갇힌 조각f(p) …

2
시끄러운 문자열 목록에서 표준 문자열 추출
나는 수천 개의 문자열 목록을 가지고 있으며 각 목록에는 약 10 개의 문자열이 있습니다. 주어진 목록에있는 대부분의 문자열은 매우 유사하지만 일부 문자열은 다른 문자열과 거의 관련이 없으며 일부 문자열에는 관련이없는 단어가 포함되어 있습니다. 그것들은 표준 문자열의 시끄러운 변형으로 간주 될 수 있습니다. 각 목록을이 표준 문자열로 변환하는 알고리즘이나 라이브러리를 찾고 …

4
여러 유형의 모델이 왜 거의 동일한 결과를 낼 수 있습니까?
~ 400k 레코드와 9 개 변수의 데이터 세트를 분석했습니다. 종속 변수는 이진입니다. 로지스틱 회귀, 회귀 트리, 임의의 숲 및 그라디언트 강화 트리를 장착했습니다. 다른 데이터 세트에서 유효성을 검사 할 때 모두 동일한 똑같은 적합도를 제공합니다. 왜 그렇습니까? 가변 비율에 대한 나의 관측치가 너무 높기 때문이라고 생각합니다. 이것이 정확하다면, 어떤 모델 …

4
대용량 데이터 세트를 이해하려면 어떤 초기 단계를 사용해야합니까? 어떤 도구를 사용해야합니까?
주의 사항 : 머신 러닝은 초보자이지만 배우기를 간절히 원합니다. 큰 데이터 세트가 있으며 패턴을 찾으려고합니다. 알려진 변수 또는 데이터에 포함되어 있지만 아직 깨닫지 못한 변수와 함께 데이터 전체에 상관 관계가있을 수 있습니다. 실제로는 변수 / 관련이 있습니다. 나는 이것이 데이터 분석 세계에서 익숙한 문제 일 것이라고 추측하고 있습니다. 그래서 몇 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.