답변:
줄리아 프로젝트는 내가 적극적으로 고급 컴퓨팅 및 XGBoost 라이브러리를 포함에 기여하는 것입니다. 그래서 나는 그것이 유지와 공동체의 질이라는 것을 확실히 보증 할 수 있습니다.
초보자도 참여할 수있는 정말 훌륭한 오픈 소스 데이터 과학 프로젝트는 다음과 같습니다.
이러한 프로젝트에 대한 Quora 토론 과이 답변에 언급되지 않은 일부 내용이 있습니다.
다음은 Python의 오픈 소스 데이터 과학 및 ML 프로젝트에 대한 또 다른 멋진 토론 입니다.
많은 것들이 있습니다. 나는 이것을 할 수 있는지 알지 못하지만 (잘못되면 알려주세요) 개발하고 git hub에서 이미 2 년이 넘었습니다 (실제로 github보다 1 년 전에 시작되었습니다). 이 프로젝트는 rapaio라고 하고 여기 에 git hub 에 있으며 최근에는 매뉴얼을 작성하기 시작했습니다 (친구 중 일부가 나에게 물었습니다). 매뉴얼은 여기 에서 찾을 수 있습니다 .
Java 8로 기꺼이 개발하려는 경우, 도구를 직접 사용하거나 실험하고 싶다면 필요에 맞습니다. 내가 적용하는 두 가지 원칙이 있습니다. 첫 번째는 필요할 때만 무언가를 쓰는 것 입니다. 도구가 필요할 때만 출력, 성능, 정보 측면에서 실제로 원하는 것을 알 수 있기 때문입니다. 두 번째 원칙은 jdk에만 의존한다는 것입니다 . 필요한 것이 있으면 작성하십시오 . 나는 구식이라는 것에 동의 할 수 있지만, 이러한 방식으로 목적에 맞는 기능을 조정할 수 있습니다.
내가 aswer로 그렇게 할 수 없다면 다시 알려주세요. 오픈 소스 이니셔티브이기 때문에 이익 유형의 프로젝트 가없는 사람들에게 무언가를 돌려주는 것은 내가 그것을 할 수없는 이유를 알 수 없습니다.
github 에서이 프로젝트를 확인하십시오 : https://github.com/josephmisiti/awesome-machine-learning . 여기에는 언어별로 그룹화 된 포괄적 인 오픈 소스 프로젝트 목록과 간단한 설명이 포함되어 있습니다. 나는 당신이 당신의 요구를 충족시키는 그들 중 일부를 찾을 수 있다고 생각합니다.
ELKI ( GitHub 에도 있음 )는 데이터 마이닝 및 데이터 과학 오픈 소스 프로젝트입니다. 모듈 식 아키텍처와 관련하여 고유합니다. 알고리즘, 거리 함수 및 인덱스를 몇 가지 제한없이 가속을 위해 결합 할 수 있습니다 (물론 거리를 사용하지 않는 알고리즘은 거리와 결합 할 수 없음). 효율성으로 인해 가장 쉬운 코드는 아닙니다. 데이터 마이닝의 경우 메모리에주의를 기울여야 ArrayList<Integer>
합니다. 확장 성을 원한다면 사용이 번거롭지 않습니다.
모듈 식 아키텍처로 인해 단일 거리 함수 또는 알고리즘과 같은 작은 모듈 만 쉽게 기여할 수 있습니다.
난이도별로 그룹화 된 데이터 마이닝 프로젝트 아이디어 목록을 유지합니다 . 대부분의 프로젝트는 일부 변형 알고리즘을 구현 한 것입니다. ELKI는 알고리즘의 비교 연구를 허용하는 것을 목표로하므로 모든 조합을 허용하고 알고리즘의 변형도 다룹니다. 예를 들어 k-means의 경우 Lloyds 알고리즘뿐만 아니라 일반적인 k-means 테마의 10 가지 변형이 있습니다. ELKI에서는 220 개가 넘는 기사가 (적어도 부분적으로) 다시 구현되었습니다.
동일한 도구로 모든 것을 구현함으로써 훨씬 더 비슷한 결과를 얻을 수 있습니다. 벤치마킹에 R을 사용하는 경우 일반적으로 사과와 오렌지를 비교합니다. R 자체의 k- 평균은 실제로 오래된 포트란 프로그램이며 매우 빠릅니다. R에서는 k- 평균이지만 "flexclust"패키지에서는 실제 R 코드로 작성되므로 100 배 느립니다. 따라서 R의 벤치 마크를 믿지 마십시오 ... 또한 R 모듈은 호환되지 않는 경향이 있으므로 모듈 B의 알고리즘 B와 모듈 A의 거리 A를 사용할 수 없습니다 .ELKI에서는 많은 코드를 공유하려고합니다. 구현 전반에 걸쳐 이러한 아티팩트를 줄일 수 있습니다 (물론 100 % 공정한 벤치 마크를 가질 수는 없습니다-항상 최적화의 여지가 있습니다). 또한 모듈을 쉽게 결합 할 수 있습니다.
Hartigan & Wong k-means 변형과 같은 작은 것으로 시작한 다음 구형 k- 평균 (다양한 성능 최적화가 필요할 수있는 희소 데이터를 의미)으로 계속 진행하여 범주 형 데이터에 대한 더 나은 지원을 계속 추가 할 수 있습니다. 또는 색인 기능 추가.
또한 ELKI의 더 나은 UI를보고 싶지만 이는 큰 노력입니다.