답변:
R- 프로젝트
R은 빅 박스 패키지에 대한 최초의 널리 알려진 오픈 소스 대안 이었기 때문에 가치 있고 중요합니다. 그것은 많은 과학계에서 성숙하고 잘 지원되며 표준입니다.
이것은 망각으로 떨어질 수 있지만, 나는 행복하게 Matlab 클론 옥타브 를 오랫동안 사용했습니다. 이 R. 비하면 정말 왜소 분명하지만 등 다양한 분포, 통계적 테스트에서 확률 변수의 생성 옥타브 대장간에서 상당히 좋은 도서관이있다 R을 통해 한 가지 장점은 matlab에 / 옥타브는 점이다 공용어 수치 분석, 최적화 연구자들 사이가 , 응용 수학자의 일부 하위 집합 (적어도 학교에있을 때는)은 내 부서의 아무도 내 지식에 R. 내 손실을 사용하지 않았습니다. 가능하면 둘 다 배우십시오!
데이터 마이닝을위한 Weka -Java의 많은 분류 및 클러스터링 알고리즘이 포함되어 있습니다.
ggobi는 "고차원 데이터를 탐색하기위한 오픈 소스 시각화 프로그램입니다."
Mat Kelcey는 ggobi에 대한 5 분의 소개를 가지고 있습니다.
Incanter 는 통계 컴퓨팅 및 그래픽을위한 Clojure 기반의 R 형 플랫폼 (환경 + 라이브러리)입니다.
FSF가 시작하거나 GNU General Public License에 따라 재배포 된 프로젝트는 다음과 같습니다.
JMulTi 와 같은 교과서 용 보조 소프트웨어로 출시 된 응용 프로그램도 있지만 여전히 소수의 사람들이 사용하고 있습니다.
Lisp가 R에 의해 대체되었지만 여전히 xlispstat로 계속 놀고 있습니다 ( Journal of Statistical Software의 Lisp vs. R 에 대한 Jan de Leeuw의 개요 참조 ). 흥미롭게도 R 언어의 공동 창립자 중 한 명인 Ross Ihaka는 통계 소프트웨어의 미래가 반대라고 주장했습니다. Lisp : 미래로 돌아 가기 : 통계 컴퓨팅 시스템의 기반으로서 Lisp . @Alex는 이미 Clojure 기반 통계 환경 Incanter를 지적 했으므로 가까운 시일 내에 Lisp 기반 소프트웨어의 부활을 볼 수 있을까요? :-)
데이터 및 텍스트 마이닝을위한 RapidMiner
우선, 제가 생각하기에 지금까지 가장 좋은 도구는 R인데, 여기에는 수많은 라이브러리와 유틸리티가 있습니다.
weka에 대한 토론을 확장하겠습니다
R에 쉽게 설치할 수있는 RWeka라는 R 용 라이브러리가 있으며이 훌륭한 프로그램의 많은 기능과 R의 기능을 함께 사용할 수 있습니다. 간단한 의사 결정 트리를 수행하기위한 코드 예제를 제공하겠습니다. 이 패키지와 함께 제공되는 표준 데이터베이스에서 읽습니다 (결과 트리를 그리는 것도 매우 쉽지만 RWeka 문서에있는이를 수행하는 방법에 대한 연구를 할 것입니다).
library(RWeka)
iris <- read.arff(system.file("arff", "iris.arff", package = "RWeka"))
classifier <- IBk(class ~., data = iris)
summary(classifier)
이 작업을 수행하기위한 몇 가지 파이썬 라이브러리도 있습니다 (파이썬은 매우 배우기 매우 쉽습니다)
먼저 사용할 수있는 패키지를 열거하겠습니다. 자세한 내용은 다루지 않겠습니다. Weka (예, Python 용 라이브러리가 있음), NLKT (데이터 마이닝 외에도 텍스트 마이닝을위한 가장 유명한 오픈 소스 패키지), statPy , sickits 및 scipy.
또한 오렌지가 우수합니다 (나중에 이야기 할 것입니다) .cmpart1 테이블의 데이터에서 트리를 수행하는 코드 예제는 10 배 유효성 검사를 수행하며 트리를 그래프로 표시 할 수도 있습니다
import orange, orngMySQL, orngTree
data = orange.ExampleTable("c:\\python26\\orange\\cmpart1.tab")
domain=data.domain
n=10
buck=len(data)/n
l2=[]
for i in range(n):
tmp=[]
if i==n-1:
tmp=data[n*buck:]
else:
tmp=data[buck*i:buck*(i+1)]
l2.append(tmp)
train=[]
test=[]
di={'yy':0,'yn':0,'ny':0,'nn':0}
for i in range(n):
train=[]
test=[]
for j in range(n):
if j==i:
test=l2[i]
else:
train.extend(l2[j])
print "-----"
trai=orange.Example(domain, train)
tree = orngTree.TreeLearner(train)
for ins in test:
d1= ins.getclass()
d2=tree(ins)
print d1
print d2
ind=str(d1)+str(d2)
di[ind]=di[ind]+1
print di
다른 패키지로 끝내기 위해 사용하고 흥미로운 것을 발견했습니다.
주황색 : 초보자 및 전문가를위한 데이터 시각화 및 분석 비주얼 프로그래밍 또는 Python 스크립팅을 통한 데이터 마이닝. 기계 학습을위한 구성 요소. 생물 정보학 및 텍스트 마이닝을위한 확장. (나는 개인적으로 이것을 추천하고, 그것을 파이썬에 통합하는 데 많이 사용했으며 우수했습니다.) 원하는 경우 파이썬 코드를 보낼 수 있습니다.
ROSETTA : 거친 집합 이론의 틀 내에서 테이블 형식 데이터를 분석하기위한 툴킷. ROSETTA는 전체 데이터 마이닝 및 지식 발견 프로세스를 지원하도록 설계되었습니다. 데이터의 초기 탐색 및 사전 처리에서 최소 속성 세트 계산 및 if-then 규칙 또는 설명 패턴 생성을 통해 유도 된 규칙 또는 패턴의 유효성 검증 및 분석에 이르기까지 . (이것은 또한 매우 많이 사용하는 것을 즐겼습니다)
KEEL : 회귀, 분류, 클러스터링, 패턴 마이닝 등 데이터 마이닝 문제에 대한 진화 알고리즘을 평가합니다. 이를 통해 비교를위한 통계 테스트 모듈을 포함하여 기존 학습 모델과 비교하여 모든 학습 모델을 완벽하게 분석 할 수 있습니다.
DataPlot : 과학적 시각화, 통계 분석 및 비선형 모델링 용. 대상 Dataplot 사용자는 과학 및 엔지니어링 프로세스의 특성화, 모델링, 시각화, 분석, 모니터링 및 최적화에 종사하는 연구원 및 분석가입니다.
Openstats : 통계 및 측정 입문서, 설명 통계, 단순 비교, 분산 분석, 상관 관계, 다중 회귀 분석, 중단 된 시계열, 다변량 통계, 비모수 통계, 측정, 통계적 프로세스 제어, 재무 절차, 신경망, 시뮬레이션
Colin Gillespie는 BUGS를 언급했지만 Gibbs Sampling 등에 대한 더 나은 옵션은 JAGS 입니다.
ARIMA 뿐이라면 X12-ARIMA를 능가 할 수 없습니다. X12-ARIMA 는 현장 및 오픈 소스의 금본위 제입니다. 실제 그래프는 수행하지 않지만 (R을 사용하여 수행) 진단은 자체적으로 교훈입니다.
내가 최근에 발견하고 방금 배우기 시작한 것에 조금 더 멀어 지다가 ...
ADMC (AD Model Builder) : MCMC와 몇 가지 다른 기능을 사용하여 AUTODIF 라이브러리를 기반으로하는 비선형 모델링을 수행합니다.이 모델은 모델을 C ++ 실행 파일로 사전 처리 및 컴파일 한 후 독립형 앱으로 컴파일합니다. R, MATLAB 등에서 구현 된 동등한 모델보다 훨씬 빠릅니다. ADMB 프로젝트
그것은 수산 세계에서 시작되어 여전히 인기가 있지만 다른 목적으로는 상당히 흥미로워 보입니다. R의 그래프 또는 기타 기능이 없으며 R과 함께 사용될 가능성이 높습니다.
GUI에서 Bayesian Networks와 함께 작업하려는 경우 SamIam 은 훌륭한 도구입니다. R은 이것을 수행하는 몇 가지 패키지를 가지고 있지만 SamIam은 매우 좋습니다.
C / C ++로 프로그래밍하려는 사람들을위한 GSL 은 무작위 생성기, 선형 대수학 등 여러 루틴을 제공하므로 귀중한 리소스입니다. GSL은 주로 Linux에서 사용할 수 있지만 Windows 용 포트도 있습니다. ( http://gladman.plushost.co.uk/oldsite/computing/gnu_scientific_library.php 및 http://david.geldreich.free.fr/dev.html 참조 )
나는 그 제이 두 번째. R이 왜 가치가 있습니까? 다음은 간단한 이유 목록입니다. http://www.inside-r.org/why-use-r . 또한 ggplot2 -R을위한 매우 멋진 그래픽 패키지를 확인 하십시오 . 여기에 몇 가지 훌륭한 튜토리얼이 있습니다 .
Meta.Numerics 는 통계 분석을 잘 지원하는 .NET 라이브러리입니다.
R (S 클론) 및 Octave (Matlab 클론)와 달리 "프론트 엔드"가 없습니다. 통계 분석을 수행해야하는 자체 애플리케이션을 작성할 때 링크하는 라이브러리라는 점에서 GSL과 유사합니다. C # 및 Visual Basic은 업무용 앱의 경우 C / C ++보다 일반적인 프로그래밍 언어이며 Meta.Numerics는 GSL보다 통계적 구성 및 테스트에 대한 광범위한 지원을 제공합니다.
상징적 수학 소프트웨어도 통계를 잘 지원할 수 있습니다. 다음은 때때로 사용하는 몇 가지 GPL입니다.
세 가지 모두 적극적으로 개발 중입니다.