자동화 된 기계 학습은 꿈입니까?


12

머신 러닝을 발견하면 다음과 같은 흥미로운 기술이 나타납니다.

  • 자동 같은 기법 튜닝 알고리즘 grid search,
  • 동일한 "유형"의 서로 다른 알고리즘을 조합하여보다 정확한 결과를 얻을 수 있습니다 boosting.
  • 서로 다른 알고리즘 (동일한 유형의 알고리즘은 아님)의 조합을 통해보다 정확한 결과를 얻을 수 있습니다 stacking.
  • 아마 더 많은 것을 여전히 발견해야 할 것입니다 ...

내 질문은 다음과 같습니다. 모든 조각이 있습니다. 그러나 입력 정리 데이터로 사용하고 모든 기술을 최대한 활용하여 좋은 결과를 출력하는 알고리즘을 만들기 위해 그것들을 조합 할 수 있습니까? (물론 전문적인 데이터 과학자보다 효율성이 떨어질 수 있지만, 나보다 더 나을 것입니다!) 그렇다면, 샘플 코드가 있거나 그렇게 할 수있는 프레임 워크를 알고 있습니까?

편집 : 일부 답변 후 일부 축소를 수행해야합니다. 예를 들어, 범주 형 데이터가 포함 된 하나의 열이 있고,이를 호출하고 더미 또는 실제 숫자 데이터 (높이, 온도) 인 y숫자 데이터에서 예측하려고합니다 X. 청소가 이미 완료된 것으로 가정합니다. 이러한 데이터를 가져 와서 예측을 출력 할 수있는 기존 알고리즘이 있습니까? (여러 알고리즘을 테스트하고, 조정하고, 부스팅하는 등의 방법으로) 예인 경우, 계산 효율성이 높으며 (일반 알고리즘과 비교할 경우 합리적인 시간에 계산이 수행됩니까) 코드 예제가 있습니까?


1
아마도 AI가 강해질 때까지는 아닐 것입니다.
gung-Monica Monica 복원

1
자동 튜닝과 관련하여 기계 학습의 하이퍼 파라미터 검색에 대한 정보를 얻을 수 있습니다 . 그리드 검색은 하이퍼 파라미터를 최적화하는 끔찍한 방법입니다.
Marc Claesen

2
마십시오 당신 너무 많이 사용하는 서식을 ?
Sycorax는 Reinstate Monica

2
예를 들어 Crystal Ball과 같이 설명하는 제품이 있습니다 . 나는 개인적으로 그들을 믿지 않지만 당신이 쓴대로 : 그들은 통계에 대한 단서가없는 사람보다 일을 더 잘합니다
Aksakal

1
Rob Hyndman은 프레젠테이션 auto.arima에서 ( forecast도서관의) 예측 이 인간보다 낫습니다. 따라서 어떤 종류의 "자동 학습"이 성공적으로 적용되는 영역이 있습니다.

답변:


7

어떤 종류의 데이터를 제공하는지 미리 알고 있다면 ( "CPG의 월별 판매, 가격 및 판촉 마커, 포인트 예측을 원합니다") 미리 설정을 조정할 수 있습니다. 가능하고 이미 수행 된 특정 작업에 대해서는 다양한 "전문가 시스템"을 참조하십시오.

어떤 종류의 데이터를 가져 와서 "유용한"것을 할 수있는 것을 찾고 있다면 ( "ah, 필자는 필기 및 출력 우편 번호를 인식해야하며, 사기 탐지를해야합니다.이 입력 파일은 분명히 신용 평가 업무입니다 "), 아니요, 오랜 시간이 걸릴 것이라고 생각하지 않습니다.

의견 기반 질문으로 잘 닫힐 수있는 의견 기반 답변에 대해 죄송합니다.


편집 된 질문을 해결하기 위해 편집 :

yX

y


나는 당신 덕분에 내 질문을 편집했습니다. 첫 번째 부분은 "입력 내용을 가져 와서 결과를 던지십시오"이며, 귀하의 답변은 실제로 통찰력이 있으며 두 번째 부분은 "특정 유형의 질문 및 데이터 형식에 대해 나를 찾으십시오." 결과".
Pholochtairze

다양한 문제에 대한 딥 러닝의 엄청난 성공을 감안할 때 마지막 단락이 여전히 확실하지 않습니다. 이러한 방법은 확실히 일반적인 목적이지만 컴퓨터 비전 및 NLP와 같은 여러 응용 분야에서 레코드를 보유합니다. 아키텍처마다 작업마다 차이가있을 수 있지만 이론적으로는 완전히 연결된 딥 네트워크가 컨볼 루션 네트워크만큼 성능이 좋을 것입니다. 적절한 교육 방법은 여전히 ​​애매 모호합니다.
Marc Claesen

@MarcClaesen : "적절한 훈련 방법을 찾기 어려울뿐"이라고 말하면 도메인 별 전문 지식이 여전히 필요합니다.
Stephan Kolassa

7

설명하는 내용은 이미 AutoWEKA 와 같이 어느 정도 존재하며 적극적으로 재 설립되고 있습니다 (예 : Chalearn 's AutoML 과 같은 과제 ).

이것은 일반적으로 하이퍼 파라미터 최적화의 서브 필드에서 고려됩니다. 같은 소프트웨어 패키지 Optunity , HyperoptParamILS은 주어진 접근 방식에 대해 자동으로 최적화 하이퍼 파라미터로 사용할 수 있습니다 최고를 일어나는 방법을 선택합니다. 그러나 이러한 최적화 문제는 사소한 것이 아니며 일반적으로 최상의 모델을 자동으로 얻는 데 오랜 시간이 걸립니다.

당신은 자동으로 최적의 학습 알고리즘을 결정하기 위해 Optunity를 사용하는 예를 찾을 수 자사의 하이퍼 파라미터를 최적화 http://optunity.readthedocs.org/en/latest/notebooks/notebooks/sklearn-automated-classification.html을


4

하이퍼 파라미터 튜닝 및 앙상블 모델의 발전은 모델 구축에서 많은 '예술'을 취하고 있습니다. 그러나 모델 구축에는 하이퍼 파라미터 튜닝 및 앙상블이 처리하지 않고 최상의 모델을 찾지 못하게하는 두 가지 중요한 측면이 있습니다.

첫째, 특정 유형의 알고리즘이 특정 유형의 데이터를 모델링하는 데 더 좋습니다. 예를 들어, 변수간에 상호 작용이있는 경우 추가 모델은 해당 변수를 찾지 않지만 의사 결정 트리는이를 찾습니다. 모델이 다른 데이터 세트에서 작동하는 방식을 알고 올바른 데이터를 선택하려면 최상의 모델링 알고리즘을 찾기 위해 도메인에 대한 지식이 필요할 수 있습니다.

둘째, 형상 엔지니어링 및 형상 추출은 건물을 모델링하는 진정한 '예술'입니다. 귀하의 질문은 데이터 세트가 이미 준비되었다고 가정합니다. 그러나 가정해서는 안되는 것은 데이터 세트가 모델링하려는 항목을 가장 잘 표현한 것입니다. 이것은 항상 공개적인 질문입니다. 대부분의 경우 데이터 세트가 복잡한 경우 하루 종일 기능을 엔지니어링 할 수 있지만 알고리즘에 점점 더 많은 노이즈가 발생할 위험이 있습니다. 어떤 기능을 추가해야하는지 파악하려면 통계적 관점에서 어떤 기능이 적합하고 도메인 전문가의 관점에서 어떤 기능이 적합한 지 알아야합니다.

그 두 가지 이유를 들어, 난 더, 당신은 최고의 발견 알고리즘을 찾을 수 없습니다 결론 없습니다 자동으로 모델을. 그렇기 때문에 저는 데이터 과학자의 필요성을 대체 할 소프트웨어 공급 업체 피칭 툴에 회의적입니다.

그러나 '최고'가 훈련 세트에서 가장 높은 예측 정확도로 정의되는 최적의 하이퍼 매개 변수를 사용하여 고정 된 모델 세트에서 최상의 모델을 찾는 것에 대한 야심을 좁히는 경우 가능합니다.

모델을 자동으로 튜닝하는 방법의 예로 caret패키지를 확인하십시오 R. caret결함이있는 그리드 검색을 사용하며 한 번에 하나의 모델 만 빌드합니다. 그러나 다양한 패키지 의 모델 목록을 위해 모델과 편리한 래퍼를 비교하는 기능이 있습니다 R.


우리는 여전히 완전히 자동화 된 머신 러닝과는 거리가 멀지 만 귀하가 지정한 이유는 아닙니다. 두 가지 : (i) 주어진 세트에서 최상의 모델을 찾고 (+ 하이퍼 파라미터를 최적화) 이미 가능 하며 (ii) 딥 러닝의 발전으로 피쳐 엔지니어링 및 피쳐 추출이 중요성을 잃고 있습니다. 현재 부족한 것은 사전 지식과 분야별 상식을 통합하는 자동화 된 방법입니다.
Marc Claesen

나는 "선지식과 분야별 상식"이 어떻게 (i) 최상의 모델을 찾고 (ii) 최상의 기능을 찾는 것을 제외하고 ML 프로세스를 개선 할 수 있는지 알지 못한다고 생각한다. 두 번째 단락에서 마지막 단락으로 실제 모델과 최적 (최대 정확도) 모델을 구별하려고했습니다.
brandco

잘못된 라벨 및 / 또는 정보 유출과 같은 모델링 프로세스의 명백한 결함을 발견하기 위해, 누락 된 데이터를 처리하는 방법, 실제 학습 작업을 식별하는 방법 (+ 적절한 점수 / 손실 기능) 및 일반적으로 전체 데이터 정리 (항상 내가 관련된 모든 실질적인 문제에 대한 주요 노력이었습니다).
Marc Claesen

2

당신이 묻는 사람에 따라 다릅니다.

나는 최근 Context Relevant 에서 Scott Golder의 연설을 들었습니다 . 그들의 제품은 본질적으로 기능 및 모델 선택 로봇입니다. 기본적인 기본 모델은 로지스틱 회귀이지만 시스템은 기본적으로 기계 학습을 사용하여 정확한 예측을 생성하기 위해 형상 선택, 치수 축소, 정규화 등의 올바른 조합을 파악합니다. 매우 인상적인 이야기였으며 세부 사항은 모두 독점적입니다. 분명히 고객은 주요 금융 회사를 포함하며 시스템은 임의로 대규모 데이터 세트를 처리 할 수 ​​있습니다.

따라서 최소한 일부 응용 프로그램에서는 자동화 된 데이터 과학이 이미 여기에 있다고 생각하는 사람들이 적어도 있습니다. 그리고 그 사람들 (Context Relevant의 고객) 중 일부는 코를 통해 비용을 지불하고 있습니다.


1

아니요 꿈이 아닙니다. 우리는 이것을 H2O 머신 러닝 라이브러리 에서 구현했습니다 (스택 앙상블을 포함하여 언급 한 모든 기술의 조합) . 자세한 내용을 읽고 여기 에서 R 및 Python의 코드 예제를 찾을 수 있습니다 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.