온라인 이상치 탐지


10

처리량이 많은 이미징 파이프 라인의 일부로 결함이있는 이미지 및 / 또는 결함이있는 세그먼트를 감지하기 위해 자동으로 분할 된 현미경 이미지를 처리하고 싶습니다. 각 원시 이미지 및 분할에 대해 계산할 수 있고 이미지에 결함이있을 때 "극단적"이되는 많은 매개 변수가 있습니다. 예를 들어, 이미지의 거품은 감지 된 "셀"중 하나의 막대한 크기 또는 전체 필드에 대한 셀 수가 비정상적으로 낮은 경우와 같은 예외를 초래합니다. 이러한 이상 사례를 감지하는 효율적인 방법을 찾고 있습니다. 이상적으로는 다음과 같은 속성을 갖는 방법을 선호합니다 (거의 바람직하게는 순서대로).

  1. 사전 정의 된 절대 임계 값이 필요하지 않습니다 (사전 정의 된 백분율은 괜찮음).

  2. 모든 데이터를 메모리에 저장하거나 모든 데이터를 볼 필요가 없습니다. 방법이 적응력이있는 것이 좋으며 더 많은 데이터를 볼 때 기준을 업데이트하는 것이 좋습니다. (분명히 약간의 확률로 시스템이 충분한 데이터를 보거나 놓치기 전에 이상이 발생할 수 있습니다.)

  3. 병렬화 가능 : 예를 들어, 1 차 라운드에서, 병렬로 작업하는 많은 노드는 중간 후보 이상을 생성하고, 1 차 라운드가 완료된 후 1 차 2 차 선택을 거친다.

내가 찾고있는 이상은 미묘하지 않습니다. 그것들은 데이터의 히스토그램을 보면 명백한 종류입니다. 그러나 문제가되는 데이터의 양과 이미지가 생성 될 때 실시간으로이 이상 탐지를 수행하는 궁극적 인 목표는 사람 평가자가 히스토그램을 검사해야하는 솔루션을 배제합니다.

감사!


문제가 본질적으로 일 변량이라는 것이 맞습니까?
user603

1
내가 가진 문제를 "보는"데 도움이 될만한 데이터를 게시하십시오. 나는 특이 치를 강조 표시 한 히스토그램에 대해 잘 알고 있으며 인간 평가자가 히스토그램을 검사하는 대신 통계적 방법을 사용하여 이러한 변칙 사례를 효율적으로 탐지하는 방법에 대한 지침을 제공 할 수 있습니다. 무작위성 stats.stackexchange.com/questions/12955/… 감지에 대한 최근 토론을 참조하십시오. 물론 결정적인 무작위성 위반을 감지하려고합니다.
IrishStat

좀 더 자세히 설명해 주시겠습니까? 매개 변수가 연속적이거나 불연속 적인가? 결함이없는 이미지에 대해 매개 변수에 어떤 분포가 있습니까? 가우시안? 매개 변수가 독립적입니까, 아니면 상관입니까? 이미지 당 대략 몇 개의 매개 변수를 추출합니까? 초당 처리 할 수있는 이미지 수는 몇 개입니까 (또는 이미지 당 대기 시간은 얼마입니까)? 결함이없는 이미지의 큰 데이터 세트에서 몇 가지 일반적인 매개 변수에 대한 일부 히스토그램을 표시 한 다음 결함이있는 이미지에 해당하는 히스토그램을 표시 할 수 있습니까? 이것은 좋은 해결책을 찾는 데 도움이 될 수 있습니다.
DW

답변:


3

일류 분류기와 같은 것을 고려 했습니까?

"훈련 세트와 같은 이미지"와 다른 모든 이미지를 구분하려고하는 분류기를 훈련시키는 데 사용되는 잘 알려진 이미지 훈련 세트가 필요합니다. David Tax논문 에는 아마도 주제에 실제로 필요한 것보다 많은 정보가 있지만 시작하기에 좋은 곳일 수 있습니다.

훈련 세트를 요구하는 것 외에는 요구 사항을 충족하는 것처럼 보입니다.

  • 데이터에서 매개 변수를 학습합니다 (여기서는 애드혹 없음).

  • 모델을 얻은 후에는 데이터를 메모리에 보관할 필요가 없습니다.

  • 마찬가지로 훈련 된 분류기는 사용자가 보유한 노드 수만큼 실행할 수 있습니다.

응용 분야에 따라 서비스 가능한 분류기를 한 번 훈련시켜 다양한 유형의 표본 / 염료 / 염색 / 꽃가루 / 기타에 재사용 할 수 있습니다. 또는 사용자가 각 실행의 첫 번째 배치 중 일부를 수동으로 평가하도록 할 수 있습니다. 인간이 좋은 인터페이스로 최소 5-8 예제 / 분을 확인할 수 있다고 생각합니다.



1

가능한 많은 방법이 있지만 추가 정보없이 상황에 가장 적합한 것이 무엇인지 알기가 어렵습니다.

Rn

  • 모든 이전 이미지의 특징 벡터를 분류와 함께 디스크에 저장합니다. 주기적으로 (예 : 하루에 한 번)이 데이터에 대한 학습 알고리즘을 학습하고 결과 알고리즘을 사용하여 새 이미지를 분류합니다. 디스크 공간이 저렴합니다. 이 솔루션은 실용적이고 오프라인 학습 알고리즘을 온라인 환경에서 사용할 수있는 알고리즘으로 변환하는 데 효과적 일 수 있습니다.

  • 1,000 (또는 1,000,000) 개의 사전 이미지의 랜덤 샘플의 특징 벡터를 분류와 함께 저장합니다. 이 서브 샘플에 대해 학습 알고리즘을 주기적으로 학습하십시오.

    표준 트릭을 사용하여 온라인 방식 으로이 서브 샘플효율적으로 업데이트 할 수 있습니다 . 이것은 모든 이전 이미지의 모든 특징 벡터를 저장하기 어려운 이유가있는 경우에만 흥미 롭습니다 (상상하기는 어렵지만 누가 아는가).

  • nccn

    nμnσμiiσ나는엑스|엑스나는μ나는|σ나는나는μσ

    이 방법은 결함이없는 이미지의 각 매개 변수에 가우스 분포가 있으며 해당 매개 변수가 독립적이라고 가정합니다. 이러한 가정은 낙관적 일 수 있습니다. 이 구성표에는 훨씬 더 복잡한 변형이있어 이러한 가정이 필요하지 않거나 성능이 향상됩니다. 이것은 당신에게 아이디어를 제공하는 간단한 예일뿐입니다.

일반적으로 온라인 알고리즘과 스트리밍 알고리즘을 볼 수 있습니다.


DW ARIMA 필터 / 모델은 용어 수 (N)와 적용 할 특정 가중치가 경험적으로 식별되는 "런닝 평균"의 최적화입니다. 하나의 구체적이고 명백한 추정 모델은 "N"에서 "실행 평균"에 사용할 값의 수를 추측 한 다음 가중치가 서로 같다고 가정하여 광기를 합성하는 것입니다.
IrishStat

@IrishStat, 귀하의 의견을 이해하는지 잘 모르겠습니다. 내 글이 불분명 한 경우 ARIMA를 제안하지는 않았지만 고려할만한 내용입니다. 나는 훨씬 더 간단한 것을 제안했다 : 지금까지 모든 관측치의 평균과 표준 편차를 추적하십시오. 새로운 관측치가 나타날 때마다 표준 방법으로 평균 및 표준 편차를 업데이트 할 수 있습니다 (지금까지 관측치 수를 추적 한 한). 단순 할 수 있지만 왜 이것이 미치게 될지는 모르겠습니다.
DW

0

아르 자형

특이 치가 명백한 경우 작동하는 간단한 트릭은 다음과 같습니다. 벡터에서 지역 민감성 해시 함수를 구성하십시오. (벡터가 속하는 임의의 임의 하이퍼 플레인 세트의 측면과 같은 간단한 무작위 해시가 작동 할 수 있습니다. 이렇게하면 부울 벡터가 해시 값으로 생성됩니다.) 이제 벡터를 받으면 벡터의 해시 값을 계산하고 저장합니다. 해시 값 (초평면의 경우 부울 벡터) 및 사전의 수 또한 지금까지 본 총 벡터 수를 저장합니다. 해시에서 벡터와 충돌하는 벡터의 총 수가 미리 정의 된 총 백분율보다 작 으면 주어진 벡터를 특이 치로 플래그를 지정할 수 있습니다.

이를 증분 방식으로 히스토그램을 작성하는 것으로 볼 수 있습니다. 그러나 데이터가 일 변량이 아니기 때문에 해싱 트릭을 사용하여 데이터처럼 작동합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.