CentOS 6이 설치된 Dell PERC H710 Raid Controller의 하드 디스크 상태를 모니터링하는 방법은 무엇입니까?


26

Raid 5 가 설치된 Raid Controller 카드를 CentOS 6사용하여 Dell 서버를 실행 PERC H710하고 있으며 Raid Controller 뒤의 하드 디스크 오류 / 작동 상태를 모니터링하고 싶습니다.

그런 다음 bash 스크립트를 사용하여 하드 디스크 상태를 모니터링하고 문제가 발생한 경우 경고 이메일을 보낼 수 있어야합니다.

LSI MegaRAID SAS명령 도구 (LSI 메가 RAID SAS 리눅스 도구에 대한) CentOS는 / 레드햇 / Linux 용은 PERC H710을 지원하지 않습니다 및 smartctl중 하나를 지원하지 않습니다.

Dell 웹 사이트를 기반 CentOS으로이 서버 에서 IS가 지원되지 않으며 ( NX3200 PowerVault) 하드 디스크를 모니터링 할 Linux 프로그램을 다운로드 할 수 없습니다.

[root@server ~]# lspci | grep RAID
03:00.0 RAID bus controller: LSI Logic / Symbios Logic MegaRAID SAS 2208 [Thunderbolt] (rev 05)


[root@server ~]# smartctl -a /dev/sda
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-431.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

Vendor:               DELL
Product:              PERC H710
Revision:             3.13
User Capacity:        299,439,751,168 bytes [299 GB]
Logical block size:   512 bytes
Logical Unit id:      ....
Serial number:        ....
Device type:          disk
Local Time is:        Tue Apr 15 16:38:30 2014 SGT
Device does not support SMART

Error Counter logging not supported
Device does not support Self Test logging

CentOS 6이 설치된 Dell PERC H710에서 하드웨어 습격의 하드 디스크 상태를 모니터링하는 방법을 아는 사람이 있습니까?

답변:


26

SMART 는 디스크 또는 스토리지 모니터링의 마지막 단어 가 아닙니다 !! 구성 요소이지만 최신 RAID 컨트롤러는 다른 방법과 함께 사용하여 드라이브 및 어레이 상태를 결정합니다.

이것이 Dell PowerEdge 서버의 PERC 컨트롤러라고 가정합니다.

Dell 하드웨어의 상태 모니터링에 대한 일반적인 Linux 친화적 인 접근 방법은 Yum을 통해 Linux 용 Dell OMSA 에이전트를 설치하는 것입니다-http: //linux.dell.com/wiki/index.php/Repository/OMSA#Yum_setup

yum install srvadmin-all전체 에이전트 제품군을 설치합니다. 설치되면 omreport명령을 사용 하여 어레이에 대한 정보얻을 수 있습니다 .

예 :

$ omreport storage vdisk

$ omreport storage pdisk controller=0

$ omreport storage vdisk controller=0 vdisk=1

7
이것은 내 Linux 컴퓨터에 웹 서버 / SSL과 같은 추가 구성 요소를 설치하지만 다른 선택이없는 것 같습니다! 서버에 불필요한 패키지를 추가하는 것을 싫어합니다.
Xianlin

2
해당 OMSA 프로그램 중 하나에서 발생할 수있는 메모리 누수에주의하십시오. 그것은 3-4 주 동안 천천히 나에게 일어난 다음 붐, 리눅스를위한 더 이상 메모리가 없었습니다.
bksunday

1
예, 누출은 dsm_sa_snmpd에 있습니다 (따라서 'killall -9 dsm_sa_snmpd'를 실행했습니다).
markusN

5
PERC 7xx 및 8xx 컨트롤러는 LSI Megaraid 컨트롤러 일뿐 아니라, LSI MegaCLI 도구는 Dell 라이브러리 및 요즘 떨어지는 다른 서비스 및 / 또는 커널 모듈로 시스템을 손상시키지 않으려는 경우에는 잘 작동합니다. LSI 바이너리에 대한 MegaCLI 치트 시트, nagios 모니터링 스크립트 및 성능 조정 팁 이 많이 있습니다 . 그것은 내 개인적인 취향과 물론 의견입니다. 나는 미니멀리스트입니다.
Aaron

@Xianlin, 이것은 전적으로 사실이 아닙니다. 예, 많은 쓰레기를 설치하지만 내 대답을 봅니다. 불필요한 패키지를 추가하고 싶지 않아 스토리지에 필요한 패키지 만 알아 냈습니다.
Mike S

25

smartctl 명령을 사용하여 디스크의 SMART 상태와 -d인수를 확인할 수 있습니다. 예를 들어, 배열의 첫 번째 디스크를 보려면

# smartctl -a /dev/sda -d sat+megaraid,00
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-358.6.2.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     ST91000640NS
Serial Number:    ........
LU WWN Device Id: . ...... .........
Firmware Version: AA08
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Device is:        Not in smartctl database [for details use: -P     showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Thu Jul 10 11:21:52 2014 WEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
Warning: This result is based on an Attribute check.
...
...
#

smartmontools-5.43-1.el6.x86_64가있는 Scientific Linux 6 (또 다른 RHEL6 기반 OS)에 있습니다.


-d megaraid,0smartctl 6.6커맨드 라인에 충분했습니다 . 그 DEVICESCAN안에 문자열 /etc/smartd.conf이 필요했습니다-d removable
Stuart Cardall

9

허용되는 답변은 대담성을 권장합니다 yum install srvadmin-all. 블리치. 다음은 약간 덜 번쩍이게 만드는 방법입니다 (그러나 그럼에도 불구하고 번쩍 번쩍합니다 .HP 플랫폼에서 훨씬 더 적을 수는 있습니다. .

BTW, 사용자 질문에 대한 직접적인 답변은 아래 목록의 "vdisk 0에 물리 디스크 표시"항목에 있습니다.

wget -q -O - http://linux.dell.com/repo/hardware/latest/bootstrap.cgi > bootstrap.cgi
bash bootstrap.cgi
yum install srvadmin-base
yum install srvadmin-storageservices

루트의 .bashrc에 추가하십시오 :

export PATH=$PATH:/opt/dell/srvadmin/bin

즐겨:

RAID 명령

  • 컨트롤러 0의 모든 물리 디스크 표시

    $ omreport storage pdisk controller=0
    
  • 컨트롤러 0의 모든 논리 디스크 표시

    $ omreport storage vdisk controller=0
    
  • vdisk 0의 모든 물리 디스크 표시

    $ omreport storage pdisk controller=0 vdisk=0
    
  • raid0에서 raid1이되도록 vdisk를 재구성하십시오 ( COOL !!!! )

    $ sudo omconfig storage vdisk action=reconfigure controller=0 vdisk=1 raid=r1 pdisk=0:0:2,0:0:3
    
  • 새 디스크에 vdisk를 작성하십시오.

    $ sudo omconfig storage controller controller=0 action=clearforeignconfig
    $ sudo omconfig storage controller controller=0 action=createvdisk raid=r0 size=max pdisk=0:0:2
    

더 많은 정보

BTW, 이것은 Dell 브랜드의 LSI MegaCLI 카드에 지나지 않으므로 한 솔로의 답변이 더 나아질 수 있습니다! 그러나 아직 시도하지 않았습니다.

단맛

다음은 맛있는 데이터 묶음을 위해 grep을 통해 파이프 된 omreport의 출력 예입니다.

$ omreport storage pdisk controller=0 vdisk=0 | grep -v ": Not "
List of Physical Disks belonging to root

Controller PERC H700 Integrated (Embedded)
ID                              : 0:0:0
Status                          : Ok
Name                            : Physical Disk 0:0:0
State                           : Online
Power Status                    : Spun Up
Bus Protocol                    : SAS
Media                           : HDD
Failure Predicted               : No
Revision                        : HT64
T10 PI Capable                  : No
Certified                       : Yes
Encryption Capable              : No
Capacity                        : 136.13 GB (146163105792 bytes)
Used RAID Disk Space            : 136.13 GB (146163105792 bytes)
Available RAID Disk Space       : 0.00 GB (0 bytes)
Hot Spare                       : No
Vendor ID                       : DELL(tm)
Product ID                      : ST9146852SS
Serial No.                      : 6TB1AFDT
Part Number                     : CN0X162K7262213800JTA01
Negotiated Speed                : 6.00 Gbps
Capable Speed                   : 6.00 Gbps
Sector Size                     : 512B
Manufacture Day                 : 05
Manufacture Week                : 10
Manufacture Year                : 2011
SAS Address                     : 5000C500395E44C5

ID                              : 0:0:1
Status                          : Ok
Name                            : Physical Disk 0:0:1
State                           : Online
Power Status                    : Spun Up
Bus Protocol                    : SAS
Media                           : HDD
Failure Predicted               : No
Revision                        : HT64
T10 PI Capable                  : No
Certified                       : Yes
Encryption Capable              : No
Capacity                        : 136.13 GB (146163105792 bytes)
Used RAID Disk Space            : 136.13 GB (146163105792 bytes)
Available RAID Disk Space       : 0.00 GB (0 bytes)
Hot Spare                       : No
Vendor ID                       : DELL(tm)
Product ID                      : ST9146852SS
Serial No.                      : 6TB1AFEY
Part Number                     : CN0X162K7262213800FPA01
Negotiated Speed                : 6.00 Gbps
Capable Speed                   : 6.00 Gbps
Sector Size                     : 512B
Manufacture Day                 : 05
Manufacture Week                : 10
Manufacture Year                : 2011
SAS Address                     : 5000C500395E3C1D

@slm 편집과 관련하여 루트없이 실제로 작동합니까? 요즘 내 앞에 omreport / omconfig가 없지만 어떤 사용자도 vdisk를 만들 수 있는지 잘 모르겠습니다. 명령 행의 '$'는 루트가 아닌 일반 사용자를 의미합니다.
마이크 S

그래, 난 전날 Dell 730에서 "만들기"를 수행하는 2 개를 제외하고 모든 cmd를 처리 할 때 루트를 필요로하지 않았다.
slm

6

CentOS에서 작동하도록 노력하고 있었고 여기에서 작동하는 패키지를 찾았습니다 http://mirror.ndchost.com/software/lsi/

" MegaCli-8.07.10-1.noarch.rpm "

명령 참조 http://hwraid.le-vert.net/wiki/LSIMegaRAIDSAS

도움이 되길 바랍니다.


1
나는 / opt / megacli / MegaCli64 -PDList -aALL | grep -i 펌웨어와 물리 디스크가 정상인지 알려줍니다. (명령은 erikimh.com/megacli-cheatsheet 에서 가져온 것입니다 -내가 잘못 사용하면 참조하십시오). 기본적으로 RAID 관리는 디스크를 모니터링하는 데 큰 도움이되므로 디스크 작동 상태에 대한 의견을 추적하십시오.
일부 리눅스 대단하다

3
smartctl -d megaraid,00 -a /dev/sda
Got MegaRAID inquiry.. FUJITSU MBE2147RC       D906
Device: FUJITSU  MBE2147RC        Version: D906
Serial number: xxxx
Device type: disk
Transport protocol: SAS
Local Time is:

8
좋은 답변을 작성하려면 어떻게합니까?를 읽어보십시오 . 도움말 센터에서 답변을 수정하십시오. 당신의 명령은 기술적으로 해결책이 될 수 있으며, 다른 오래된 답변에서도 이미 언급되었으며 일부 설명은 환영합니다. 미리 감사드립니다.
HBruijn

1
다른 대답은 "sat + megaraid"를 사용했는데 나에게는 효과가 없었습니다. (나는 smartctl 명령을 잘 알지 못했고 명령을 변경하여 명령을 작동시키는 방법을 알지 못했습니다.)이 대답은 나를 올바른 길로 이끌었고 저에게 효과적입니다.
Yongwei Wu

1

perccli당신이 친절을 요구하는 경우 명령은 또한 당신에게 드라이브 많은 정보를 표시 할 수 있습니다 :

# /opt/MegaRAID/perccli/perccli64 /c0/e32/s0 show all
Controller = 0
Status = Success
Description = Show Drive Information Succeeded.


Drive /c0/e32/s0 :
================

-------------------------------------------------------------------------
EID:Slt DID State DG       Size Intf Med SED PI SeSz Model            Sp
-------------------------------------------------------------------------
32:0      0 UGood -  278.875 GB SAS  HDD N   N  512B ST3300657SS      U
-------------------------------------------------------------------------

EID-Enclosure Device ID|Slt-Slot No.|DID-Device ID|DG-DriveGroup
DHS-Dedicated Hot Spare|UGood-Unconfigured Good|GHS-Global Hotspare
UBad-Unconfigured Bad|Onln-Online|Offln-Offline|Intf-Interface
Med-Media Type|SED-Self Encryptive Drive|PI-Protection Info
SeSz-Sector Size|Sp-Spun|U-Up|D-Down/PowerSave|T-Transition|F-Foreign
UGUnsp-Unsupported|UGShld-UnConfigured shielded|HSPShld-Hotspare shielded
CFShld-Configured shielded|Cpybck-CopyBack|CBShld-Copyback Shielded


Drive /c0/e32/s0 - Detailed Information :
=======================================

Drive /c0/e32/s0 State :
======================
Shield Counter = 0
Media Error Count = 0
Other Error Count = 0
Drive Temperature =  40C (104.00 F)
Predictive Failure Count = 1
S.M.A.R.T alert flagged by drive = Yes

각 인클로저 슬롯에 대해이 작업을 반복해야합니다. 최소한 하나의 perccli명령으로 모든 슬롯을 한 번에 인쇄 할 수있는 방법을 찾지 못했습니다 .

다른보다 포괄적 인 옵션에 비해 설치가 쉽습니다.

# curl -C - -O 'https://downloads.dell.com/FOLDER04470715M/1/perccli_7.1-007.0127_linux.tar.gz'
# tar xzvf ../perccli_7.1-007.0127_linux.tar.gz
# cd Linux/
# yum localinstall perccli-007.0127.0000.0000-1.noarch.rpm
# cd /opt/MegaRAID/perccli/

perccli이다 NOT Delll OMSA 같은 포괄적 인 모니터링 완비, 그러나 많은 사람들은 포괄적 인 무언가를 원하고 대신 괜찮은, 간단한 도구를 필요로하지 않는 것 같은데.


-1

안녕하십니까, 비슷한 Dell PERC / LSI 카드가 있으며 RAID 상태를 확인해야했습니다. LSI에는 sas2ircu라는 유틸리티가 있는데,이 유틸리티는 Windows와 Linux 용 버전도 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.