IBM P750小型机 日常维护手册
一、 服务器硬件运行状态检验
1. 当服务器处于开启和正常工作状态时,其前面板上状态灯(和电源灯并排)和各硬盘状态灯(一排小灯,
和各硬盘位置一一对应)应显示为绿色。
2. 当服务器状态灯出现橙黄色时,说明有硬件告警,此时要检验服务器电源、接线、硬盘等。假如有硬件
故障则需要立即进行更换和更正,假如查不出具体问题,则需要联络相关教授深入诊疗。
3. 当硬盘工作正常时,和各硬盘对应硬盘灯会呈绿色,如无读写,则绿灯一直亮,如该硬盘有读写操作,
则绿灯会不规则闪烁,当硬盘损坏时,则硬盘状态灯将熄灭,或呈闪烁状态:以1~3秒频率有规律地、不停地闪烁。
假如发觉有服务器硬件状态灯不正常情况,请立即联络我企业工程师,方便立即进行诊疗并处理故障。
二、 HMC(硬件管理平台)管理和操作
HMC两种访问路径:
1、 在机房直接经过显示器和键盘进行管理维护等相关操作
2、 经过web远程访问,登录HMC web管理界面,访问地址为:https://
1、 登录HMC
1.1 浏览器访问连接HMC后,首页界面以下图所表示。
1.2 点击下图所表示链接,进入HMC验证登录界面。
1.3 输入用户名和口令,登录HMC。
用户名:hscroot 口令:
1.4 成功登录到HMC管理界面以下图所表示。
2、 注销HMC
在HMC console右上角有(hscroot | help | log off)链接,单击log off,会出现以下图所表示注销界面:
选择Log off,系统返回到HMC初始登录界面状态。
3、 重启HMC
左边导航栏中选择 HMC Management shut down or Restart,以下图所表示,对HMC进行正常重启及关机操作。
请谨慎对HMC进行关机和重启操作!
4、 状态栏功效
状态栏在HMC左下角位置,以下图所表示,负责监控并反应管理系统资源状态和HMC状态。
单击每个图标状态能够列出具体状态,你能够查到更具体帮助信息:
:非法操作,假如任何被管理主机实施了非法操作,这个图标将会变亮。 :黄灯警告, 假如任何被管理主机有错误并有黄灯被点亮,这个图标也将会变亮 :报错日志:日志中有报错信息,这个图标将会变亮,此项和 :摘要,摘要中会将有用信息做统计并显示在工作栏中。
5、 Service Management
导航栏中Service Management强大管理功效给用户日常维护提供了更简单直观界面,以下图所表示,
但日平时最常见子项是Manage Serviceable Events,以下图步骤能够对HMC所管理设备进行日常错误立即直观观察,以确保IBM小型机能正常工作,下图就是基础操作方法图示: Service ManagementManage Serviceable Events
6、 Service Plans-分区管理和操作
6.1 怎样查看小型机资源配置:
如上图红色标注所表示,选中所需查看主机(备注:请不要同时选中多台主机及多个分区),在下拉菜单中选中“Properties”,打开参数窗口,经过“Properties”能够查看主机运行状态,CPU,内存,I/0等关键硬件系统参数,以下图所表示。
同理,在分区区域中先中每分区后Properties选项,便能够直观方便掌握分区状态和资源配置信息。
6.2 怎样开关机及激活分区:
关机。
开机。
Operation项中关键包含小型机及分区开关机,及消除报警灯这两项功效,如虽要对小型机下电操作,请先将图15中分区Deactivate(提议:最好在操作系统中根据正常步骤将操作系统shutdown),最终再将主机power off。
注意:非特殊情况,无专业人员指导,严禁进行开关机操作!
6.3 手动消除黄灯警告
以下两图所表示, Operations中LED status,及Deactivate Attention LED两项中所指,针对不一样分区或主机所报出警告黄灯,进行特定消除黄灯操作。
6.4 怎样打开控制终端(Terminal Window)
在HMC上对分区操作系统进行操作,能够经过分区下拉菜单Console Window-Open Terminal Window对选中分区进行操作,图所表示,操作界面如同telnet界面。
在HMC中同一分区只许可打开一个Terminal Window,如试图打开第二个窗口,系统提醒图17所表示界面。
三、 AIX系统日常维护
1、查看系统错误统计
很关键,应该定时查看,如发觉有硬件(H)类型报错,应该立即关注。
在系统运行时,部分系统错误会统计在errlog 中,其中有些错误还会在终端上显示。
检验错误日志可用以下命令:
#errpt | more 查看系统全部统计
IDENTIFIER TIMESTAM P T C RESOURCE_NAME DESCRIPTION E85C5C4C P S CFGLFT SOFTWARE PROGRAM ERROR 2BFA76F6 T S SYSPROC SYSTEM SHUTDOWN BY USER 9D4CF6E7 T O errdemon ERROR LOGGING TURNED ON 1E2AC07E T O errdemon ERROR LOGGING TURNED OFF 1E5EER4T T O clstrmgr OPERATOR NOTIFICATION 其中
IDENTIFIER 为错误编号,当需要检验具体信息时常会用到。
TIME STAMP 为时间标签,它统计是犯错时间,其格式:月月日日时时分分年年
T 为Type , 它统计是错误类型
P :为永久错误,需引发注意 T :为临时错误。
C 为Class, 它统计是错误种类,如
H : Hardware S : Software
O : Errloger command messages U : undetermined
RESOURCE_NAME 为错误起源
DESCRIPTION 为错误描述
#errpt -aj 其中IDENTIFIER为错误编号,如 #errpt -aj
#errpt -dH
查看系统全部硬件犯错统计 查看系统具体统计内容
2、日常检验服务器状态项目及其相关命令
2.1 运行lsdev 命令配以多种参数,所列多种设备状态全部应为Available。
#lsdev –C –H –S a #lsdev –Cc processor #lsdev –Cc memory #lsdev –Cc disk
列出系统中可用设备。 列出系统中全部CPU。 列出系统中全部内存。 列出系统中全部硬盘。
列出系统中全部网卡 列出系统中全部SCSI卡。 列出系统中全部SSA卡。
#lsdev -Cc adapter | grep ent
#lsdev -Cc adapter | grep scsi #lsdev -Cc adapter | grep ssa
2.2 lspv命令
#lspv
显示系统中可用PV。 显示hdiskn具体信息。
#lspv hdiskn
#lsdev –Cc pdisk 显示磁盘阵列硬盘具体信息。
2.3 lsattr命令
# lsattr –E –l mem0
列出系统中内存mem0大小,本项目中内存有4GB。
2.4 lsvg命令
#lsvg
列出系统中全部vg。 列出rootvg具体信息。
#lsvg rootvg
#lsvg –o 列出激活vg
2.5 oslevel命令
#oslevel
显示操作系统版本信息。
2.6 netstat命令
#netstat –in 显示系统中各网卡配置。可查看网卡IP配置好了没有。
2.7 diag命令
经过运行# diag 命令运行硬件诊疗程序检测主机内全部硬件,检测结果为 “No trouble found ”显示各部分工作正常。
2.8 lsps查看页面空间
lsps –a 查看PAGING SPACE使用情况,假如使用率超出70%,就需要采取方法。
2.9 查看LV(卷)状态
lsvg –o | lsvg –il | grep –i stale查看有没有stalelv,假如输入该命令以后有输出结果,就需要采取方法
2.10 查看mail
# mail,查看有否发给root用户错误汇报(mail)。
3、检验文件系统
查看有没有“满”文件系统。文件系统满可造成系统不能正常工作,尤其是AIX基础文件系统。
如/ (根文件系统)满则会造成用户不能登录。
# df -k (查看AIX基础文件系统)
Filesystem 1024-blocks Free %Used Iused %Iused Mounted on /dev/hd4 24576 1452 95% 2599 22% / /dev/hd2 614400 28068 96% 22967 15% /usr /dev/hd9var 8192 4540 45% 9 32% /var /dev/hd3 167936 157968 6% 1% /tmp /dev/hd1 16384 5332 68% 1402 35% /home
除/usr文件系统,其它文件系统全部不应太满,通常不超出80%。
4、性能监控和调优
4.1 经过topas来观察
topas能够将系统全局信息,包含CPU、内存、磁盘、网络、文件系统、事件队列、文件等信息,排列在一个统一界面上进行展示。
bash-4.3# topas
Topas Monitor for host:localhost EVENTS/QUEUES FILE/TTY Wed Feb 22 10:42:00 Interval:2 Cswitch Readch
Syscall Writech CPU User% Kern% Wait% Idle% Reads Rawin Writes Ttyout Forks Igets Network BPS I-Pkts O-Pkts B-In B-Out Execs Namei Runqueue Dirblk Waitqueue
Disk Busy% BPS TPS B-Read B-Writ MEMORY PAGING Real,MB Faults % Comp FileSystem BPS TPS B-Read B-Writ Steals % Noncomp PgspIn % Client PgspOut
Name PID CPU% PgSp Owner PageIn PAGING SPACE PageOut Size,MB Sios % Used % Free NFS (calls/sec)
SerV2 WPAR Activ CliV2 WPAR Total SerV3 Press: \"h\"-help CliV3 \"q\"-quit SerV4
4.2 经过命令vmstat 1 来观察.
kthr memory page faults cpu ----- ----------- ------------------------ ------------ -----------
r b avm fre re pi po fr sr cy in sy cs us sy id wa
命令解析:vmstat 命令输出能够反应系统整体运行情况,包含cpu、内存、虚拟页面、系统进程和系统调用情况。
检验CPU是否为瓶颈,分别检验CPU四项数值和kthr两项数值. 检验MEM是否为瓶颈,分别检验Memory两项数值和Page 六项数值.
4.3 经过命令 sar –mu –P ALL 来观察。
命令解析: sar能够用来搜集反应系统运行情况,在这里关键是查看CPU运行情况,CPU是否负载均衡,是否存在分配不均情况。
4.4 经过命令ps gv | more来观察。
PID TTY STAT TIME PGIN SIZE RSS LIM TSIZ TRS %CPU %MEM COMMAND 0 - A 4:20 7 12 14516 xx 0 14504 0.0 5.0 swapper 1 - A 1:33 103 752 79044 32768 25 36 0.0 29.0 /etc/init
命令解析:ps能够用来查看进程目前状态。在这里经过参数配搭,能够观察现在正在运行进程所耗时间,CPU和memory 量.其中,%CPU表示进程所占用CPU资源情况,%MEM表示进程所占用内存情况。关键检验是否有标示为僵尸进程耗用系统资源,和informix 数据库oninit进程系统消耗情况。4.5 经过命令iostat 1 –d hdiskX观察磁盘
在机器上用dd命令进行磁盘阵列写操作校验,和此同时用iostat 1 –d hdiskX观察磁盘。
Disks: % tm_act Kbps tps Kb_read Kb_wrtn
命令解析: iostat能够用来查看系统 I/O输入输出情况,在这里关键查看阵列上硬盘每秒读写量,同时估算磁盘阵列读写速度。
4.6 经过命令netstat –a 进行查看。
Active Internet connections (including servers)
Proto Recv-Q Send-Q Local Address Foreign Address (state)
命令解析: netstat能够用来查看系统网络情况,在这里关键是查看网络用户端连接情况和开销,检验参数为state,如有死连接,state状态为fin_wait, 这么耗用系统网络资源,从而造成网络性能下降组成瓶颈。
以上全部命令及参数相关含义和具体信息,请参考AIX命令大全。