可靠性实践细节曝光:某智能制造集团,以深信服分布式云承载核心业务系统
某智能制造集团以智能制造、工业互联网为主攻方向,正构建端到端的数字化体系,打造国家级智能制造示范工厂。
在集团数字化转型过程中,传统架构难以满足业务连续性要求、无法支持敏捷的数字化业务,同时运维管理复杂。为了实现新型数字化业务的高可靠承载以及云 IT 基础设施的统一运维管理,集团决定使用深信服(300454)分布式云解决方案构建统一的 IT 基础设施底座,承载各个生产基地的生产数字化业务,及总部的经营管理业务,尤其是对 MOM 系统的承载。
应用场景介绍
制造运营管理 (Manufacturing Operation Management) 指通过协调管理企业的人员、设备、物料和能源等资源,把原材料或零件转化为产品的活动。MOM 主要覆盖生产制造过程中 12 种类型的业务活动,通常也被认为是 MOM 系统应该具备的功能模块,其中包括:基础资源管理相关业务 (资源分配与控制、文档控制、人力资源管理三类)、与生产计划及组织相关的活动 (详细工序排程、生产派工、工艺过程管理、数据采集、生产跟踪、质量操作管理、物料管理及跟踪、绩效分析)。
ISA95—2010 定义的 MOM 覆盖业务活动
传统 MES 更多的是以生产线为中心,围绕追溯和防错等板块,满足单工厂、单组织的需求,而 MOM 作为一个集成化软件平台,在集成标准化、开放性和云部署方面都比 MES 更强,MOM 系统主要关注订单的计划、管理和执行、生产批次的可追溯性、与 ERP 系统的连接、质量管理和制造智能等。从 MOM 概念提出的初衷来看,其目的确实是为了解决 MES 的局限性,是制造执行系统 (MES) 的演变,MES 的工作是 MOM 的一部分。
MOM 系统适用行业包括:汽车制造、电子制造、半导体制造、装备制造、药品制造、食品和饮料加工等。
应用架构介绍
典型 MOM 系统的功能及技术架构如下图所示:
MOM 功能架构
MOM 系统的常见部署场景包括:全物理机、虚拟化 + 数据库一体机、虚拟化 + 外置存储、私有云等,此前用户在各个工厂的 MOM 系统主要通过:物理服务器、或 VMware 虚拟化 + 数据库一体机的方案来承载。
需求与痛点
· 高可靠需求:
MOM 通过整合企业内外部资源,实现生产过程的全面优化和精细化管理,对可靠性与可用性要求非常高,IT 部门需要保障 MOM 系统全年无宕机,持续稳定的提供服务,但是目前 MOM 系统的部分组件服务 (如 MOM 报表服务、MOM 文件服务等) 为单体应用,无高可用机制,因此,当底层 IT 硬件发生故障或机房发生故障时,MOM 无法正常提供服务。用户希望底层 IT 基础设施平台在硬件或机房层面故障时,MOM 系统的业务不受影响,保障 RPO 为 0,RTO 为分钟级。
· 建设维护成本高:
MOM 等生产系统存在大量的组件服务,使用物理服务器承载时需要使用很多个主机节点,主机间资源无法复用,无法根据各物理机负载情况调节资源分配,服务器资源存在浪费,希望提高资源利用率。
· 传统架构运维管理复杂:
各个机房的物理服务器数量多,资源就绪时间长,无法弹性。而生产基地位置分散,传统架构下无法在总部进行集中管理,运维、安全等方面存在挑战。
· 生产基地 IT 运维能力不足:
生产基地物理位置多在三、四线城市,远离集团总部,配置专业的 IT 运维团队成本高,运维人员能力相对较弱。
方案设计
基于用户生产制造基地数量多、物理位置分散、远离集团总部的业务分布现状,以及总部和各个基地已有的专线网络,以用户总部数据中心为核心建设总部中心云平台,在各个生产地的机房部署分支云平台,在中心云平台上部署统一云管理平台,构建“总部 + 工厂”以超融合架构为底座的统一分布式云,替换传统 IT 架构,实现 IT 基础设施的统一管理、统一运维。同时,为满足生产基地 MOM 等应用系统的高可靠承载,规划建设园区级的双活云平台,保障生产基地业务的稳定运行。
总部中心云平台和各个生产基地分支云平台主要承载的业务系统如下表:
在分布式云方案中,基于不同的业务承载需求,主要云平台的集群节点数量规划如下:
可靠性设计效果验证
效果验证的验证目的
测试的主要目标是验证深信服超融合双活方案可以对 MOM 系统提供高可靠的承载,在集群、网络、数据中心发生故障时仍能够保障 MOM 系统正常提供服务。
本次测试在用户现网中采用“超融合双活架构 + 物理机”的方案来承载 MOM 系统,4 台超融合服务器 (2+2) 组成双活架构承载 MOM 应用服务及异步从数据库,2 台联想服务器承载 MOM 主数据库及同步从数据库。延伸集群上业务部署位置规划原则如下:
· 数据中心机房的主故障域优先承载对外提供访问的业务;
· 生产机房的备故障域优先承载生产终端需要访问的业务;
· 不同网段业务分别通过不同机房进行访问。
验证测试环境说明
MOM 系统组件的可靠性要求、RTO、RPO,以及部署资源需求如下表所示:
本次测试主要以 MOM 报表服务器作为测试业务验证,测试在网络、集群等发生故障后的高可靠保障机制。
整体的测试组网架构如下:
· 数据中心机房服务器交换机和生产机房服务器网关交换机通过配置 VRRP 虚拟网关 (单网关主备模式) 给业务,同时配置 NQA / BFD 联动 VRRP 切换。
· 网络拓扑中,通过两个物理 AD 建立主-主双活 (主心跳走二层,备心跳走三层),物理 AD 做应用负载和业务发布。
·HCI 仲裁连接到生产机房交换机 (说明:生产机房交换机不能故障,否则影响生产和超融合)。
·HCI 业务网络、管理网络、存储网络都通过数据中心机房和生产机房之间的光纤专线网络打通。
· 生产中心应用和外部应用访问通过域名访问 MOM 系统,通过 AD 对外发布业务。
验证测试过程与结果
场景 1:数据中心机房防火墙故障
1. MOM 报表服务器运行在主故障域,需要对外部应用和生产应用提供访问。
2.服务器交换机配置 BFD 探测到出口核心 (交换机上配置探测时间间隔 50ms,探测超时时间 150ms)。
3.当数据中心机房的防火墙故障时,外部用户无法通过数据中心机房网络访问主故障域上的应用,此时服务器交换机上配置的 BFD 探测超时,服务器交换机 LAN 口主动 DOWN 掉,VRRP 执行主备切换 (VRRP 生效约 200ms),备用网关迅速切换为 Master,主故障域上的业务通过生产机房对外提供业务,外部用户通过生产机房的网络访问主故障域上的业务。
4.因此,当数据中心机房防火墙故障时,主故障域上承载单体应用 MOM 报表服务器的虚拟机不需要 HA 即可对外提供高可靠的服务。
5.现场测试网络整体切换时延小于 1s,满足 RTO 5 分钟的要求。
场景 2:服务器交换机故障
1. MOM 报表服务器运行在主故障域,需要对外部应用和生产应用提供访问。
2.当服务器交换机故障时,外部用户无法通过数据中心机房网络访问主故障域上的应用,这种情况相当于 VRRP 网关的 Master 故障,此时 VRRP 执行主备切换 (VRRP 生效约 200ms), 备用网关变为 Master,主故障域上的业务通过生产机房对外提供业务,外部用户通过生产机房的网络访问主故障域上的业务。
3.因此,当数据中心服务器交换机故障时,主故障域上承载单体应用 MOM 报表服务器的虚拟机不需要 HA 即可对外提供高可靠的服务。
4.现场测试整体切换时延小于 1s,满足 RTO 5 分钟的要求。
场景 3:业务交换机故障
1.数据中心的服务器交换机配置 BFD 探测 AD,当探测不到 AD 时,把上联口 down 掉,此时网关 VIP 切换到生产机房的服务器网关,出口路由的 OSPF 会重新寻址到生产服务器网关这台交换机。
2.业务交换机故障时,旁挂的 AD 探测不到主故障域上的 MOM 报表服务器业务,无法对外提供业务访问,外部用户访问业务中断。此时相当于超融合集群的物理出口连接的业务网口故障,因此承载 MOM 报表服务器的虚拟机需要 HA,超融合平台的网络离线响应检测时间设置 10s。
3.主故障域上承载 MOM 报表服务器的虚拟机通过 HA 机制在备故障域拉起,由于 AD 配置的是双活,因此当承载 MOM 报表服务器的虚拟机 HA 到生产机房的备故障域后,生产机房的 AD 探测到备故障域上 MOM 报表服务器的业务正常时,生产机房的 AD 会对外发布业务并提供访问服务。
4.现场测试虚拟机 HA 后重启恢复时间小于 2 分钟,满足 RT0 5 分钟的要求,同时延伸集群通过副本机制实现业务数据跨站点同步,实现 RPO=0。
场景 4:主故障域整体故障
1.当数据中心主故障域整体故障时,主故障域和备故障域之间的管理网 / 业务网都会异常,与“业务交换机故障”的场景一样,主故障域上承载单体应用 MOM 报表服务器的虚拟机通过 HA 机制在备故障域拉起。
2.承载 MOM 报表服务器的虚拟机 HA 成功后,数据中心机房的 AD 探测到 MOM 报表服务器的业务恢复后,正常提供服务,网络设备无需切换。
3.现场测试虚拟机 HA 后重启恢复时间小于 2 分钟,满足 RT0 5 分钟的要求,同时延伸集群通过副本机制实现业务数据跨站点同步,实现 RPO=0。
针对 MOM 系统中的主 / 备应用,分布式应用,分别将主备应用、分布式应用部署在主故障域和备故障域,参考单体应用的故障场景进行故障模拟测试,验证应用的高可靠承载能力,均能满足业务对底层虚拟机所要求的 RPO、RTO 指标。
云平台运行效果与最佳实践
· 异地多资源池统一管理运行情况:
统一云管理平台管理 10 个物理位置分散在全国各地的超融合架构的集群资源池,纳管一个 VMware 集群。
·MOM 系统资源池运行情况:
针对电子制造 MOM 系统数据交互频繁、并发数据量大、时延要求高的特点,采用 SSD 构建全闪资源池进行承载,从实际运行情况来看,在业务高峰期间平均 IO 读数据量:0.8GB/s,平均 IO 写数据量 0.3GB/s 的高吞下,平均 IO 读时延 3ms,平均 IO 写时延 2ms ,实现 MOM 系统的高性能、高可靠承载。
·MOM 系统应用最佳实践配置
制造基地园区双活云平台不同应用的可靠性提升建议方案总结如下:
方案价值
生产业务稳定承载,消除单点故障
生产基地云平台的双活架构实现 MOM 等生产业务系统的稳定可靠承载,保障生产业务连续性。
敏捷弹性的数字化转型 IT 底座
分布式云构建资源整合、数据共享、业务协同的 IT 服务新模式,资源就绪时间从几小时缩短到几分钟。
大幅提升 IT 运维效率
云管理平台进行统一管理,利用分布式云的智能运维能力,实现总部对各个生产基地云平台的集中监控、运维管理,运维效率提升 40% 。
减少 IT 设备数量,降低成本
通过云平台替换物理服务器,以及基于云管理平台的精细化运营管理能力,极大提升资源利用率,减少服务器采购和能源消耗,减少 20% 。
0人