过去20年里,计算领域发生了很大的变化,无论如何变化,计算机处理和产生数据的重要性却没有改变,数据一旦丢失,所有的计算能力变得毫无价值。作为信息化的规划者和建设者,必须看到,数据逐步成为一个自有存储的、不属于任何特定系统的实体,就像资本或智力财产一样,数据也成为一种可以共同享用的财富,需要加以存储和保护。这正是数据存储与管理的目的和意义所在,是本文内容所在,也是浪潮存储对客户的价值所在。
数据存储的三种方式
信息系统有三种方式,可以把信息以数据的形式存放于存储设备中,它们是在线、近线和离线存储。在线存储是把数据存放在被主机的文件系统直接管理的磁盘存储设备中,其特点是利用了系统底层的I/O技术,优点是可以实时访问和改变数据,性能出色,能够满足应用对I/O性能的要求。近线存储是指把数据存放在另外一套主机的文件系统直接管理的磁盘存储设备中,这个方式通常借助一定的软件和网络来实现不同系统间的数据异地存放,以及需要时的数据回迁,其优点是数据同样存放在正加电运行的系统上,能够保证数据存放和回迁的传输性能。离线存储是指系统运行的情况下,把数据存放在可随时脱离系统的磁带设备中,其最大的特点是借助了磁带技术,优点是可以在系统运行时得到一份脱离系统的数据拷贝,便于存放在异地。这三种方式的组合应用,将会带给用户完善的数据存储和管理方案。
先存储,后管理
信息化的核心目的,是利用信息技术提供更好的生产和服务方式,提高组织的竞争力。完整的信息化系统,通常由多个子系统构成,例如OA、Email、Proxy、DNS、DHCP,以及各类应用子系统等等。各类系统能够7×24运行,这是信息化的基本要求,为了达到这个要求,必须有完善的数据在线存储解决方案。全局考虑各子系统,为整个网络系统设计统一的数据在线存储系统,可以简化管理,减少投资,更可为数据管理打下基础。数据管理方案,则是系统生命力持续的保障措施,也是走向数据再利用,发挥数据增值能力,强化竞争力的基础措施。因此,设计完善的数据管理方案,首先必须设计完善的数据在线存储方案。
随着存储技术的发展,存储出现了三个趋势:独立化、集中化和网络化。SCSI技术实现了存储的独立化,使得存储从主机系统中独立出来,成为独立的设备。Fibre Channel技术的出现,产生了FC交换机、HBA卡和FC磁盘阵列,允许用户独立于企业局域网络,在信息中心后台,设计出一个统一的数据在线存储系统,也就是存储区域网络(FC-SAN)。最近出现的iSCSI技术,成为Fibre channel技术的有力竞争,使得用户在同一套以太网络上,构建出数据传输系统和数据存储系统(IP-SAN)。信息化规划中,可从这三种技术中选择最恰当者,来构成数据在线存储系统。
数据在线存储归根到底是一个模式问题。无论存储技术如何发展,目前看,存储模式始终脱离不了DAS、NAS、SAN三种,其中DAS、SAN模式是以“块方式”进行数据存储的,NAS是在以太网络上,以“文件方式”进行数据存储。无论应用系统差异多大,其数据读写方式无外乎两种:块方式、文件方式。通常情况下,各类数据库应用,例如ERP、MIS、HIS、DM、KM、CRM等等,都需要“块方式”来保证数据库的性能;而各类多媒体数据应用,例如数字文件、数字图片、数字视频、数字音频等数据,以及Email、Ftp、Web、E-Game等网络应用的数据,是以文件形式被存储和利用的,可以根据系统规模和并发请求数对系统性能的要求,来选择“块存储”还是“文件存储”方式。把握住系统的数据处理方式,清楚数据是如何产生的,以何种方式被存储和利用,进而考虑各子系统在存储性能、容量、扩展性、可用性、可管理性方面的要求,即可为各子系统设计出合适的存储模式,解决数据存储问题。
数据管理,按需定制
数据管理有别于存储管理,存储管理的对象是存储空间(或称存储资源),其主要内容是存储设备状态监控、存储空间在线动态扩展和调整、存储空间的统一管理和分配等,目的是为了向主机及其应用提供稳定可靠的存储空间。数据管理的对象是在线存储系统内的数据,其管理内容主要有:利用各种不同的手段获取数据拷贝以实现各种级别的数据安全和高可用特性、在不同的存储设备中迁移数据、管理数据内容。存储管理针对在线存储系统,而数据管理则更多的利用了数据的近线存储和离线存储方式。
设计数据管理方案,首先必须目的清晰。数据管理的目的主要有:保障系统生命可持续、提高存储资源利用率(或节省存储成本)、进行数据共享或再利用(从而进行效益增值)。数据管理是依附于在线存储系统的,因此设计数据管理方案时,必须考虑在线存储系统的模式。明确了存储模式和数据管理目的之后,才可以在各种数据管理手段中,例如高可用集群、备份、复制、容灾、迁移、内容管理等等,选择出合适的手段,实现理想的数据管理。
高可用集群,是在存储在磁盘阵列中的同一数据上,连接2个或者多个相同的主机,通过特殊的软件,使多个主机对外虚拟为一个应用系统,对内可以在多个主机间分配负载实现负载均衡,或者指定主机和备机系统,以在主系统宕机下,备机系统接管应用,保证应用继续运行,从而实现应用高可用的技术。高可用集群可以有效保障系统的可持续性,尤其适合关系数据库,例如SQL、Oracle、Sybase、Informix、Mysql、DBII上的各类应用。
备份是指用一定的方式形成数据拷贝,以在源数据遭到破坏的情况下,可以恢复数据。备份有近线备份和离线备份两种方式,其区别主要在于备份设备是磁盘设备还是磁带设备。根据不同的规模和不同的存储模式,备份有单机备份、网络备份、Sever Free和LAN Free备份等几种方式。比较而言,单机备份仅仅适合于单一应用系统,同一网络下的多个应用系统,适合采用网络备份,在采用SAN存储模式的环境下,Server Free和LAN Free则更有效率。
复制是指将系统主磁盘设备内的数据复制到其他系统内,数据复制有同步复制和异步复制。通过不同的软硬件设备,不仅可实现局域网内,还可实现广域网上的数据复制。数据复制软件和近线存储结合,可以形成高性能的数据备份解决方案,相比较磁带备份而言,这种方式可以做到数据更新时的实时备份,更可在源数据丢失后,短时间内完全恢复数据。同步数据复制软件和高可用软件结合,则可以实现系统容灾。
容灾是指在主应用系统之外,在异地建立一套备份系统,通过数据复制软件,把数据同步复制到备份系统中,通过高可用集群软件,监控主系统的运行状态,一旦主系统因为各类灾难而宕机,备份系统即可接替主系统的工作,保证系统实时在线可用。容灾可以带来很高的可靠性,但容灾的建设投入相对非常大。
迁移是指将高速、高容量的存储设备(如非在线的大容量磁带库、在线的磁盘设备)作为主磁盘设备(磁盘阵列)的下一级,把主磁盘设备中不常用的数据,按照指定的策略自动迁移到二级存储设备上。当需要这些数据时,自动把这些数据调回主磁盘设备中。通过数据迁移,可以实现把大量不经常访问的数据放置在离线或近线设备上,而只在主磁盘设备上保存少量高频率访问的数据,从而提高存储资源利用率,大大降低设备和管理成本。数据迁移技术通常适合医疗行业的PACS系统、气象、地震、水文的HPC和HPS系统、传播媒体、专利、保险、图书、银行、会计、档案管理行业,以及工业设计和市场推广行业。
内容管理是数据管理中的新兴技术。传统的数据管理方式采用结构性关系数据库,仅能处理结构化数据,而绝大多数的信息,例如文件、报告、视频、音频、照片、传真、信件等,都是非结构化的,这类信息的管理成为数据管理的难题,内容管理技术由此而生,内容管理要解决结构化和非结构化数字资源的采集、管理、利用、传递和增值等工作。
同种管理手段在实际应用种的方式千变万化,但在实现原理上是类似的。信息化建设中,要考虑每个子系统的情况,考虑其应用关键性高低、系统节点数量多少、数据类型和读写方式、数据规模大小、是否跨平台、是否跨网络等因素,紧紧把握数据管理的核心目的,按需定制,选择一种或多种管理手段,达到数据管理的理想状态。