大型数字矿山大数据资源管控体系的构建与实施

行业资讯
2023-02-03

摘要:立足现有数字矿山的业务系统建设,对企业业务系统档案大数据归档及利用展开研究,促进档案实体管理向信息管理的转型,探索制定电子档案大数据从收集、整理、分类、归档到利用的全流程适配规则体系,推进档案大数据管理理念、体制和方法的重大创新。

一、实施背景

为贯彻落实《关于加快煤矿智能化发展的指导意见》(发改能源﹝2020﹞283 号、国家能源局《智能化煤矿建设指南2021》及《煤炭工业发展“十三五”规划》等精神,建设绿色矿山,曹家滩在矿山自动化、信息化、数字化建设的基础上,推动云计算、大数据、物联网、人工智能、移动通信等新一代网络信息技术在矿山领域的全面应用。

预计到“十四五”末,曹家滩公司智慧矿山将实现云端、矿端、移动端同时具备设计、生产、安全、经营、节能环保等方面的决策模型,并能利用这些模型,实现计划排产、安全保障、运输调度、煤炭洗选、成品装车等各个环节任务的自动分解与执行。构建“建、监、测、运”四维一体化的智慧矿山建设管控模式,确保智慧矿山建设实现协同管理、过程控制、实时监管的目标。目前,公司智慧矿山已建设55个子系统(其中,包括井上下检测监控系统等32个监测监控类子系统和矿井综合调度业务系统等23个业务管理类子系统),并已投入运行。

二、数字矿山档案管理面临的挑战

随着数字矿山建设逐步推进,企业工程、生产、管理、控制等各种数据采集端,每时每刻捕捉大量的数据信息,这些数据信息包括数字、文本、图像、视频等,有结构化数据,非结构化数据和在线交互产生的行为活动数据,在这种大数据背景下,对传统档案管理的理念和管理方式造成了巨大的挑战,给档案收集、分析、鉴定、归档、存储、利用形成很大难度,档案人工操作、鉴定、分类工作异常繁重,传统档案管理系统与业务管理平台脱节,造成数据流转不畅和库胀,对档案数据资产治理提出了新的要求。

三、数字矿山档案大数据管控的目标

通过对业务系统归档大数据的特性分析,研究大数据技术对业务大数据归档规则及档案利用价值实现方式,初步建立公司业务系统大数据归档利用体系,实现业务系统大数据的全面归档和利用,为大数据智能化归档利用、为全面提升企业档案管理能力、实现档案数据高赋能价值探索新的途径。

四、数字矿山档案大数据管控体系的构建

(一)数字矿山业务系统大数据形成分析

曹家滩矿采用1个统一的管理平台,即“综合调度管控平台”,平台包括4个专业的管理系统,即“安全和生产综合管理系统”、“智能化管理系统”、“安全管理与决策支持专家系统”和“运营管理系统”,系统之间数据资源进行关联和实时共享,实现了高精度透明化地质模型、设备模型的建模,对生产过程的数据实时集中监测监控,为生产运营提供综合管理和决策支持。

智能化矿井总体划分为五个层次,即管理决策层、调度控制层、数据处理层、网络传输层、数据采集与执行层,如下图3-1所示。

1.数据采集与执行层

本层设备既是数据的采集者,也是决策信息的执行者,主要包括四个方面:即生产监控综合自动化(如综采工作面自动化、排水自动化、智能主煤流系统、洗选自动化等)、安全管理(如瓦斯、水文、火灾、矿压、精确移动目标管理等)、调度及通信系统(如行政、调度、移动通信等)、智能化场区(如场区通信网络、LED 信息发布、一卡通等)。

2.网络传输层

网络传输层包括用于企业管理的万兆以太网和用于工业控制的工业万兆以太环网,实现所有信息的传输,由有线和无线组成的全覆盖网络。

3.数据处理层

是从数据存储、分析、关联、处理全过程的云计算数据库系统,建立包括“安全和生产综合管理系统”、“智能化管理系统”、“安全管理与决策支持专家系统”和“运营管理系统”。

4.调度控制层

在矿井生产指挥中心实现对井上下各生产和辅助生产子系统的实时在线监测控制、工业监控数据集中管理和统一调度,通过大屏幕进行信息与数据的展示。

5.管理决策层

实现领导管理决策及信息的对外发布,并将信息定期上传至集团。

智能矿山业务系统总体架构图

智能矿山业务系统总体架构图

其中,对以下两个核心业务系统的大数据形成分析如下:

“设备资产管理子系统”各功能模块子菜单共60多个,菜单对应静态数据(或文件)条目约5-10组,每组数据对应的元数据约5-15条,因此,初步按月(或日/时)静态统计,设备资产管理系统的数据产生量是5000-7000条。数据结构包括常规版式报表文档、结构化数据、半结构化数据以及相关附件、图表、图形、照片等音视频文件。

“安全信息管理子系统”8大功能模块子菜单共约50多个,菜单对应数据(或文件)条目约5-10组,每组数据对应的元数据约5-15条,因此,初步按月(或日/时)和静态(非异常状态)统计,设备资产管理系统的数据产生量约是9000-10000条。数据结构包括形成的常规版式报表文档、子菜单下结构化数据、半结构化数据以及相关附件、图表、图形、照片等音视频文件。

全矿井每年形成的数据量约超过1TB或1.5亿条之多,数据量非常庞大。

(二)大数据归档利用软件技术平台建设

针对现有智能矿山比较成熟的各业务系统,进行具有探索性、实验性的数据研究,研究对象为电子数据,包括单一来源的工业数据及其他数据。通过研究获取数据形成和分布的规律,形成规则,通过软件技术平台开发,使用软件对数据接收、清理、分类、管理和利用进行技术验证,为智能矿山各业务系统大数据全面归档提供验证性数据和标准规范。

“大数据归档利用技术平台”主要是在原已建成的“传统档案管理系统”的基础上,增加对业务大数据采集、处理及归档的管理功能,实现大数据与传统档案数据有序共存和充分融合,从而达到使档案管理更加高效,档案数据挖掘利用更加智能便捷。

1.曹家滩矿原传统档案管理系统

曹家滩现有档案管理系统基本满足传统档案的日常管理需求,具备主流档案管理系统的基本功能模块,如档案业务管理和系统设置功能。其中,档案业务管理包括:文件管理、收集整编、档案管理和开发利用等,涵盖了档案业务的收集整理、日常管理和信息开发利用工作。系统设置包括:系统权限定制、档案管理架构定制、档案整理规则定制及对数据设置、用户使用维护工具等。数据库包括:档案目录数据库、档案全文数据库、多媒体档案数据库、档案管理数据库、系统维护数据库。系统采用B/S架构,集成PDF转换、流媒体、全文检索、报表设计、多格式文件浏览、OCR识别等技术。系统基本功能展示如下图:

原传统档案管理系统功能图


原传统档案管理系统功能图


本系统现业已形成档案条目数据约12000多条,挂接档案原文数据约15万多条,数据容量约10G多。主要包括煤矿建设期间的文书档案、基建档案、设备仪器档案及特殊载体类档案等。

2.对原档案系统升级改造规划

为了将业务数据归档,需对原档案系统进行系统性改造升级。对原档案管理系统改造本着:“总体规划、整体改造、平稳过渡、全面提升”的原则进行。

通过前期总体规划,对“原档案管理系统”收集整理、查询利用等各类功能进行全面评估,保留档案管理基本业务模块,改造局部薄弱环功能。在扩展并兼容原传统档案管理功能基础上,保持数据管理相对稳定性,分步重点开发业务大数据采集处理功能。并结合业务管理需求,着重提升档案数据管理效能,重点突破部分典型业务数据挖掘利用,建立企业档案大数据“一体化”管理。

改造后新档案管理系统(即“大数据档案管理利用平台”)的管理对象包括:业务数据类档案和传统载体类档案。其中,业务数据类档案来源于试点的两个典型业务系统,通过大数据管理工具,对业务数进行范围鉴定、规则清洗和数据转换,进入新的独立数据库和业务结构表,并进行归档保存;而传统类档案则基本来源于人工录入数据库,在基本继承原档案业务管理模式下,采取相对独立的方式,将数据平滑移植保存,也可将原有部分电子文件结构化处理,转换成新的数据档案,从而使业务大数据档案与传统档案更加高效融合,提升大数据(包括元数据)管控效率,实现大数据档案和传统档案有效联动和价值提升。业务大数据大数据与传统档案系统融合关系见下图:

业务大数据档案与传统档案融合关系图

业务大数据档案与传统档案融合关系图

3.大数据档案管理利用平台总体架构

大数据档案管理利用平台是基于“内容管理基础平台”基础上,在融合已有传统“档案管理系统”上进行改造扩展,主要包括“大数据处理”、“大数据档案管理”及“大数据档案利用服务”3个主要子系统,系统总体架构如下图所示:

大数据归档利用平台总体架构图

大数据归档利用平台总体架构图

业务系统是档案大数据的“生产”源泉,大数据处理子系统是为了完成数据归档及后期数据挖掘利用而进行的数据预处理,并完成归档操作;大数据档案管理子系统主要实现大数据档案的“收”、“管”、“存”、“用”的功能;大数据档案利用子系统主要完成大数据档案的展示、更高层次挖掘服务和价值实现。通过将业务系统大数据和传统档案数据的统一整合,形成完整的大数据档案综合数据库,进行数据单向和合成调用,优化数据结构、实现数据综合分析,形成对大数据全业务属性挖掘利用。   

4.系统技术架构

系统采用J2EE多层软件体系,通过Web表示层实现应用系统的用户接口,采用业务逻辑层和数据处理层实现基础服务和应用系统的业务逻辑,通过数据存储层实现数据的集中存储和数据结构的统一。Web应用系统通过以XML作为数据接口标准,以Web Service /Restful标准作为基础服务描述标准和数据接口标准。Web Service 通过标准的 Web 协议向 Web 用户提供功能,采用 SOAP 协议。

5.大数据归档流程

大数据完整的生命周期管理覆盖了数据的生成、采集、处理、存储、归档、管理、利用等环节,建立一套标准化、规范化的数据处理流程,解决:采集内部、外部数据、结构化和非结构化数据;清洗采集来的脏数据和无效数据;对不同来源的数据进行打通;对非结构化的数据进行结构化加工;在结构化数据的基础上进行建模和数据挖掘。

大数据处理子系统构建了一条完整的大数据处理流水线。系统通过预先定制的大数据归档范围、归档条件、清洗规则、归档时间及档号编码等,把原始杂乱无章的数据自动归入已建成的档案管理系统,归档后的档案元数据进入元数据库,电子原文件进入内容库。

同时,通过大数据档案管理系统实现大数据档案的全生命周期管理,供上层的大数据利用子系统调用,形成的完整的从数据采集抓取、数据自动鉴定、数据清洗整理、数据移交、数据保存及利用的全流程管理,见下图:

档案管理业务流程图

档案管理业务流程图


6.内容管理基础平台

内容管理基础(非结构化)平台是本项目技术实现的基础平台,其技术架构如下:

内容管理平台技术架构图


内容管理平台是基于分布式存储、分布式检索、分布式并行处理、分布式缓存等大数据等技术等搭建的非结构化数据支撑平台。满足电子文件、档案、文件库等非结构化数据全生命周期的管理及利用需求,保证非结构化数据规范化、流程化、自动化管理。

(1)分布式文件系统

分布式存储具有强大的横向扩展能力,借助网络将物理分布的存储资源聚集在一起,可堆叠的用户空间设计,为各种不同的数据负载提供提供海量文件存储支撑。

(2)分布式检索系统

用于检索海量非结构化元数据,以处理自然语言文本为中心的企业级搜索引擎。

(3)分布式转换系统

可把需耗费大量计算资源的任务分发到不同的计算节点来完成。包括图像处理、office系列、WPS系列的文件格式转化,音视频转码,支持人脸识别、语音识别、视频识别等处理。

7.大数据处理子系统

本子系统数据数据来源于两个业务管理系统,通过ETL工具对接口文件数据进行编码替换和数据清洗转换,不做关联操作,数据分层关系见下图:

大数据档案处理子系统数据分层图

大数据档案处理子系统数据分层图


(1)数据分类

数据分为主数据、业务数据、分析数据三个主要的数据域。其中,主数据是指在整个系统间共享的、高价值的数据,跨越各个业务部门被重复使用,并存于多个异构的应用系统中。

(2)数据采集与抽取

1)定时(或不定时)从业务系统数据库、基础数据库、主数据库等相关库中抽取数据。在这个过程中,首先,结合业务需求、归档范围确定抽取的数据字段(或元数据),形成公共要素表头,数据库字段(或元数据)与归档数据字段(或元数据)形成一一映射关系,使数据具备统一、规范、标准的字段信息属性,为数据转换、加载利用提供基础。

2)定义数据接口,对每个源文件的元数据字段进行详细描述,明确定义数据属性及格式。

3)确定数据获取的方法:选择主动抽取还是业务系统推送的方式;选择增量抽取还是全量抽取;定时(每日/时/月/年)抽取还是按照非定时抽取;特异性数据抽取还是非特异性抽取等等。需对业务数据进行全面的鉴定、筛查和梳理,工作量较大,现已完成了部分数据的样例分析,后续需要全面完成。

例1:“安全信息管理系统”的“一通三防”模块中“有害气体数据实时数据表”,需要按班/特异性增量抽取;“安全标准化管理”的“综采工作面安全管理数据”,则采用按班/特异性全量抽取;“通风管理”的“通风管理月报”“通风机运行参数台账”则由业务系统推送,按月(或班)定时汇总完成数据采集等。

例2:“设备资产管理系统”的“设备合同管理”需按月/增量进行数据收集;“设备大修管理”需按大修周期(年/半年)进行数据全量抽取;“设备运行记录”需按班/特异性全量抽取等等。

(3)数据清洗

根据业务规则对异常数据进行清洗,将不完整数据、错误数据、重复数据进行处理,保证后续分析结果的准确性。对不符合要求的数据,主要包括不完整数据(缺失值)、错误数据(异常值)、重复数据、不同类型进行归一化处理,处理方式如下:

不完整数据处理:其特征是是关键信息缺失,如供应商名称,分公司名称,客户区域信息、主表与明细表不匹配等。需将这一类数据过滤出来,按缺失内容分别采取定(范围)、删(字段)、补(数据)。

错误数据处理:产生原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有回车、日期格式不正确、日期越界等。这一类数据要分类挑选修改。

重复数据处理:特别是二维表中比较常见,应将重复数据记录字段导出系统,重新确认整理。

数据归一化处理:采用最值归一化、均值方差归一化、非线性归一化等方式进行处理。

(4)数据归档

大数据归档利用平台是基于非结构化数据管理平台开发,非结构化数据都存储在非结构化数据管理平台中,元数据信息存储在独立的关系数据库中。为适应业务系统管控范围的变化,采用由业务系统建立单独数据库来实现与大数据归档利用平台的集成,与业务进行分离,不影响业务系统的正常使用和运行。同时,重点评估对档案系统已归档数据的影响,合理采用平行数据库进行分区、分类管理,避免业务动态数据进入档案系统后,对原归档数据的扰动,做到业务增量数据预置条件规范明确,动静数据合理共存,管理有序,系统运行稳定。

例如:“设备资产管理系统”的“设备合同管理”新产生的设备合同数据在归入“H设备类”时,面临合同档号被占用,无法插入的问题。为避免新增数据对老数据的干扰,通过增加“设备位号代码”和附件分区存储的方式,并与老数据进行关联(即互见)对应,避免新旧数据扰动,保证了数据系统性和分类的稳定性。

(5)数据集成服务

业务系统捕获电子文件及元数据信息,经过对结构化数据的转换、元数据的封装等处理后,调用非结构化数据管理平台提供的电子文件集成接口,将电子文件的相关信息推送到大数据归档利用平台,见下图:

接口调用和数据处理示意图


具体流程:业务系统按照电子文件元数据封装规范封装元数据、文档和接口调用描述信息;调用集成接口向大数据归档利用平台进行数据推送;大数据归档利用平台集成接口对业务系统的身份认证信息进行验证;业务系统身份认证通过后,把实体电子文件存入非结构化数据管理平台,非结构化数据管理平台返回文档存储后平台为其生成的文档ID;大数据归档利用平台集成接口对电子文件元数据进行校验,校验通过后将电子文件元数据信息存入元数据库中;返回集成接口调用结果。如果集成接口对数据处理成功,则返回成功信息和存储文档的ID、电子文件的ID到业务系统;如果集成接口在处理数据过程发生错误,则将失败的信息返回到业务系统。

8.大数据档案管理子系统

大数据档案管理子系统是基于原有档案管理系统进行改造扩展优化,即对传统档案和大数据档案(含数据模型)进行档案业务集成管理的综合平台,主要包括:

(1) 收集整编

档案系统的档案采集有档案接收,数据导入和在线著录三种方式。

按配置好数据结构,接收业务系统推送的档案数据,直接进入整编库或者保存库,无法处理的,送入中间表让管理员确认;支持本地文件自动和手工导入或第三方系统导出的多格式数据文件以及离线客户端数据包;支持自动整理,由系统自动分配编号、自动生成档号、自动组卷,支持调件(卷)、同分类调件(卷)操作以及及手动整理模式(主要用于兼容历史档案数据,支持手动编号、设置档号、手动组卷(盒)等管理操作);支持多种电子文件挂接方式,如单个档案挂接(逐个档案进行电子文件挂接操作)、批量档案挂接(通过设定匹配规则等。

(2) 档案管理

完成日常的管理工作,包括案卷和文件微调、打印封皮目录及脊背、出入库操作、保管期限到期鉴定、保密期限到期鉴定、档案销毁、数据备份和恢复管理等,包括档案移交、鉴定销毁、库房管理等。

(3) 综合利用

对实体及数字档案资源进行多种形式的利用。包括实体档案的借阅审批、登记流程,对数字档案资源的协查请求及推送,档案专题的汇总编研,档案利用光盘的制作,以及跨全宗利用管理,具体包括:电子利用、实体利用、档案协查和推送、跨全宗利用管理、档案编研、档案统计等。

9.大数据档案利用子系统

大数据利用子系统是传统档案管理系统优化升级后主要的利用平台,除了具备传统档案系统利用的基本功能之外,大数据档案利用子系统运用大数据挖掘技术对大数据档案及传统非结构化数据档案进行挖掘利用,一方面基于结构化数据进行业务建模进行数据挖掘,同时,对非结构化数据进行文本数据挖掘,利用大数据可视化技术展示出来,主要功能如下:

(1)大数据档案挖掘分析支持多种数据挖掘算法分析,可以生成分类、聚集、回归模型,适应在多种行业的机器学习场景提供挖掘分析功能。

(2)大数据档案可视化管理,通过多种方法来实现,比如多角度展示数据、聚焦大量数据中的动态变化以及筛选信息,包括动态问询筛选,星图展示和紧密耦合等。

(3)大数据档案全文检索,大数据利用子系统提供数据全文检索功能,需满足检索响应快、实时性等要求。

例1:对“合同质保金”释放进行自动管理。通过“设备资产管理系统”的“设备合同管理”与“设备维修台账管理”,对某设备的归档数据进行综合检索。将“履约时间-质保期限-中间付款额-质保金额”和“设备维修运行记录”等一系列元数据管理信息进行筛选和耦合,在设备合同到期时,通过档案系统检索形成“设备履约台账”进行自动提醒,便于指导财务部门进行“质保金”的释放审批。

例2:分析“安全信息管理系统”的“安全综合管理”多年累积归档形成的“安全整改通知单”,对其“事故发生点”“发生时间”“责任人”等元数据进行汇总、统计,并与“生产管理系统”的“产量管理”进行综合关联、分析研判,建立“事故发生率”和“产量变动”的对应关系,指导安检部门在生产峰谷期间对易发工作面、工位、时段的事故进行分类管理。

10.系统安全方案

系统采用严格的用户权限体系,对用户进行统一安全管理,从用户角色、用户授权、用户访问、用户执行权限等方面进行安全防护考虑,系统包括了用户机构管理、角色管理、权限管理等相关功能。

系统支持“三员分立”,初始定义系统管理员、安全保密管理员、安全审计员、高级档案管理员、档案管理员、兼职档案员、普通用户7个常用角色,系统支持自定义理角色,包括角色名称、类型(档案室、业务部门)、功能权限配置、数据权限配置以及用户绑定配置。

系统功能权限通过“用户-角色-功能”进行配置。系统将支持分级管理、分级授权的机制,支持权限的继承,能对所有上机操作人员自动判断权限,拒绝、警示非法操作并加以记录。

采用水印配置、安全审计、用户登录日志、数据加密、数字水印等技术强化安全管理。

11.电子档案“四性”保障机制

电子档案“四性”(真实性、完整性、可用性和安全性)保障的策略如下图所示:


档案“四性”检测流程图


(1)建立可信的数字档案管理系统。

(2)采用技术手段实现“四性”保障;真实性:通过集成电子签名或采用认证码方式实现电子档案的真实性保障,可集成应用单位信任的电子签名,采用128位MD5码的验证方式。

完整性:在遵循国家标准规范的基础上,在接口环节实现对元数据和电子文件完整性进行检测。

可用性:遵循国家要求的档案元数据和文件格式规范,将电子文件转换为适合长久保存的PDF-A或OFD文件格式归档,通过电子签名或MD5认证码认证电子文件的可用性。

安全性:建立网络级和系统级病毒防护和查杀,保障电子档案在系统中不会感染病毒。完善的身份鉴别、访问控制、安全审计和容灾备份等功能保障电子档案数据的安全性。

五、数字矿山档案大数据管控体系建设成效

目前,曹家滩矿全面实现了档案“全数据化”管理,电子文档管理系统数据已经达到近100多万条,存储已达10TB数量级,为企业提供了强大、海量的档案信息管理应用,实现了数据远程同步录入及文档一体化管理,有效提升了企业档案数据资源整合力度和价值含量。改进了数据识别、数据检索、数据关联的手段和方式,提高了数据调阅、数据下载及利用等多方位的服务功能,有效地支撑了项目建设、生产运营、科技创新、技术升级改造工作,为数字矿山文档管理科学化、标准化、规范化起到了重要的奠基和引领作用,填补了国内煤炭行业档案大数据标准化管控体系的空白,实现了企业数据资源向数据资产的重大转变,取得了以下具体成果:

1.建立数字矿山大数据采集规则和归档规则。创新数字矿山大数据档案管理规范,填补业务大数据档案自动归档、自动编码的行业空白。

2.建立数字矿山智能化归档软件平台。基于弱人工智能技术,完成电子文档归档全自动化,提升归档效率,降低档案人员工作强度,填补大数据归档技术空白。

3.构建数字矿山业务大数据无限量资源存储管理平台。建立一个容量可无限扩展、数据可长久保存的数字资源存储试验平台,实现了业务档案数据资源长期安全保存。

4.建立数字矿山大数据跨平台安全管理。通过建立封闭的数据管控架构和数据传输检测机制,确保数据符合“四性”要求,做到数据完整有效,为档案单轨制提供基础安全保障。

参考文献

[1]刘文革 韩甲业. 我国新型煤化工产业发展现状及趋势 [J].化工学报, 2012, 63(1): 3-8.

[2]李寿生. 升级示范持续创新努力开创现代煤化工发展新局面[J].煤炭学报,2017, 36(2): 179 -184.

声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。 联系方式:services@kjzj.com

收藏 收藏
已收藏 已收藏 收藏 收藏
相关资讯
返回顶部
求购