摘要:结合某连铸线的现状和改造要求,介绍连铸数据集市的构建方案和过程控制记录数据处理的方法。以二冷配水模型和质量判定模型的应用为例,根据对不同数据挖掘建模方法的效果比较,选择合适的模型进行现场运用。
关键词:连铸;过程控制系统;数据挖掘;数据集市
0 引言
某炼轧厂板坯连铸过程控制系统(二级自动化)是引自奥钢联的技术,引进时控制效果良好,但随着实际产量的增加,部分工艺设计己不能满足拉速增大、热送增多的现状。随着各种数据的通信、计算和存储量的增加,常出现系统资源不足、通信不畅等现象。
该系统的硬件平台选用美国DEC公司的Alpha Server 800服务器,目前己经停止生产,备件价格昂贵且不能保证供应;OS平台选用的是OpenVMS操作系统,与国内主流的Windows或Unix相比,熟悉操作的人员较少,发生故障时排除周期较长。由于软硬件平台的兼容性都较低,无法采用“升级硬件、移植软件”,的简单方法对二级计算机控制系统进行改造。引进系统时,由于其大多数控制模块为专有技术,所以只提供了系统的可执行文件以及部分调试接口程序没有提供完整的源代码文件和具体的模型方法。若为系统升级改造,再从国外成套引进软件系统,则需要付出数百万欧元的资金。因此改造方案选为采用数据挖掘技术,通过对连铸生产过程数据的分析处理,对原控制系统的模型进行逼近仿真。完成初步改造计划后,根据积累的经验,进而可以结合己知的冶金原理和专家知识等,利用智能控制技术取得的进展,确定控制模型并加以优化。
1 连铸数据集市的构建
根据炼钢、连铸数据的存储情况,直接进行数据挖掘不易进行,而通常建立数据仓库周期又比较长,所以考虑建立面向数据挖掘主题的数据仓库,即数据集市。连铸数据集市的设计思路应按照系统改造的应用目标和过程参数采集的特点来决定,同时兼顾企业未来数据仓库的建设。
该厂板坯线的电炉-精炼-连铸控制系统为一体化设计,采用OpenVMS系统下的(Oracle数据库储存过程数据。2005年电炉更换控制系统后,使用WinCC重新制作了人机界面,并用自带的SQLServer数据库保存电炉数据。2004年投产的转炉则使用IBM服务器硬件平台,数据储存于NT系统下的(Oracle数据库中。各阶段的化学成分光谱分析结果由红外传输,接收端为研华工控机,数据存储于VB开发程序所建的Access数据库文件中,如图1所示。为保证生产的安全稳定,生产网和办公网完全隔离,因此首先要将数据库中内容从生产网中导出,在办公网环境下进行数据库的重建、移植和整合。
控制系统对参数的处理方式主要按牌号(包含化学成分、主要质量等级和主要性能或使用特性等要求)和板坯规格(尺寸)分类。实际采集的数据则按照工艺过程储存,如炼钢参数主要是按炉次存储,连铸参数主要是按段(每0.5m为一段)存储,切割结果和质量判定结果等则按板坯产品存储(见图2)。因此设计数据集市时,需设置多个公共键码将各个表联系在一起。
2 数据挖掘的应用
目前搭建的数据挖掘平台采用一台DEC服务器和一台PC工作站。连铸数据库为一次备份间隔(6个月)期间浇铸的6000多炉钢的情况,记录了60多万段的过程参数值;其它数据库则为使用(投产或改造)后的所有记录。整合后的参数项约有300余个,其中连铸数据最多约有200余项。如此大的数据量如果直接进行数据挖掘几乎是不可能的,所以首先要按不同炉次、钢种、规格等方式对取值情况进行直观观测。在具体的数据挖掘应用之前需要根据参数定义和取值变化,进行数据的预处理。预处理的方法主要有基于事实的数据选择与校正、基于粗糙集理论的数据简化、基于统计分析的特征数据的提取、基于小波分析和神经网络的数据滤波及降维与压缩、基于遗传算法二元决策树的数据组合等,本文主要使用了前三种方法。预处理后可以根据参数记录值的分布进行以下属性简约。
2.1 参数记录值分析
结合参数的定义、采集和记录情况,对各个参数取值的变化进行分析后,得出参数值的分布规律主要有以下几种形式。
(1)全部为空值或全部为相同值
空值主要为预设参数值,在实际中未做检测或未做记录;相同值的参数大多为设备参数或原料类型等。在数据挖掘时不作为输入项。
(2)少量空值或少量为不同值
这时需要根据参数的定义和取值进行辨别。空值可能是记录值缺失,可根据具体情况填充或剔除。包含少量不同值可能是记录发生错误或者生产出现异常。前者的处理方式为删除或者估值,后者可根据参数的实际意义直接删除,但属于显著因素时则不仅保留,而且挖掘时要增加被选取的权重。
(3)标志值或系列值参数
这些值通常为一些开关量参数或类型选择参数。如图3所示,结晶器保护渣问题参数在操作人员按下操作台相应按钮时为“Y”,表示保护渣出现异常,否则为“N”。二冷水表型号参数为生产时所选用的水表系列编号。
图3参数类型和记录值分布例图
(4)范围值参数
范围值参数通常为生产中各仪表采集的参数、实验室分析参数或控制模型输出参数等。如图3中的浸入式水口插入深度和含碳量统计结果即为范围值参数。为便于数据挖掘时的计算,通常根据参数的意义和取值分布情况,对数据设定阈值或进行归一化处理。
2.2 二冷配水模型的确定
国内外对二冷模型的研究很多,积累了大量的经验,也发展了许多方法,因此单纯利用数据挖掘来仿真并非首选。可以结合采集的数据,运用数据挖掘的方法,来判断、选取己知的数学模型,并确定相关的特性参数等。传热的微分方程为:
式中,ρ为钢密度;c为比热容;T为温度,t为时间;λ为导热系数;q为潜热释放量。
忽略对流换热及铸坯在宽度、拉坯方向的传热,只计算铸坯厚度方向的温度变化,凝固传热方程则简化为一维形式:
式(2)加上初始条件和边界条件就构成了板坯的传热数学模型。可以采用有限差分法离散得出数值解,即将传热方程转换成差分方程,然后编制程序,用计算机模拟铸坯的受热状态和温度分布。
二次冷却水量控制所采用的数学模型分为静态模型和动态模型两种,在应用上主要有以下两种代表形式。
(1)拉速串级配水控制法
设定冷却目标表面温度曲线,利用传热模型的计算结果,确定二冷各回路水量参数(ai, bi,ci),通过公式
Qi=aiυ2+biυ+ci (1)
根据拉速υ自动配置各回路i的水量Qi。因而也称为参数控制法。
(2)目标表面温度动态控制法
计算机根据二冷配水控制模型每隔一段时间计算一次铸坯表面温度,并与设定的目标表面温度进行比较,根据差值结果给出各段冷却水量,以使表面温度与目标温度相吻合。
该厂连铸生产线的二冷系统由两部分构成,正常情况下采用二级控制系统进行动态控制;当二级出现故障时,则切换到二级系统由PLC进行静态控制,配水模型使用参数控制配水方式。
从数据集市中选取牌号为Q235B ,截面尺寸为200mm×1500mm的板坯过程参数进行分析,共取得16000条的段有效记录(约200炉),取其中10000条作为挖掘样本,另6000条作为检测样本。从历史数据分析,所记录数据大部分为二级控制结果。一级控制的各回路水量参数可以通过直接读取水表得出,而二级控制的模型对于使用者属于“黑箱”问题,无法直接看出输入输出的计算关系。
对各回路平均配水量(L/min)和平均速度(m/min)进行二次回归统计。由于速度过慢时,为保护设备常设定一个最小配水量,所以对低于一定速度的数据只选取最小值,不做拟合。以二冷区最前端喷水段“1I0”回路为例得到拟合曲线如图4所示,回归统计得出的水量参数各次项系数a,b,c见表1。图5为PLC配水曲线与拟合曲线对照结果。
表1 lI0回路水量参数
参数 |
a |
b |
c |
回归拟合 |
-59.866 |
438.105 |
-74.797 |
PLC水表参数 |
58.21 |
236.5 |
-11.68 |
从拟合曲线和静态控制曲线对照来看,回归统计可以还原出静态模式下拉速与配水量的对应关系,但是对于动态变化的控制方式即二级控制模型拟合曲线难以反映。因此,结合实际输入输出情况,使用神经网络来进行建模。
由式(2)和其求解过程可知铸坯的表面温度与初始条件和散热总量有关。对在控制过程中存在显著变动而且会对配水调节产生影响的参数记录项有:过热度、结晶器各侧进出水情况、之前回路的配水情况及在各阶段的拉速情况等,不变的参数如各段尺寸参数、目标温度曲线等不做考虑。仍以“1I0"回路为例,选取相应参数记录值作为输入,以当前回路的配水量作为输出,利用数据挖掘的方法建立三层BP神经网络模型。训练后模型对样本集的部分评价参数如表2所示。分别从两样本集中随机抽取2000条记录输入模型,作出预测值与实际值的相对误差分布图(见图6)。
表2 神经网络模型评价参数
参数 |
训练样本 |
检测样本 |
最小误差值L/min |
-67.032 |
-56.545 |
最大误差值L/min |
68.67 |
51.203 |
平均误差值L/min |
0.254 |
-4.304 |
绝对平均误差L/min |
10.858 |
11.294 |
标准偏差 |
13.833 |
13.639 |
线性相关度 |
0.787 |
0.797 |
图6模型预测结果与实际值相对误差分布
从训练结果的评价指标和预测值的相对误差分布情况来看,新建模型输出值与原模型输出值误差整体分布在5%之间,符合改造的目标要求。在实际运用中,如果待建回路模型之前的配水控制模型己经建立,用于控制本阶段配水的模型输入则可以只考虑其前一回路的设定水量和实际水量以及本回路的拉速,简化输入项,从而提高模型的训练和预测效率。
2.3 质量判定模型的建立
板坯质量的判定涉及的过程量很多,包括超出冶金原则限制、生产过程特殊操作和意外等。模型大多采用简化输入的神经网络模型或专家系统等来建立。
选取各工艺段对最终质量可能产生影响的参数记录项,通过对参数物理意义的分析,合并或去除一些冗余项,以提高数据挖掘的效率,对某些影响质量的显著因素可以考虑在挖掘时增加异常值被选择的概率。
仍以随机抽取的10000条记录作为训练样本集,另6000条记录作为检测样本集。按照参数的属性和取值的分布情况,选择87项与质量有关的过程参数,将相应记录值归一化处理后作为输入,原系统质量判断的结果作为输出,分别建立神经网络模型和决策树模型。神经网络模型采用三层BP算法模型,决策树采用C5.0算法,对于明显影响质量而数据取值分布不均的参数,在训练时调节抽取的权重,并与未调节数据训练结果进行对比,不同模型训练时尽量选取一致的终止条件。表3为训练后的各模型对训练样本集和检测样本集的预测结果正确率。
表3 模型预测结果正确率对比
模型类型 |
训练集 |
检测集 |
规则数 |
ANN |
97.62% |
77.60% |
/ |
ANN(调整样本) |
88.82% |
71.91% |
/ |
C5.0 |
95.19% |
75.15% |
22 |
C5.0(调整样本) |
95.50% |
85.53% |
36 |
从所得模型的预测结果可以看出,神经网络和决策树模型在经过训练后对训练样本的预测正确率都可以达到改造要求的精度(80%以上)。使用神经网络模型时可能会过于注重训练样本的细节,对训练样本预测正确率上升的同时,对检测样本的预测正确率则可能下降,即训练过度。用调整后样本训练时,理论上可以增加对显著因素异常发生时的预测正确率,但是对原样本分布的正确预测率表现为降低。决策树模型更注重对整体出现次数较多的样本分布进行分类,所以调整样本后可以提取更多的规则,进而提高对检测集的正确预测率。
神经网络虽然对每一输入都设置了权值,但是可解释性不强,其精确度也受训练样本的限制;而决策树规则中虽不包含所有输入,忽略了某些细节,但是其规则便于理解,可以结合知识和经验进行扩展,因而更适合作为本次改造选用的建模方法。同时提取的规则也反映了对质量结果影响的关键因素,可作为改善工艺研究时的参考。
2.4 参数和模型的优化
利用数据挖掘得出的二级配水模型运用时经过持续训练虽然可以达到最优效果,但外部表现为“黑箱”,难以解释和调整,所以在完成技术改造后,还应利用连铸二级控制模型研究方面的进展,结合数据挖掘结果,开发出更为清晰明确的模型,以改善控制的效果。对于质量判定模型,要扩展训练样本数量,利用实际的质量结果来训练,以提取更多更准确的规则,同时可以结合冶金原理和现场经验,构筑专家系统,提高质量判定模型的准确率等。由于用于数据挖掘的数据仅为积累数据的一部分,因此为完善模型还有大量工作可做。此外利用构建的数据挖掘平台还可以对日常生产中遇到的问题进行更为有效的分析处理。如对工艺参数的设置和控制进行优化,改善过程能力;结合板坯的实际质量结果,进行原因分析,查找影响质量的关键因素等。
3 结论
利用数据挖掘技术,可以对内部未知的系统进行动态模拟,进而提取规则。根据不同的应用对象,选取适用的模型和算法,可以提高建模效率。通过对连铸数据的挖掘,不仅使我们初步达到了技术改造的要求,也对国外技术有了更为深刻的理解,为自主开发连铸技术获得许多经验和启发。构筑的数据挖掘平台在其它方面也有相应的应用价值。