45
3 页共 47 设备维修信息统计与预测 要: 随着电器市场竞争的日趋激烈,电器经营商的经营模式逐渐从技术驱动市场驱 ”“客户驱动转化。面对客户的多样化、层次化、个性化的需求,大众化营销已经失去了 其优势,基于客户购机信息、维修信息,深入数据分析的售后服务理念逐渐被各大电器经营 商所接受,并渴望通过从数据中挖掘价值来减少大量无用或少用设备储存所耗费成本、提高 售后服务效益以及客户满意度,为了达到以上目标,需要对数据进行一下处理: 首先是建立产品分群模型。根据文献并对已有数据进行预处理,通过主成分分析筛选出 7个指标作为企业产品分群的核心维度,利用二步聚类分析法进行产品分群和初步评分。先 对数据进行预聚类、准聚类过程,构建聚类特征树(CFT),分成很多子类,再以第一步完成 的预聚类作为输入,对之使用分层聚类的方法进行再聚类(对数似然函数),即可根据客户 的消费行为和习惯分析得到哪些产品的受欢迎度最高。 然后建立设备潜在故障预警模型。将产品细分模型所得的 8 个产品群的数据进行预处 理,选择对设备潜在故障影响最大的 5 个属性作为主成分分析法中所选用的要素。通过 SPSS 软件,对数据进行主成分分析和降维处理,根据所得的数据可知,这 5 个属性可由 3 个主成 分来综合表示,可发现这 3 个属性与设备潜在故障有较大联系,再通过 SPSS Modeler 软件 对这 3 个属性进行关联分析,按支持度大小反映某型号设备出现的常见故障现象。 接着是建立设备的故障时间分布模型。建立新的变量时间分布,时间分布等于派工时间 减去购机日期,得到时间分布这个属性说明设备首次发生故障的时间,将数据进行分类,得 到三个产品大类:空调、洗衣机、冰箱的备件故障的时间分布,通过频率分析选取频率较大 的的更换备件的个案,作为主要备件进行设备故障时间分布的模型建立所需要的数据,用一 个季度作为单位通过统计同一个产品大类中同一个设备故障的频数,使用 matlab 软件对数 据进行拟合,建立相应的模型,作为该模型的方程,从而得到该设备的故障的时间分布模型。 最后,根据上面已经建立的设备故障时间分布模型预测分析主要备件在不同时期的需求, 进而来更好的进行配件储备工作。 关键词: 主成分分析、二步聚类、SPSS Modeler、关联分析、拟合

 · n e eeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeo e pqrÄ eeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeee o se kt eeeeeeeeeeeeeeeeeeeeeeeeee eeeee eeeeeeeeeeeeeee

Embed Size (px)

Citation preview

第 3 页 共 47 页

设备维修信息统计与预测

摘 要:

随着电器市场竞争的日趋激烈,电器经营商的经营模式逐渐从“技术驱动”向“市场驱

动”“客户驱动”转化。面对客户的多样化、层次化、个性化的需求,大众化营销已经失去了

其优势,基于客户购机信息、维修信息,深入数据分析的售后服务理念逐渐被各大电器经营

商所接受,并渴望通过从数据中挖掘价值来减少大量无用或少用设备储存所耗费成本、提高

售后服务效益以及客户满意度,为了达到以上目标,需要对数据进行一下处理:

首先是建立产品分群模型。根据文献并对已有数据进行预处理,通过主成分分析筛选出

7个指标作为企业产品分群的核心维度,利用二步聚类分析法进行产品分群和初步评分。先

对数据进行预聚类、准聚类过程,构建聚类特征树(CFT),分成很多子类,再以第一步完成

的预聚类作为输入,对之使用分层聚类的方法进行再聚类(对数似然函数),即可根据客户

的消费行为和习惯分析得到哪些产品的受欢迎度最高。

然后建立设备潜在故障预警模型。将产品细分模型所得的 8个产品群的数据进行预处

理,选择对设备潜在故障影响最大的 5个属性作为主成分分析法中所选用的要素。通过 SPSS

软件,对数据进行主成分分析和降维处理,根据所得的数据可知,这 5个属性可由 3个主成

分来综合表示,可发现这 3个属性与设备潜在故障有较大联系,再通过 SPSS Modeler软件

对这 3个属性进行关联分析,按支持度大小反映某型号设备出现的常见故障现象。

接着是建立设备的故障时间分布模型。建立新的变量时间分布,时间分布等于派工时间

减去购机日期,得到时间分布这个属性说明设备首次发生故障的时间,将数据进行分类,得

到三个产品大类:空调、洗衣机、冰箱的备件故障的时间分布,通过频率分析选取频率较大

的的更换备件的个案,作为主要备件进行设备故障时间分布的模型建立所需要的数据,用一

个季度作为单位通过统计同一个产品大类中同一个设备故障的频数,使用 matlab 软件对数

据进行拟合,建立相应的模型,作为该模型的方程,从而得到该设备的故障的时间分布模型。

最后,根据上面已经建立的设备故障时间分布模型预测分析主要备件在不同时期的需求,

进而来更好的进行配件储备工作。

关键词:

主成分分析、二步聚类、SPSS Modeler、关联分析、拟合

第 4 页 共 47 页

Equipment Maintenance Information Statistics and

ForecastAbstract:

As the electrical appliances market competition becomes more intense, the

management mode of electric operator gradually from "technology-driven" to

"market-driven", "customer driven" transformation. In the face of the diverse, hierarchical,

personalized needs of customers, marketing popularization has lost its advantage, based

on the customer information, maintenance and the after-sales service concept of in-depth

data analysis gradually accepted by major appliance operator, and desire to value in the

data mining to help reduce a large number of useless or use less equipment storage cost

cost, improve the efficiency of the after-sales service and customer satisfaction, in order to

achieve the above goal, needs to work out data processing:

The first is to establish a model of product based on. According to the literature and the

existing data pretreatment, through the principal component analysis (7 indexes as the

core of enterprise products based on dimension, using two step clustering analysis based

on the products and raw score. First the data clustering clustering process, and build the

clustering feature tree (CFT), is divided into many subclasses, then the first step to

complete the preliminary clustering as input, to the use of a hierarchical clustering method

to cluster (logarithmic likelihood function), can be obtained according to the customer's

consumer behavior and habits analysis which products have the highest popularity.

Then the equipment fault early warning model is established. To subdivide the product

model of the group of eight products of data preprocessing, selection of equipment fault

affects the biggest five attributes as the main component analysis of the selected

elements. Through SPSS software and principal component analysis was carried out on

the data and dimension, and according to the data obtained, the five attributes can be

integrated, said by three principal components can be found that the three properties and

equipment fault has great potential, again through the software SPSS Modeler to

correlation analysis of the three attributes, according to the support size reflects the

common failures appeared a type equipment.

第 5 页 共 47 页

Then the equipment fault time distribution model is established. A new variable

time distribution, time distribution is equal to the dispatching time minus the

upgrade date, the first failure time distribution of the attribute that equipment

are time, classify the data, get three product categories: air conditioners, washing

machines, refrigerators spare parts breakdown time distribution, through the

analysis of the frequency selecting frequency larger replacement spare parts of the

case, as the main spare parts for equipment failure time data needed for the

distribution of the model with a quarter as a unit through the statistics of the

same product categories in the same frequency of equipment failure, using matlab

software to data fitting, select the curves fitting degree is higher, as the equation

of the model, so as to get the equipment fault time distribution model. And forecast

analysis of main spare parts storage and demand.

Key words: PCA principal component analysis,TwoStep Cluster,SPSS

Modeler,association analysis,curve fitting

第 6 页 共 47 页

目 录

1.挖掘目标..............................................9

2.总体流程..............................................9

3.数据抽取..............................................10

3.1 数据规约技术.................................................10

3.2 数据规约优点................................................10

4.数据预处理............................................10

4.1 数据清理......................................................10

4.2 数据变换.....................................................11

5.建立产品分群..........................................11

5.1 产品分群的意义及目标概述......................................11

5.2 数据基本信息概述及数据准备...................................12

5.2.1 数据描述............................................................12

5.2.2 核心维度的选择....................................................12

5.3 模型建立....................................................12

5.3.1 主成分分析........................................................13

5.3.1.1 主成分分析的基本思想.............................................13

5.3.1.2 主成分分析的数学模型.............................................13

5.3.1.3 主成分分析的几何解释.............................................14

5.3.1.4 主成分分析的计算步骤.............................................16

5.3.1.5 主成分分析的优点.................................................17

5.3.1.6 主成分分析的结果及其分析.........................................16

5.3.2 聚类方法分析........................................................17

5.3.3 常用的聚类算法......................................................18

5.3.4 二步聚类分析法......................................................21

5.3.4.1 两步聚类的基本原理..............................................21

5.3.4.2 两步聚类的算法..................................................22

第 7 页 共 47 页

5.3.4.3 二步聚类的优势..................................................23

5.5 模型的实现及评价分析........................................23

5.5.1 特征描述及分析....................................................23

5.5.1.1 模型概要和聚类质量............................................23

5.5.1.2 聚类大小和预测变量重要性......................................24

5.5.1.3 聚类结果统计信息..............................................24

5.5.1.4 产品属性重要性.................................................25

5.5.2 结论...............................................................25

5.5.3 建模分析...........................................................25

6 基于关联分析设备潜在故障...............................26

6.1 设备潜在故障所参考的指标...................................26

6.2 模型构建......................................................26

6.2.1 关联规则的基本概念...............................................27

6.2.2 关联规则分类 ....................................................28

6.2.3 基本的关联规则算法 .............................................. 29

6.2.4 关联规则经典算法——Apriori 算法 .................................30

6.2.4.1 Apriori 算法的频繁项集产生 ...................................31

6.2.4.2 Apriori 算法的频繁项集产生算法.............................. 32

6.2.4.3 Apriori 算法的候选项集产生 ..................................33

6.3 方法验证....................................................34

6.3.1 样本数据准备.....................................................34

6.3.2 设备潜在故障预测模型的建模,评价和关联分析过程 ................. 34

6.3.3 设备潜在故障预测模型关联分析结果.................................37

6.4 模型的评价与分析............................................38

6.4.1 模型评价.........................................................38

6.4.1.1 主成分分析的评价.............................................38

6.4.1.2 Apriori 算法的关联分析的评价.................................38

6.4.1.3 Modeler 软件的分析的评价.....................................39

6.4.1.4 总结.........................................................39

第 8 页 共 47 页

6.4.2 模型的分析........................................................39

7 备件储备模型设计与实现................................39

7.1 备件储备模型的意义及目标概述................................39

7.1.2 设备故障时间分布模型的设计与实现..................................40

7.2 数据基本信息描述及数据准备...................................40

7.2.1 数据样本说明......................................................40

7.2.2 数据清理..........................................................41

7.2.3 数据变换..........................................................41

7.3 模型建立.....................................................41

7.3.1 设备故障的数据特点.................................................41

7.3.2 模型建立...........................................................42

7.3.2.1 哈士奇冰箱门体或门封使用信息分析..............................42

7.3.2.2 模型结果分析..................................................43

7.4 模型的评价.................................................46

8 结论..................................................47

9参考文献......................................................................................47

第 9 页 共 47 页

1.挖掘目标

本次数据挖掘建模的目标如下:

借助设备维修记录数据,采用数据挖掘技术对客户进行分群,分析比较不同客户群的购

机信息和维修消息的相互关系,对不同的客户群提供个性化的客户服务,加深对客户需

求的理解,制定相应的营销维修策略。

预测出潜在的流失客户,保留住老客户,提高设备的购买率,实现对设备质量优化的终

极目标,以便为公司决策运营提供指导依据,防止因客户流失而引发的经营危机,提高

公司的竞争力,优化公司的收入体系。

2.总体流程

数据挖掘建模的总体流程

表 1

主要包括如下步骤:

对企业的原始数据进行数据规约形成两个样本,训练样本和诊断样本。

备件储备模型

建立产品分群

分析潜在故障

业务系统 数据抽取 数据预处理 建模&诊断 结果&反馈

原 始

数据

数据规约

数据规约

预处理前诊断样本

预处理前训练样本

预处理前训练样本

预处理前训练样本

模型解释与评价

模型诊断诊 断

结果

模型优化

第 10 页 共 47 页

对步骤一形成的两个样本进行数据预处理,包括缺失值处理,离散群处理,数据变换。

利用步骤二形成的已完成数据预处理的训练样本,分析客户的消费行为和习惯,对产品

进行分群,建立设备潜在故障模型,建立备件储备模型,对建立好的模型进行解释和评

价,利用步骤二形成的已完成数据预处理的诊断样本,对模型进行诊断。

利用步骤三形成的模型诊断结果对模型进行优化。

3.数据抽取

3.1数据规约技术

在大量数据上进行复杂的数据分析和挖掘将需要很长的时间,数据规约技术可以用来得

到原始数据的规约表示。规约表示小得多,但仍接近地保持原数据的完整性。在规约后得到

的数据集上挖掘将更有效,并产生相同或几乎相同的分析结果。

3.2 数据规约优点

降低无效、错误数据对建模的影响,提高建模的准确性。

挑选少量且具代表性的数据将大幅缩减数据挖掘所需的时间。

降低储存数据的成本。

4.数据预处理

4.1 数据清理

1 完整性

对于表中购买价格为空白或为数值 0的购买商场,查找其产品型号并在整个表格中

寻找与其产品型号相同的购买物品,若其他相同产品型号的物品价格也为空白或 0,则

将此类不完整数据直接丢弃,反之,则取其他相同产品型号的物品价格的平均值来填补

空白或替换 0.

2 去噪声

在原始计量数据中,以购买商场、购买价格为标准,存在大量异常值的情况,如购

第 11 页 共 47 页

买价格中的特小数据个位数、十位数及特大数据六位数如 123456 等,以及一些超出指标

阀值范围的数据,对于这类异常数据, 当成缺失值做丢弃处理。

3 一致性

处理冲突值,检验个变量的信息是否一致,若不一致,则可将数据丢弃例如要求安装的

设备不能出现维修记录,若出现则可将此类记录剔除,保证安装与维修的不同步。

4 元素化

将处理过的数据的购买商场元素化,即将购买商场中所有与国美相关的商场均统一命名

为国美,其他商场也是如此处理。

4.2 数据变换

数据转换是将数据转换成“适当的”格式,以适应挖掘任务及算法的需要。数据变换涉

及到如下的内容:

平滑:消除数据中的噪声

聚集:对数据进行聚集和汇总

概化:使用概念分层,用高层次概念替换“原始”的低层次的数据

规范化:将属性数据按比例缩放,使其落入一个小的特定区间

属性构造:构造新的属性并添加到属性集中,帮助挖掘

5.建立产品分群

5.1 产品分群的意义及目标概述

产品分群是一个重要的商业维修问题,企业对不同的客户要提供个性化的客户服务,因

此,在产品和服务的设计上,必须要群有一个了解,所以,我们往往借助客户的购机信息,

信息客户的消费属性 和习惯属性,对客户所购产品进行分群,以加深对客户需求的理解,

制定相应的维修策略。在获取了产品分群结果,了解了客户之后,应该针对所掌握情况,有

所行动。通过分群,我们对产品的被购频率有了整体了解,知道哪些类型的产品比较有可能

被消费者所购买,进而得到的整体优先级考虑是进行下一步工作的基础和起点,也是产品分

群最为重要的收获之一。在产品分群基础上下一步工作就是潜在故障原因的预警与备件的储

备工作。

第 12 页 共 47 页

根据帕累托定律(2/8 定律):20%的顾客给企业带来 80% 的销售利润。企业投入大量

资源来争取客户的目标应该定位于能为企业带来大量利润的那小部分客户群体,让他们长期

成为自己关系户,而由此可以节省争取其他客户的成本,而如何能做到让那小部分客户群体

自动留下并乐意引荐新的客户群,就需要我们不断的完善我们的售后服务体系,只有客户满

意了,我们的任务才算完成了。能够预警出所售设备的常见故障现象并及时引进相关的配件

进行储存,从而达到所困客户的售后满意度,这是我们企业急需解决的问题。

5.2 数据基本信息描述及数据准备

5.2.1数据描述

企业客户购机信息详细的描述了客户的购机属性信息,如购机日期、购买商场、购买价

格、机型属性、市场级别、安装日期、预约日期、信息编号、工程单号、工程单、工程总数、

产品大类、品牌、产品型号、序列号、内机编号、服务商代码等,共计66257条记录、29个

属性字段。

5.2.2 核心维度的选择

核心维度的选择是关键点和难点之一。企业对产品分群的目的就是要根据产品的各个特

征整合客户的消费行为,推测出客户的购机倾向和习惯,分析客户所购机器的潜在故障问题,

从而可以及时的事先相关备件的储备工作,进而能及时有效的满足客户的需求,完善售后服

务设备体系,而产品分群的依据就是核心维度,它选择的好坏直接决定着分群效果的好坏。

已知的航空公司客户数据中,属性字段非常多(共有 29 个),这些属性中有相当一部

分对于产品的分群并无实际意义,因此我们需要从现有的数据中选择能够真正反映客户消费

行为的属性变量——产品特征(包括市场级别、购买商场、购买价格、机型属性、产品型号、

品牌、产品大类),作为分群的核心维度。

5.3 模型建立

原始数据 样本数据

数据筛选

二步聚类

新数据

特征描述

第 13 页 共 47 页

方案描述

1.数据预处理,包括数据清理、变换。

2.对数据进行主成分分析,从众多的变量中筛选出关联性最高的几个自变量作为代表,进行

后续数据处理。

3.对已筛选出的自变量进行聚类分析,实现产品分群,并对每一个产品群的特征进行描述。

5.3.1主成分分析

5.3.1.1 主成分分析的基本思想

主成分分析(Principal Component Analysis)是利用降维的思想,将多个变量转化为

少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间

互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。【2】

线性组合的选择如下:如果将选取的第一个线性组合即第一个综合变量记为 1F ,自然

希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望 )( 1FVar 越大,

表示 1F 包含的信息越多。因此在所有的线性组合中所选取的 1F 应该是方差最大的,故称 1F

为第一主成分。如果第一主成分不足以代表原来 p个变量的信息,再考虑选取 2F 即第二个

线性组合,为了有效地反映原来信息, 1F 已有的信息就不需要再出现在 2F 中,用数学语言

表达就是要求 0),( 21 FFCov ,称 2F 为第二主成分,依此类推可以构造出第三、四……第

p个主成分。

5.3.1.2 主成分分析的数学模型

对于一个样本资料,观测 p个变量 pxxx ,, 21 , n个样品的数据资料阵为:

npnn

p

p

xxx

xxxxxx

X

21

22221

11211

pxxx ,, 21

第 14 页 共 47 页

其中: pj

x

xx

x

nj

j

j

j

,2,1,2

1

主成分分析就是将 p个观测变量综合成为 p个新的变量(综合变量),即

pppppp

pp

pp

xaxaxaF

xaxaxaFxaxaxaF

2211

22221212

12121111

简写为:

pjpjjj xxxF 2211

pj ,,2,1

要求模型满足以下条件:

① ji FF , 互不相关( ji , pji ,,2,1, )

② 1F 的方差大于 2F 的方差大于 3F 的方差,依次类推

③ .,2,11222

21 pkaaa kpkk

于是,称 1F 为第一主成分, 2F 为第二主成分,依此类推,有第 p个主成分。主成分又

叫主分量。这里 ija 我们称为主成分系数。

上述模型可用矩阵表示为:

AXF ,其中

pF

FF

F2

1

px

xx

X2

1

ppppp

p

p

a

aa

aaa

aaaaaa

A

2

1

21

22221

11211

A称为主成分系数矩阵。

5.3.1.3 主成分分析的几何解释

第 15 页 共 47 页

假设有 n个样品,每个样品有二个变量,即在二维空间中讨论主成分的几何意义。设 n

个样品在二维空间中的分布大致为一个椭园,如图 1所示:

图 1 主成分几何解释图

将坐标系进行正交旋转一个角度 ,使其椭圆长轴方向取坐标 1y ,在椭圆短轴方向取

坐标 2y ,旋转公式为

cos)sin(sincos

212

211

jjj

jjj

xxyxxy

nj 2,1

写成矩阵形式为:

n

n

yyyyyy

Y22221

11211

XUxxxxxx

n

n

22221

11211

cossinsincos

其中U 为坐标旋转变换矩阵,它是正交矩阵,即有 IUUUU ,1,即满足

1cossin 22 。

经过旋转变换后,得到图 2的新坐标:

第 16 页 共 47 页

图 2 主成分几何解释图

新坐标 21 yy 有如下性质:

1 n个点的坐标 1y 和 2y 的相关几乎为零。

2 二维平面上的 n个点的方差大部分都归结为 1y 轴上,而 2y 轴上的方差较小。

1y 和 2y 称为原始变量 1x 和 2x 的综合变量。由于 n个点在 1y 轴上的方差最大,因而将

二维空间的点用在 1y 轴上的一维综合变量来代替,所损失的信息量最小,由此称 1y 轴为第

一主成分, 2y 轴与 1y 轴正交,有较小的方差,称它为第二主成分。

5.3.1.4 主成分分析的计算步骤

样本观测数据矩阵为:

npnn

p

p

xxx

xxxxxx

X

21

22221

11211

a.对原始数据进行标准化处理。

)var(*

j

jijij x

xxx

),,2,1;,,2,1( pjni

其中

n

iijj x

nx

1

1

2

1)(

11)var( j

n

iijj xx

nx

),,2,1( pj

b.计算样本相关系数矩阵。

pppp

p

p

rrr

rrrrrr

R

21

22221

11211

为方便,假定原始数据标准化后仍用 X 表示,则经标准化处理后的数据的相关系数为:

tj

n

ttiij xx

nr

111

第 17 页 共 47 页

),,2,1,( pji

c.用雅克比方法求相关系数矩阵 R 的特征值( p 21 , )和相应的特征向量

piaaaa ipiii 2,1,,, 21 。

d.选择重要的主成分,并写出主成分表达式。

主成分分析可以得到 p个主成分,但是,由于各个主成分的方差是递减的,包含的信

息量也是递减的,所以实际分析时,一般不是选取 p个主成分,而是根据各个主成分累计

贡献率的大小选取前 k个主成分,这里贡献率就是指某个主成分的方差占全部方差的比重,

实际也就是某个特征值占全部特征值合计的比重。即

贡献率=

p

ii

i

1

贡献率越大,说明该主成分所包含的原始变量的信息越强。主成分个数 k的选取,主要

根据主成分的累积贡献率来决定,即一般要求累计贡献率达到 85%以上,这样才能保证综合

变量能包括原始变量的绝大多数信息。

e.计算主成分得分。

根据标准化的原始数据,按照各个样品,分别代入主成分表达式,就可以得到各主成分

下的各个样品的新数据,即为主成分得分。具体形式可如下。

nknn

k

k

FFF

FFFFFF

21

22221

11211

f.依据主成分得分的数据,则可以进行进一步的统计分析。其中,常见的应用有主成份

回归,变量子集合的选择,综合评价等。

5.3.1.5主成分分析的优点

在进行多指标综合评价时,由于要求评价结果客观、全面,就需要从各个方面用多个

指标进行测量,但这样就使得观测指标间存在信息重叠,同时还会存在量纲、累加时如何确

定权重系数等问题,而主成分分析方法能进行信息的浓缩,并解决权重的确定等问题。因此,

由于本次数据挖掘中,变量过于庞大,因此每次分析之前都会先进行主成分分析。

5.3.1.6 主成分分析的结果及其分析

第 18 页 共 47 页

相关矩阵

购买商场 购买价格 机型属性 市场级别 产品大类 品牌

相关

购买商场 1.000 -.064 .042 .067 -.020 .115

购买价格 -.064 1.000 -.039 .071 .010 .109

机型属性 .042 -.039 1.000 .067 .051 -.022

市场级别 .067 .071 .067 1.000 -.033 .088

产品大类 -.020 .010 .051 -.033 1.000 .215

品牌 .115 .109 -.022 .088 .215 1.000

表 2

解释的总方差

成份 初始特征值 提取平方和载入

合计 方差的 % 累积 % 合计 方差的 % 累积 %

1 1.283 21.382 21.382 1.283 21.382 21.382

2 1.110 18.500 39.881 1.110 18.500 39.881

3 1.066 17.767 57.648 1.066 17.767 57.648

4 .995 16.588 74.235

5 .845 14.079 88.315

6 .701 11.685 100.000

提取方法:主成份分析。

表 3

上表给出的是各成分的方差贡献率和累计贡献率,由表可知,只有前3个特征根大于

1,因此 SPSS主要提取了前三个主成分。前三个主成分的方差之和占所有主成分方差

的 57.65%,接近一半,前四个主成分的方差贡献率达到 74.24%,尚达不到总累计贡献率

的 85%,因此,定另外存在一个成分满足条件,即在分析客户消费行为和行为习惯中,相关

联的变量分别有市场级别、购买商场、购买价格、机型属性、产品型号。

5.3.2 聚类方法分析

聚类分析将大量数据划分为性质相同的子类,以便于了解数据的分布情况,因此,它广

泛应用于模式识别、图像处理、数据压缩等许多领域。聚类就是把一组个体按照相似性归成

若干类别,即“物以类聚”。它的目的是使得属于同一类别的个体之间的距离尽可能的小,

而不同类别上的个体间的距离尽可能的大。聚类的结果可以得到一组数据对象的集合,称其

为簇。簇中地对象彼此相似,而与其他簇中地对象相异。

5.3.3 常用的聚类算法

目前研究领域存在着大量的聚类算法,算法的选取取决于数据的类型、聚类的目的和应

第 19 页 共 47 页

用。主要的聚类算法有如下几类:

a) 划分方法

给定一个 n 个对象或元组的数据库,一个划分方法构建数据的 k 个划分,每个划分

表示一个聚类簇,并且 nk 。也就是说,它将数据划分为 k 个组,同时满足如下要求:

1)每个组至少包含一个对象;

2)每个对象必须属于且只属于一个组。

常用的划分方法有 k 均值算法。该聚类算法是将数据点到簇心(每个簇的中心)的某

种距离和作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。它以欧式

距离作为相似性度量,是求对应某一初始聚类中心向量T

kvvvV ),...,,( 21 最优分类,使得

评价指标 CJ 值最小。算法常采用误差平方和准则函数作为聚类准则函数,误差平方和准则

函数定义为:

2

1||||

k

t CpiC

i

MpJ

其中, iM 是类 iC 中数据对象的均值,p 是类中的对象。算法流程是:首先,随机的

选择 k 个对象,每个对象代表一个簇的初始均值或中心。其次,对剩余的每个对象,根据

其与各个簇均值的距离,将它指派到最相似的簇,然后计算此次迭代 CJ 的值。最后,重新

计算每个簇的簇心 iM (即簇中对象的均值),重复上述迭代过程,直到误差平方和准则函

数收敛。

k 均值算法需要首先确定簇的数目 k,对 k 个初始聚类中心点的选取依赖性极大,因

此易陷入局部极小解,且因为需要不断调整更新聚类中心,因此数据量大的时候,计算时间

长。

b) 层次方法

层次的方法对给定的数据对象集合进行层次的分解。根据层次的分解如何形成,层次的

方法可以分为凝聚算法和分裂算法。凝聚算法,也称自底向上的方法,一开始将每个对象作

为单独的组,然后相继合并相近的对象或组,直到所有的组合并成为一个(层次的最上层),

或者达到一个终止条件。分裂算法,也称自顶向下的方法,一开始将所有的置于一个簇中,

在迭代的每一步中,一个簇被分裂为两个或两个以上更小的簇,直到最终每个对象在一个单

第 20 页 共 47 页

独的簇中,或者达到终条件。

该类方法的缺陷在于,一旦一个步骤(合并或分裂)完成,它就不能被撤销,因此对于

错误的决定不能更正。

c) 基于密度的方法

基于密度的方法能发现任意形状的簇,其主要思想是:只要邻近区域的密度(对象的数

目)超出某个阈值,就继续聚类。也就是说,对给定类中的每个数据点,在一个给定范围的

区域中必须包含一定数目的点。这样的方法可以用来过滤孤立点数据,发现任意形状的簇。

其中一个有代表性的基于密度的方法是基于高密度连通区域的基于密度的聚类方法

(DBSCAN),该方法的主要步骤是:从数据集中任取一 p;若 p 的邻域内包含多于 MinPts 个

对象,则创建包含 p 的新聚类,循环收集直接密度可达的对象,否则继续下一个点;聚类

中再无新对象加入时,算法结束。

该算法对于用户设置的参数很敏感,算法复杂度高。

d) 基于网格的方法

基于网格的方法使用一种多分辨率的网格数据结构。它将对象空间量化为有限数目的

单元,形成网格结构,所有的聚类操作都在网格上进行,例如,统计信息网格(STING),它

就是基于网格的多分辨率聚类技术,将空间区域划分为矩形单元,通常不同级别的矩形单元

对应不同级别的分别率,这些单元形成一个层次结构:每个高层单元划分为多个低一层的单

元。关于么个网格单元属性的统计信息(如均值、最大值和最小值)需要预先计算和存储,

然后利用这些统计参数进行查询处理。

这类算法处理数据速度快,但是因为其聚类质量取决于网格结构的最底层粒度,粒度粗

细又影响着聚类的时间和质量,因此二者之间很难平衡。另外,该技术有可能降低簇的质量

和精确性。

e) 基于模型的方法

基于模型的方法为每个簇假定一个模型,并寻找数据对给定模型的最佳拟合。该方法通

过构建反映点空间分布的密度函数来定位簇。它也导致基于标准统计量自动地确定簇的数

目,考虑“噪声”数据和离群点的影响,是一种鲁棒性的聚类方法。其中,期望最大化方(EM)

是一种基于统计模型进行期望最大化分析的算法。概念聚类(COBWEB)是一种概念学习算法,

它进行概率分析并且把概念作为簇模型这种方法对聚类大型数据集的聚类效果不好。自组织

特征映射(SOM)是一种基于神经网络的算法,它通过把高维数据映射到 2 或 3 维的特征

空间进行聚类。

第 21 页 共 47 页

5.3.4 二步聚类分析法

聚类分析是依照研究对象的个体特征,对其进行分类的多元统计分析方法。 具体说来

就是,将一批样本或变量的诸多特征按照在性质上的亲疏程度,在没有先验知识的情况下进

行自动分类,产生多个分类结果。

在聚类分析中,我们常用的聚类方法有快速聚类和层次聚类。其中层次聚类容易受到极

值的影响,并且计算复杂速度慢不适合大样本聚类;快速聚类虽然速度快,但是其分类指标

要求是定距变量,而实际研究中,有很多的定类变量,如性别、学历、职业、重复购买的可

能性等多个与研究目的紧密相关的指标无法直接参与运算,而大大限制了它的使用范围。

在此情况下,两步聚类法(TwoStep Cluster)作为一种较为综合的聚类方法,并能解

决上述问题,成为近几年比较常用的方法之一。它与其他传统的聚类技术有显著的区别,它

拥有如下三个有利特征:1、能用于处理基于分类变量和连续变量的聚类问题;2、能自动选

择聚类数;3、能高效处理大规模数据量的文件。

5.3.4.1 两步聚类的基本原理

两步聚类分析法采用似然距离度量来处理离散变量和连续变量。并且,模型中的每项

连续变量都假设为正态分布状态,每项离散变量都假设为多项分布状态。在这种假定下,两

步聚类按照两个步骤完成聚类。首先,通过构建和修改聚类特征树(Cluster Feature Tree,

简称 CFT)对记录进行初步归类;然后,将以第一步完成的预聚类作为输入,对之使用分层

聚类的方法进行再聚类(对数似然函数),由于此时的预聚类的数量要远远小于原始数据的

数量,在这一阶段使用传统的聚类方法就可以处理了。每一个阶段,利用施瓦兹贝叶斯信息

准则(BIC)评价现有分类是否适合现有数据,并在最后给出符合准则的分类方案。

其中,第一个步骤叫预聚类过程,它针对每一个记录,都要从根开始进入聚类特征树,

并依照节点中条目信息的指引找到最接近的子节点,直到到达叶子节点为止。如果这一纪录

与叶子节点中的距离小于临界值,那么它进入该子节点,并且子节点的聚类特征得到更新,

反之,该纪录会重新生成一个新的叶子节点。如果这时子节点的数目已经大于指定的最大聚

类数量,则聚类特征树会通过调整距离临界值的方式重新构建。当所有的记录通过上面的方

式进入聚类特征树,预聚类过程也就结束了,子节点的数量就是预聚类数量。

第二个步骤叫正式聚类过程,利用层次聚类方法对聚类特征树上的每个叶结点进行组

合。采用层次聚类方法可以产生一组不同聚类数的聚类方案。然后,根据聚类准则,贝叶斯

(BIC)或者Akaike(AIC)准则来对各种聚类方案进行比较选择,选定最佳聚类方案。

第 22 页 共 47 页

5.3.4.2两步聚类的算法

在这两个步骤中都采用了传统的距离测度的方法,主要有欧式距离和对数似然距离。

(1)欧氏距离(Euclidean Distance)是测两个类中心的距离,类中心是指类中所有

变量的均值。这种测度主要针对连续变量,它的计算公式为:

其 中 设 第 i 和 j 个 样 品 的 观 测 值 分 别 为 ipii xxx ,,, 21 ix ,

),,,(= 21 jpjj xxx jx 。

(2)似然对数距离(Log-likelihood Distance)能处理连续变量和离散变量。它是基

于距离的概率值,两类之间的距离会随着两类合并为一类时似然对数的减少而变化。计算似

然对数时,连续变量在理想情况下需要满足正态分布,分类变量满足多项式分布,而且它假

定变量之间彼此独立。我们把分类 i和分类 s之间的距离定义为 isd ,则它的计算公式为:

其中,

)πlog(π)σ+σlog(

21n=

1= 1=

∧2∧

1=j

2∧

ii ijl

q

j

m

lijlj

p

ij

j

)πlog(π)σ+σlog(

21n=

1= 1=

∧2∧

1=j

2∧

s sjl

q

j

m

lsjlj

p

sjs

j

)log()log(21n ,

1 1,

2

1j

2

,,, jlsi

q

j

m

ljlsij

p

jsisisi

j

其中 i,s 分别表示分类 i 和分类 s, si, 表示分类 i 和分类 s 合并形成的类,j表示

第 j个观测样本, l 表示样本观测值中离散变量的类别,2

表示对应样本观测值中连续变

量的方差的极大似然估计值,

2

对应样本观测值中离散变量的属性值概率的极大似然估计

值。

在这个过程中,通过 BIC(Schwartz Bayesian Criterion)或者 AIC(Akaike Information

Criterion)准则,计算不同聚类类别的 BIC 或 AIC,并对分类数目做初步估计,最终聚类数

p

kjkikij xxd

1

2)(

sid ,siis -+

第 23 页 共 47 页

目将被确定为在初始分类中使两个最接近的类之间距离增长最大的那个聚类数。一般来说,

BIC 值或 AIC 值越小表示该聚类模型越好,即相应聚类数越优。假设聚类数为 J,则 BIC 和

AIC 的计算公式分别如下:

)log(2)(j

1vNrJBIC jv

jv rJAIC 22)(j

1v

bk

kk

aj lkJr

1)1(2

其中,N代表观测量总数,v表示第 v个聚类类别,ak 表示聚类过程中使用的连续变量

的总数,bk 表示聚类过程中使用的分类变量的总数, kl 第 k个分类变量的编号。

5.3.4.3 二步聚类的优势

1.海量数据处理;

2.自动标准化数据;

3.能够处理分类变量和连续变量的混合数据;

4.可自动丢弃异常值或者将异常值归入最近的类;

5.可自动确定或者根据业务需要人工指定分类数目。

5.5 模型的实现及评价分析

5.5.1 特征描述及分析

5.5.1.1 模型概要和聚类质量

图 3模型概要

如图 1所示,“模型概要”图直观简单地给出此次聚类的模型信息,包括聚类方法(两步聚

第 24 页 共 47 页

类)、聚类变量个数(7)、最终聚类个数(4)。“聚类质量”图简单直观告诉我们这次聚类的

效果,有三个聚类等级:差、尚好、好,本次聚类属于尚好的水平,聚类效果明显。

5.5.1.2 聚类大小和预测变量重要性

图 4 聚类大小

如图 2所示,“聚类大小”饼图直观地现实了最终聚类的 4个类的分布情况。所有数据

记录分布在聚类 1中的有 10068 例,所占比例为 15.2%;分布在聚类 2中的有 20059 例,所

占比例为 30.3%;分布在聚类 3中的有 19063 例,所占比例为 28.8%;分布在聚类 4中的有

17066 例,所占比例为 25.8%。通过选择“预测变量重要性”,可以直观的观察到各种变量在

本次聚类中的重要性。

5.5.1.3 聚类结果统计信息

1 2 3 4

产品大类(%) 家用空调(68.8%) 家用空调(100%) 家用空调(100%) 家用空调(100%)

产品型号 KFR_35GW/12FZBP_

2(11.1%)

KFR_26GW/VG_N3

(3.4%)

KFR_35GW/85FZB

pH_2(7.6%)

KFR_35GW/12FZB

P_3(10.9%)

购 买 价 格

(元)

3944.22 2889.07 3065.04 3342.96

产品特征聚类

第 25 页 共 47 页

购买商场(%) 苏宁(31.7%) 苏宁(25.5%) 苏宁(45.4%) 海信(22.6%)

机型属性(%) 节能惠民(62.2%) 空白(100%) 空白(100%) 空白(100%)

品牌(%) 西门子(78%) 澳柯玛(100%) 西门子(100%) 西门子(100%)

市场级别(%) 2(42.1%) 2(35.1%) 1(45.2%) 3(63.9%)

表 4 聚类结果统计表

由以上表格可以知道:

在聚类1中,客户更喜欢到市场级别为2的苏宁商场购买西门子牌的家用空调,该节能惠

民的家用空调的产品型号多为KFR_35GW/12FZBP_2,且购买价格约为3944元;

在聚类2中,客户更喜欢到市场级别为2的苏宁商场购买澳柯玛牌的家用空调,该家用空

调的产品型号多为KFR_26GW/VG_N3,且购买价格约为2889元;

在聚类3中,客户更喜欢到市场级别为1的苏宁商场购买西门子牌的家用空调,该家用空

调的产品型号多为KFR_35GW/85FZBpH_2,且购买价格约为3065元;

在聚类4中,客户更喜欢到市场级别为3的海信商场购买西门子牌的家用空调,该家用空

调的产品型号多为KFR_35GW/12FZBP_3,且购买价格约为3343元。

因此可以知道,家用空调深受大众喜爱,所以在所有购买商品中家用空调的购买率名列

前茅,而客户的普遍销售水平为3000元左右。

5.5.1.4产品属性重要性

对于每个聚类,各项变量对该聚类的重要性均可通过 SPSS运行结果反映出来,图 4最

下方有一个标尺,表示各项指标变量分别对本次聚类的决定性影响程度,重要性程度是按从

左到右的顺序逐次上升的。因此,在本次聚类中,对聚类结果的影响程度是(从最重要到最

不重要)购买价格、产品型号、品牌、产品大类、市场级别、机型属性、购买商场。

5.5.2 结论

根据以上的聚类分析,可以知道,客户倾向于购买哪种类型的产品,因而通过对客户消

费行为和习惯的分析,可以预测出哪种产品的购买率较高,一般地,每种产品总会有一定的

故障问题,那么,购买率高的产品的故障问题相对而言肯定会比较高,其故障原因可能也会

有很多,那么,为了达到或者提高客户的满意度,进而带动潜在客户的消费,企业需要对高

购买率商品的故障问题进行统计并解决问题,这是我们接下来将要研究的问题。

5.5.3 建模分析

先对数据进行主成分分析,从而得出相关性比较紧密的几个主成分,进而利用得到的几

第 26 页 共 47 页

个主成分进行二步聚类,得出我们所要的结论,即客户对购买产品类型的倾向性,方便我们

进行接下来的预测产品的故障原因。

6 基于关联分析设备潜在故障

通过对设备产品大类细分模型得到的各个设备群进行潜在故障预测,得到某型号设备

的潜在故障,根据模型结果分析各个设备群体的故障所在,这样可让公司的工作人员在故障

未发生前做好预防工作,在故障出现时迅速消除故障,同时,对给予必要的设备运行指导,

不仅保证设备有效的运行提高公司的效益;还可以高效安全的运行,把故障损失降低到最低

水平,并获取更大的经济效益和社会效益

6.1 设备潜在故障所参考的指标

产品型号,故障原因代码,故障原因描述,反映问题描述,维修措施

6.2 模型构建

通过数据预处理,将待使用的数据准备好后,选用适当的数据挖掘工具以及技术来建立

设备潜在故障模型,主成分分析利用了降维的思想,将多个单一的指标转化为几个综合指标。

关联规则挖掘(Association Rule Mining)则可以帮助发现大量数据库项集之间的关联关

系,Modeler 中同样支持该项分析,首先建立节点读取数据,确定进行关联分析的属性集,

选择相应的模型如 Apropri 等进行分析。关联分析基于最小支持的最小信任度,将分析的结

果进行输出显示,更好的从支持度大小方面反映某型号出现故障原因的具体情

分类器原始

数据

曲线拟合特征选择

新数据

潜在故障原因 训练

样本

第 27 页 共 47 页

设备潜在故障预测采用关联分析,过程如下。

6.2.1 关联规则的基本概念

基本定义 1 :关联规则挖掘的数据集记为 D( 一 般为事务数据库 ) ,

1 2, ,....., .....,k nD t t t t 1 2, ,...., ,.... , ( 1,2,... )k m pt i i i i k n 称为事务, ( 1, 2,... )mi m p 称为项。

每个事务都有一个唯一的标识符,称为 TID。

基本定义 2:设 1 2, ,...., mI i i i 是 D 中所有项的集合,I 的任何子集 X 称为 D 中

的项集(itemset),若|X|=k 称集合 X 为 k-项集。设 kt 和 X 分别为 D 中的事务和项集,

如果 kX t , kt 称 包含项集 X。

基本定义 3: 数据集 D 中包含项集 X 的事物数,称为项集 X 的支持数,记为 x 。

项集 X 的支持度记为 support( X ):

100%xsupport XD

( xsupportD

X )

其中|D|是数据集 D 的事务数,若 support(X)不小于用户指定的最小支持度

(min_support),称为 X 为频繁项集,简称频集(或大项集),否则称 X 为非频繁项集,简

称非频集(或小项集)。

基本性质 1 设 X,Y 是数据集 D 中的项集:

(1)若 X Y ,则 support X Ysupport ;

(2)若 X Y ,如果 X 是非频集,则 Y 也是非频集;

(3)若 X Y ,如果 Y 是频集,则 X 也是频集;

基本定义 4:如果为项集,且 X Y ,蕴涵式 X Y 称为关联规则, ,X Y ,分别

称为关联规则 X Y 的前提和结论。项集 X Y 的支持度称为关联规则 X Y 的支持度,

记作:

support X Y , support X Y sup X Yport 式(4-2)

关联规则 X Y 的置信度记作: ( )confiden e Xc Y

( ) 100%supp X Y

confidenceort

X Ysupport X

通常用户根据挖掘需要指定的最小置信度记为:min_confidence。

第 28 页 共 47 页

支持度和置信度上描述关联规则的两个重要概念,前者用于衡量关联规则在整个数据集

中的统计重要性,后者用于衡量关联规则的可信程度。一般来说,只有支持度和置信度均较

高的关联规则才可能是用户感兴趣、有用的关联规则。

基 本 定 义 5 : 若 min_support X Y support , 且

( )confiden e Xc Y min_ confidence ,称关联规则 X Y 为强规则,否则称关联规则

X Y 为弱规则。

关联规则挖掘的任务就是要挖掘出 D 中所有的强关联规则,由基本定义 3 和基本定义

5 可知,强规则 X Y 对应的项集 X Y 必是频繁项集,由基本定义 2和基本定义 3 可

知,频繁项集 ( )X Y 导出的关联规则 X Y 的置信度可由频繁项集 X 和 ( )X Y 的支持

度计算,因此,可以把关联规则挖掘划分为以下两个子问题:

(1)根据最小支持度找出数据集 D 中的所有频繁项集。

(2)根据频繁项集和最小置信度产生关联规则。

由此可见,关联规则挖掘中的核心问题是频繁项集的获取,发现频繁项集算法主要考虑

两个问题:

(1)减少 IO操作。关联规则挖掘的数据集常达到GB 甚至TB、 PB数量级,频繁

的 IO 操作势必影响关联规则的挖掘效率,减少 I

O操作主要通过减少扫描数据集D 的

次数完成。

(2)降低需要计算支持度的项集(常称之为候选项集)的数量,使其与频繁项集的数

量接近。候选项集数量的降低可节省所需的计算时间和存储空间。

6.2.2 关联规则分类

在数据挖掘的处理过程中,有很多不同类型的关联规则,但根据不同的分类标准,关联

规则的分类仍基本一致:

1. 根据规则中处理的变量的类别,可以分为布尔类型和数值类型关联规则。

(1)布尔型关联规则(Boolean Association Rule)是只考虑关联项在数据库的事务中

出现或不出现两种情况,出现通常用“1”或“True”表示,不出现通常用“0”或“False”

表示,其运算规则可采用布尔代数中的布尔运算,因此称之为布尔型关联规则。

(2)数值型关联规则一般处理的事定量数据项(或属性)之间的关系。可根第四章 关

联规则研究 据数据项(或属性)的定量值区间划分为区间范围,进行不同种类的规则运算。

第 29 页 共 47 页

2. 根据规则中项集的抽象层次,可分为单层关联规则和多层关联规则[45,46]。

若一个关联规则的内容仅涉及单一层次的概念,这样的关联规则称为单层关联规则。即

在给定的规则集中,规则不涉及不同抽象层的项或属性,没有考虑现实世界中数据的分层。

若在关联规则内容描述中涉及多个不同抽象层次概念,这样的关联规则就称为多层关联

规则。这一规则充分考虑了数据的多层性。

3. 根据规则中所涉及的数据维数,可以分为单维关联规则和多维关联规则

[47,48,49]。

若一个关联规则中的项或属性仅涉及一个维,那就被称为单维关联规则。若关联规则中

的项或属性涉及二维或多维,被称为多维关联规则,即这一规则涉及两个或多个维或谓词的

或多个数据、多个变量之间的某些关系。 目前关联规则中还推广了多种分类,如多层次关

联规则,时态关联规则、加权关联规则等等,然而不同的关联规则可能需要不同的挖掘方法,

或者某个方法适用于某几个规则。

6.2.3 基本的关联规则算法

在数据挖掘发展过程中,挖掘数据库中项目集之间的关系已经被诸多研究人员关注并且

进行了大量的关联规则挖掘的研究,这些研究不仅从一定程度上提高了关联挖掘算法的性能

和效率,还推广了关联挖掘规则的使用。通过总结分析,根据处理数据的不同方式,可以发

现,现有的关联挖掘算法大致分为:搜素算法、层次算法、数据集划分算法、抽样算法等。

1. 搜索算法

搜索算法是在读入数据库每条事务的同时,对该事务中包含的所有项目集进行处理,因

此搜索算法需要计算数据集 D 中所有项目集的支持数。典型算法如 AIS 算法[50]、SETM 算

法[50]。搜索算法只需对数据集扫描一次就可以找出所有的频繁项目集,一条包含 n 个项

目的事务就将产生 2 1n 个项目集,当数据库中包含的项目数很大时,所需计算和存储的

候选项目集的数量往往非常庞大。因此,该类算法只适合于项目集数量相对较小的数据库的

关联规则挖掘。

2. 分层算法(宽度优先算法)

分层算法的思想是按照包含项目数自小至大的顺序寻找频繁项目集。此类算法包括

R.Agrawal 等人提出的 Apriori[50], AprioriTid 和 AprioriHybrid 算法,J.S.Park

等人的 DHP[51]算法等。 Apriori 算法是这类算法的典型代表,该算法需要扫描数据

集的次数等于最大面向设备故障诊断的数据挖掘关键技术研究与实现 频繁项目集的项目

第 30 页 共 47 页

数。Apriori 算法在第 K 次扫描数据集时所找出所有的频繁 K 项集,第 K+1 次扫描数据

集时的候选项集由所有的频繁 K 项集通过连接运算产生; AprioriTid 算法在 Apriori 算

法的基础上对候选项集进行修剪,以减少对数据库进行扫描的时间,但对数据库的修剪需要

额外的计算和 IO 操作。DHP 算法采用哈希技术对数据集和候选项集进行修剪,特别是对

候选 2-项目集的修剪特别有效。AprioriHybrid 算法是 Apriori 算法和 AprioriTid 算法

的融合,该算法开始采用 Apriori 算法,然后在每次扫描完数据库之后计算修剪后数据库

的大小;若修剪后的项集可在内存中进行处理,则切换至 AprioriTid 算法直到找出所有的

频繁项目集。一般来说,分层算法只适合于最大频繁项目集相对较小的数据集中的关联规则

的挖掘。

3. 深度优先算法

此类算法最著名的是 J.Han 等人提出的 FP-growth 算法[52]。FP-growth 算法使

用一种紧缩的数据结构来存储查找频繁项集所需要的全部信息,将提供频繁项集的数据

库压缩到一颗频繁树模式(或称 FP 树),但保留项集关联信息,然后,将压缩后的数据库

分成一组条件数据库,每个关联一个频繁项目集。由此可见,FP-growth 算法无须生成候选

项目集,显著地缩小了搜索空间,有效地避免了产生“知识的组合爆炸”,挖掘效率明显提

高。

4.划分算法

划分算法的基本思想是将整个数据集划分成可以放在内存中进行处理的数据块,以节省

访问外存的 IO开销。此类算法包括 A.Savasere 等人的 Partition 算法、S.Brin 等人的

DIC 算法等。Partition 算法只需要对整个数据集进行两次扫描,DIC 算法在数据块划分恰

当时可以通过两次扫描数据集找出所有的频繁项目集。数据集划分算法的候选项集的数量一

般比 Apriori 算法候选项集的数量大,增加各数据块的数据扭曲性,可以减少候选集的数

量。数据集划分算法是各种并行关联规则挖掘算法和分布式关联挖掘算法的基础。

5.抽样算法

抽样算法通过对数据集 D 抽样产生抽样数据集 D’,找出抽样集中的频繁项集作为候选

项集,然后扫描数据集 D 确定其中的频繁项集。此类算法包括 J.S.Park 等人提出的可调

精度的挖掘算法和 H.Toivonen 等人提出的 Sampling 算法。一般来说,抽样算法只适合

于要求挖掘效率高,而挖掘准确性不太高的环境下的关联挖掘规则。

6.2.4 关联规则经典算法——Apriori 算法

第 31 页 共 47 页

如前所述,可以看出,所有的关联规则可分解为寻找频繁项目集和利用频繁项目集产生

所需要的强关联规则(强规则)两个问题。而其中如何寻找频繁项目集是关联规则挖掘的核

心问题。

本题所采用的是事务数据,事务数据是一种特殊的记录数据,其中每一个记录(事务)

涉及一系列的项。考虑一个故障列表,一次发生的故障集合就构成了一个事务,而这些故障

就是项。事务数据是项的集合的集族,但是也能将它视为记录的集合,其中记录的字段是非

对称的属性。这些数据常常是二元的,指出故障是否发生。

设备故障诊断中的数据特点:

(1)具有较强的动态特性, 由于设备总是处于不停的运行状态,所以采集的数据包含了

大量的动态信息,是由运行正常的数据和发生故障的数据共同组成的,而且从正常的数据到

故障数据的不断变化是由某些因素而主导的。

(2)数据量庞大,设备运行中,根据设备的复杂程度和衡量设备各组件参数的复杂性,

在监测过程中,必然会产生海量的数据。

(3)数据具有冗余性,设备监测的数据是根据实时运行状态,依照各参数指标而监测到

的,因此数据的冗余程度取决于设备的复杂性程度。基于以上所述的数据第五章 面向设备

故障诊断的数据挖掘系统的设计与实现 特点,关联规则 Apriori 算法的目的是从这些海

量的,复杂的数据中发掘有意义的信息与知识,因而能有效地应用于故障诊断中, 并且能

克服以往存在的知识获取瓶颈,如专家系统的知识瓶颈以及智能诊断方法所带来的诊断推理

过程解释困难等问题。

二元表示故障数据可以用图 5-5 所示的二元形式来表示,其中每行对应一个事务,而

每列对应一个项。项可以用二元变量表示,如果项在事务中出现,则它的值为 T,否则为 F。

因为通常认为项在事务中出现比不出现更为重要,因此项是非对称二元变量。

TID 故障 01 故障 02 故障 03 故障 04 故障 05 故障 06

1 T T F F F F

2 F F T T T F

3 F T T T F T

4 T T T T F F

5 T T T F F T

表 5 二元变量表

第 32 页 共 47 页

6.2.4.1 Apriori 算法的频繁项集产生

Apriori 算法是第一个关联规则挖掘算法,它开创性地使用基于支持度的剪枝技术。系

统的控制候选项集指数增长。它是一种最具影响的挖掘布尔关联规则频繁项集的算法。

它使用一种宽度优先的搜索方法即逐层迭代法:初始,每个项都被看作候选 1-项集。

对它们的支持度进行计算后,产生频繁项集,在下一次迭代过程中,仅使用频繁 1-项集来

产生候选 2-项集,这样依次类推迭代,每个频繁 k-项集用于探索候选(k+l)-项集 Apriori

算法要对数据库进行多次遍历,算法在候选项集合为空时停止。

相应地,为提高发现频繁项集的速度,Apriori 算法通过使用基本定义 6 中的性质来

有效减少频繁项集的迭代空间。即如果频繁项集的所有非空子项集必定是频繁的,反之,所

有非频繁项集的所有超集一定是非频繁的。即若存在项集 I 不是频繁的,满足

( ) min_ supP I ,则把项 i 添加到项集 I 的结果项集 i I 必定也不是频繁的,即

( ) min_ supP i I 。这说明 Apriori 性质满足反单调性。

6.2.4.2 Apriori 算法的频繁项集产生算法

通过以上对 Apriori 算法的描述,频繁项集产生算法的伪代码如下:

1:k=1

2: / ({ }) *min_ sup}kF i i I i N {发现所有的频繁 1-项集}

3: repeat

4: k = k + 1

5: kC = apriori-gen ( 1kF ) {产生候选项集}

6: for 每个事务 t Tdo

7: kC = subset ( , )kC t {识别属于 t 的所有候选}

8: for 每个候选项集 tc C do

9: ( ) ( ) 1c c {支持度计数增值}

10: end for

11: end for

12: / ({ }) *min_ sup}kF i i I i N {提取频繁 k-项集}

13:until kF

14:Result = kF

第 33 页 共 47 页

(1)该算法初始通过单遍扫描数据集,确定每个项的支持度。一旦完成这一步,就得

到所有的频繁 1-项集的集合 1F (如步骤 1 和 2)。

(2)接下来,该算法将使用上一次迭代发现的频繁(k-1)-项集,产生新的候选 k-项集

(如步骤 5)。

(3)gen-apriori 函数通过两个步骤产生候选项集:候选项集的产生和剪枝。候选项

集的产生即通过前一次迭代发现的频繁 k-项集产生新的候选(k+1)-项集。而剪枝操作则是

采用基于支持度的剪枝策略,删除一些候选 k-项集。

(4)步骤 6-10 中,为了对候选项的支持度计数,算法需要再一次扫描一遍数据库,

将每一个事务与所有的候选项集进行比较,并且更新包含在事务中的候选项集的支持度计

数。

(5)计算候选项的支持度计数之后,算法将删除支持度计数小于 min_sup 的所有候选

项集(步骤 12)。

(6)当没有新的频繁项集产生,算法结束。 Apriori 算法的频繁项集产生的部分有两

个重要特点:第一,它是一个逐层算法,即从频繁 1-项集到最长的频繁项集,它每次遍历

项集格中的一层;第二,它使用产生-测试(generate-and-test)策略来发现频繁项集。在每

次迭代中,新的候选项集由前一次的迭代发现的频繁项集产生,然后对每个候选项的支持度

进行计数,并与最小的支持度阈值进行比较。该算法需要的总迭代次数是 Kmax+1,其中 Kmax

是频繁项集的最大长度。

6.2.4.3 Apriori 算法的候选项集产生

从理论上讲,存在很多方法产生候选项集,然而有效的候选项集产生过程应满足以下三

个要求:

(1)避免产生太多的不必要的候选。如果一个候选集至少有一个子集是非频繁的,那

么这个候选集是不必要的。根据前述所讲的支持度的反单调性,这样的候选项集肯定是非频

繁的。

(2)必须确保候选项的集合是完全的,即候选项产生过程没有遗漏任何频繁项集。为

了确保完全性,候选项集的集合必须包含所有频繁项集的集合。

(3)应该不会产生重复候选项集。例如:候选项集{a, b, c, d}可能会通过多种方法

产生,如合并{a, b, c}和{d},合并{a, b}和{c, d},合并{c}和{a, b, d}等等。候选项集

的重复产生将会导致计算的浪费,因此为提高效率应该避免此类现象。

第 34 页 共 47 页

6.3 方法验证

6.3.1 样本数据准备

从产品大类细分模型的结果出发,随机抽出大约 66257 条设备数据,将他们按细分模

型的结果划分为 8个不同的设备群:冰箱,电视,家用空调,洗衣机,专业冷柜,冷柜,手

机,特种空调,选取对设备常见故障想象有较大影响的 4个属性:产品型号,故障原因代码,

故障原因描述,反映问题描述。对这些数据先进行主成分分析,得到与某型号设备出现的常

见故障现象有较大联系的属性,再对这些属性利用关联分析得到某型号设备常出现的故障原

因现象。

6.3.2 设备潜在故障预测模型的建模,评价和关联分析过程

我们先利用 SPSS 软件先对数据进行主成分分析,帮助建模。下面结合 SPSS 软件的操作

过程来说明建模过程。

Step1:将预处理过得数据读入 SPSS,调用 Factor Analyse 过程进行分析。得到的相

关系数矩阵如表 6 所示。

相关矩阵

故障原因描述 维修措施 反映问题描述

相关

故障原因描述 1.000 .700 -.594

维修措施 .700 1.000 -.547

反映问题描述 -.594 -.547 1.000

表6 相关矩阵表

从表7可知,故障原因描述,维修措施,反映问题描述,这几个指标存在着显著的关系。

可见这些变量之间的相关性比较强,证明他们存在信息上的重叠。

Step2:主成分个数提取原则为主成分对应的特征大于1的前n个主成分。由Step1所得的

方差分解主成分提取分析表(表7 )可知,提取的主成分为1个,即n=1。即与设备潜在故障

联系最大的属性有:产品代码,故障原因代码,故障原因描述。

解释的总方差

成份 初始特征值 提取平方和载入

合计 方差的 % 累积 % 合计 方差的 % 累积 %

1 2.229 74.312 74.312 2.229 74.312 74.312

2 .475 15.845 90.156

第 35 页 共 47 页

3 .295 9.844 100.000

表7

我们利用 SPSS MODELER 软件先对数据进行关联分析,帮助建模。下面结合 SPSS

MODELER 软件的操作过程来说明建模过程。

Step3:将用主成分分析之后的属性集读入 Spss Modeler 中,调用关联分析过程进行

分析。其中 ADR 数据表相关内容如下:

(1)ADR 数据属性的选取:产品代码,故障原因代码,故障原因描述

(2)产品类别:以“冰箱”中‘冷冻冷藏冰箱’为例

(3)挖掘工具:SPP 公司的 Modeler 软件

数据表见表 8,表中列出了数据项表达的关键要素,即产品代码,故障原因代码,故

障原因描述

表 8 数据表

Step4:利用 Modeler 软件中的网络图节点,对选取的关键数据要素进行初步的描述性

分析,通过这个节点来发现表格中个数据要素之间的关联关系,并以 Web 图形的方式输出结

果,工作流程为:

读入数据

对数据属

性逐项设

连接分析

模型,计

算各个数

据属性出

现的频率

高频率,

表明关联

度较强;

反之,则

输出结果

第 36 页 共 47 页

图 5 工作流程说明

图 6 Modeler 软件的工作

从图 6中可知:其中箭头的方向表示数据的流动方向。每一个节点实现一定的功能,第

一个源节点读取数据,第二个源节点设置字段方向,第三个源节点是设为标志,即把所需要

分析的属性设为标志,第四个源节点则是过滤属性集数据中存在明显质量的数据,以排除对

结果的影响。过滤节点右边的三角形画图节点画出网络图,过滤节点下面的类型节点则是设

置过滤后的字段方向,类型节点右边的五边形的建模节点实现关联分析。

Step5:利用 Modeler 软件的网络图节点和 Apriori 算法的关联规则模型节点分析结果。

第 37 页 共 47 页

图 7 Web 图形

图形显示特点:直观易见,关联强度定性结果分类清楚,容易理解。Web 图形体现了

描述性分析的直观效果,即线条的粗细程度表明了各个数据要素之间关联强度的大小。右侧

列表也表明了其中的关系。 由图 7可知:

(1)BCD 冰箱,即冷冻冷藏式冰箱,产品出现故障原因代码,故障原因描述都为空白

的频数为 64,支持度为 37.427%,置信度为 100%。

(2)BCD 冰箱,即冷冻冷藏式冰箱,产品出现故障原因代码为 RBXWYD00101,故障原因

描述为机器无故障的频数为 31,支持度为 18.129%,置信度为 100%。

(3)BCD 冰箱,即冷冻冷藏式冰箱,产品出现故障原因代码为空白,故障原因描述为

机器无故障的频数为 27,支持度为 15.789%,置信度为 100%。

6.3.3 设备潜在故障预测模型关联分析结果

关联强度 商品品牌 主要产品 故障原因代码 故障原因

强关联 西门子 冷冻冷藏式冰箱 HBXWYD00101 机器无故障

哈士奇 冷冻冷藏式冰箱 RBXWYD00101 机器无故障

西门子 led液晶电视 HTVYY11700 显示屏模块损坏

西门子 led液晶电视 HTVYY99900符合三包政策正

常退换机

西门子 led液晶电视 HTVYY90000 用户使用问题

西门子 led液晶电视 HTVYY91000无故障(符合国标

/企标)

西门子 led液晶电视 HTVYY10000 集成电路损坏

西门子

家用房间空调挂壁式室外

机-无氟环保冷酶变频系列 HKTYY05208

空调室外机控制

板故障

中等关联 西门子 冷冻冷藏式冰箱 HBXWYD01809 系统内漏

西门子 冷冻冷藏式冰箱 HBXWYD02401 门体碰伤

哈士奇 冷冻冷藏式冰箱 RBXWYD01089 系统内漏

哈士奇 冷冻冷藏式冰箱 RBXWYD02401 门体碰伤

哈士奇 冷冻冷藏式冰箱 RBXWYD02307 箱体敏伤

哈士奇 冷冻冷藏式冰箱 RBXWYD02101 压机噪音超标

哈士奇 冷冻冷藏式冰箱 RBXWYD00501 主控板不良

西门子 led液晶电视 HTVYY81000单元模块组件失

西门子 xqb 洗衣机 HXYWYY20201XQB 电脑版(程控

器)无输出电压

第 38 页 共 47 页

澳柯玛

家用房间空调挂壁式,落

地式室外机 KKTYY05710室外机缺氟无漏

澳柯玛 家用房间空调分体式 KKTYY01901 登门讲解

澳柯玛 家用房间空调分体式 KKTYY05710室外机缺氟无漏

西门子

家用房间空调挂壁式室外

机(26 容量) HKTYY01901 登门解释

西门子

家用房间空调挂壁式室外

机(26 容量) HKTYY05701室外机缺氟无漏

西门子

家用房间空调挂壁式室外

机(26 容量) HKTYY05208室外机控制板无

工作电压

西门子

家用房间空调挂壁式室外

机(26 容量) HKTYY07001 用户提出移机

西门子

家用房间空调挂壁式室外

机(35 容量) HKTYY0222空调功率模块故

西门子

家用房间空调挂壁式室外

机(35 容量) HKTYY7001 用户提出移机

6.4 模型的评价与分析

6.4.1 模型评价

6.4.1.1 主成分分析的评价

在数据预处理时,对产品型号,故障原因代码,故障原因描述,反映问题描述这四个属

性进行了主成分分析,有利用更好的得出与设备潜在故障有较大联系的属性,便于对这些属

性进行关联分析,更好的分析设备潜在故障。

6.4.1.2 Apriori 算法的关联分析的评价

Apriori 算法具有结构简单,便于理解,推导过程方便等特点,不过也有一些问题,具

体如下:

首先,Apriori 算法是一个逐层搜索的算法,这需要在每一次搜索一层数据集的时候扫

描一次数据库,为保证能挖掘出全部的频繁集,需要扫描 M次数据库,M为最大频繁项集的

长度。可见 Apriori 算法在扫描数据库时产生的开销较大。

其次,在需要处理的数据很多时,Apriori 算法在每次迭代过程会时需要在内存中生成,

处置和保存候选频繁集,这样是的算法的适应能力较差。

最后,对事务和产生的候选项集进行模型匹配时,任需要进行数据库扫描,这样会消耗

大量时间,使得算法复杂度增加。

今后可以对算法进行改进。

第 39 页 共 47 页

6.4.1.3 Modeler 软件的分析的评价

Modeler 作为新一代数据挖掘软件,不仅提供了大量的人工智能统计分析模型,而且提

供了与数据准备有关的常用工具,包括选择,排序,筛选,分类,关联等,有强大的功能和

实际的应用效果,有助于加强 ADR 监测工作,提升技术分析水平,发挥积极的作用。

6.4.1.4 总结

利用该模型对设备潜在故障数据进行定性,定量分析研究,可以尽早发现设备潜在故障,

防止设备不良设备事件发生,有利于公司进一步准备设备配件,提高公司的运行效率。

6.4.2 模型的分析

上面用关联分析对设备潜在故障的 8个设备群做了潜在故障预测,找到了评价设备潜

在故障的关键性指标,并对各个设备群做了潜在故障分析,用支持度的大小来确定潜在故障

出现的频率,利用这个潜在故障分析结果可以相应的对不同的设备群公司提供相应的服务,

提高公司的效益。

7 备件储备模型设计与实现

7.1 备件储备模型的意义及目标概述

备件是设备维修工程必不可少的物质基础。一个固定资产上亿元的企业,备件的种类有

几千种,占用流动资金达几百万元。只有合理的储备备件,才能使设备维修任务完成得既经济

又能保证质量和进度,加速企业流动资金的周转,降低产品成本。因此,科学、合理的确定备

件储备定额,对企业降本增效具有重要意义。但是,确定备件储备定额,是一个工程问题,必

须遵循“既不影响维修需要,又要尽可能降低储备量”的原则。而对这一问题,须从三方面来

考虑。

(1)从维修工程角度考虑

从维修工程角度出发,希望有足够的各种备件在家,一旦设备出现故障,能立即将所需的

备件领出使用。如果备件的供应不能满足维修工程所要求的期限,预定的计划和作业就要中

断,整个维修工程就要出现混乱,其影响是极大的。特别是突发性的故障修理,如果事先毫无

准备,缺乏必要的备件储备量,势必拖延修复时间。这样,不仅使设备的利用率下降,还会

招致其它各种损失,这种损失称为缺货损失(Short-age Cost),因此希望备件储备量尽可能

多些。

(2) 从流动资金角度考虑

备件储备在库中,要产生附带损失,称为持有费用(Holding Cost),它包括:利息、备件储

第 40 页 共 47 页

备损耗、仓库的折旧、修理、照明、通风、管理人员工资及仓库内部搬运费等等。全年持有

费用约占备件储备价值的 10%至 25%。因此,从流动资金的角度来看,希望备件储备量尽可能

少些。

(3) 从订购角度考虑

备件每一次订货到进库入帐,需要各种费用,使用部门的采购申请,备件管理部门的订购

计划,采购部门的估价、核对、订购、催查、联络通讯、出差费,仓库部门的验收、入库、搬

运等等,都要消耗人力、物力、财力。这些费用大都与订购次数有关,称为订购费用

(ProcurementCost)。因此,从订购角度考虑,希望订购次数少些,每次订购批量要大些。

这三方面的要求是互相矛盾的,我们必须将这三方面作全面的衡量,力求取得最合适的

储备水平,也就是确定合理的备件储备定额。

本部分主要解决一下几个方面内容:

覆盖近年来多个企业设备故障情况;

综合上述情况,建立设备故障时间分布模型;

以近年来设备故障情况的 80%为训练样本,20%作为检测样本,建立备件储备模型;

总结近年来备件储备的共性与特性。

7.1.2 设备故障时间分布模型的设计与实现

本模型的目标确定为:针对目前设备故障时间分布的预测。设备故障状况有分为以下三大

类:

(1) 冰箱的总体设备故障占总体的 33.9%

(2) 空调的总体设备故障占总体的 51.8%

(3) 洗衣机的总体设备故障占总体的 9.7%

本质上,企业设备故障预警问题可定性为数据挖掘中的分类与预测问题,即系统根据以

标记的设备数据(训练样本)建立分类模型,并依据该模型预测未来设备(无标记的测试样

本)的故障趋势问题,进而能够进一步对设备备件进行储备。

7.2 数据基本信息描述及数据准备

为了建立设备故障时间分布模型,在数据准备阶段必须收集所有的原始数据,并将其格

式转换成数据模型所需的格式。

7.2.1 数据样本说明

主要备件的故障的时间分布,所以先从原始数据中抽出更换备件的个案,通过产品的分

第 41 页 共 47 页

类得到各种更换备件的数据,再通过频率分析各种交换备件的频率大小,取频率较大的作为

主要备件,从而分析该备件的故障时间分布。

7.2.2 数据清理

只抽取更换主要备件的个案,其它个案不做任何处理。

7.2.3 数据变换

数据转换是将数据转换成“适当的”格式,以适应挖掘任务及算法的需要。数据变换涉

及到如下的内容:

平滑:消除数据中的噪声

聚集:对数据进行聚集和汇总

规范化:将属性数据按比例缩放,使其落入一个小的特定区间

属性构造:构造新的属性并添加到属性集中,帮助挖掘

新变量:时间分布=派工时间—购机日期,表示该设备首次出现故障的时间。

7.3 模型建立

预测模型是从数据库中发现模式,用于对未来的预测。设备故障预测模型简单的说就是

从设备故障数据仓库中提取一定量的训练样本,经过预处理后形成训练集,通过数据挖掘方

法形成预测模型,通过预测模型对新样本进行分类,预测出备件是否具有储备的价值。分析

备件储备价值问题的主要模型是分类(预测)模型。

7.3.1 设备故障的数据特点

设备故障数据分析具有以下一些挑战性的特点:

(1)设备故障数据量大、逻辑复杂,使用历史数据进行数据挖掘的结果往往存在较大的偏

差;

(2)数据预处理工作量大:预处理工作需要从多个不同的应用系统中收集大量质量不均衡

的原始数据进行处理,通常需要花费整个项目 50%~80%的时间;

(3)需要兼顾到多方面的平衡:要考虑到预测的准确性,同时兼顾可理解性;如果需要实

施备件储存,还需要考虑到备件的维修、流动、订购等方面的问题;

(4)数据极不平衡:设备故障的数量往往只占设备故障数量的百分之几甚至千分之几,而

数据不平衡问题也是各类分类算法需要面对的一个共同的问题。

因此,在建立的设备故障预测模型,选择算法的过程中,必须针对以上的数据特点进行设计

和选择。

第 42 页 共 47 页

7.3.2 模型建立

由于本模型中数据分类较多,且每一类的利用的拟合思想一致。下面以哈士奇冰箱门体

或门封故障的时间分布为例:

7.3.2.1 哈士奇冰箱门体或门封使用信息分析

拟合分析哈士奇冰箱门体或门封使用时出现的故障数据。

(1)故障时间分布分析

表 9 哈士奇冰箱门体或门封首次故障时间统计表/季度

(2)哈士奇冰箱门体或门封首次故障时间在 matlab中的编程:

a=xlsread('西门子冰箱更换门体门封.xlsx');t=a(:,1);y=a(:,2);Cftool得出下列结论:

General model Exp1

f(x) = aexp(bx)

Coefficients (with 95% confidence bounds)

1 2 3 4 5 6 7 8 9 10 11 12 13

696 301 191 208 36 7 8 8 2 3 5 0 6

14 15 16 17 18 19 20 21 22 23 24 25 26

2 5 0 14 1 2 3 4 2 1 7 4 2

原始

数据

样本

数据

分类器

特征选择曲线拟合

新数据

故障时间分布

第 43 页 共 47 页

a = 854.9 (747.6, 962.1)

b = -0.6785 (-0.7616, -0.5954)

Goodness of fit

SSE 4600

R-square 0.9796

Adjusted R-square 0.9787

RMSE 13.85

(3)拟合曲线

图 8 哈士奇冰箱门体或门封首次故障时间拟合曲线

由图 8可初步判断哈士奇冰箱门体或门封的故障时间近似服从指数分布。不同时间不同

批量生产的哈士奇冰箱门体或门封质量差别较大,这是生产管理中的毛病,当然也不排除设

计因素。

(4)得出结论

由以上拟合过程及其结论,可以得到哈士奇冰箱门体或门封首次故障时间拟合曲线函数

为 )6785.0exp(9.854)( xxf 。

由图 8可明显的观察出,在前 5个季度内,哈士奇冰箱门体或门封出现的故障问题较为

频繁,因此可以预测在哈士奇冰箱购买的前 5个季度内,该冰箱门体或门封的备件应该多加

储备。

7.3.2.2 模型结果分析

下面按设备故障状况的三大类进行结果分析:

(1)冰箱

哈士奇冰箱

第 44 页 共 47 页

图 9 更换干燥器 图 10 更换门体门封

图 11 更换压缩机 图 12 更换主控板

由图 9可明显的观察出,在前 5个季度内,哈士奇冰箱干燥器出现的故障问题较为频繁,

因此可以预测在哈士奇冰箱购买的前 5个季度内,该冰箱干燥器的备件应该多加储备;在第

5个季度之后,哈士奇冰箱干燥器出现的故障问题较少,因此可以预测在哈士奇冰箱购买的

第 5个季度后,该冰箱干燥器的备件应该减少储备。

由图 11 可明显的观察出,在前 10 个季度内,哈士奇冰箱压缩机出现的故障问题较为频

繁,因此可以预测在哈士奇冰箱购买的前 10 个季度内,该冰箱压缩机的备件应该多加储备;

在第 10 个季度之后,哈士奇冰箱干燥器出现的故障问题较少,因此可以预测在哈士奇冰箱

购买的第 10 季度后,该冰箱干燥器的备件应该减少储备。

由图 12 可明显的观察出,在 10 个季度内,哈士奇冰箱主控板出现的故障问题较少,因

此可以预测在哈士奇冰箱购买的时间段内,该冰箱主控板的备件应该减少储备。

西门子冰箱:

图 13 更换干燥器 图 14 更换门体门封

图 15 更换压缩机 图 16 更换主控板

由图 13可明显的观察出,在前 5个季度内,西门子冰箱干燥器出现的故障问题较为频

繁,尤其是在第三季度左右,该备件出现的故障问题较大,因此可以预测在西门子冰箱购买

的前 5个季度内,该冰箱干燥器的备件应该多加储备;在第 5个季度之后,西门子冰箱干燥

器出现的故障问题较少,因此可以预测在西门子冰箱购买的第 5个季度后,该冰箱干燥器的

备件应该减少储备。

第 45 页 共 47 页

由图 14可明显的观察出,在第 1个季度内,西门子冰箱门体或门封出现的故障问题较

为频繁因此可以预测在西门子冰箱购买的第 1个季度内,该冰箱门体或门封的备件应该多加

储备;在第 1个季度之后,西门子冰箱门体或门封出现的故障问题减少,因此可以预测在西

门子冰箱购买的第 1个季度后,该冰箱门体或门封的备件应该减少储备。

由图 15可明显的观察出,在前 10个季度内,西门子冰箱压缩机出现的故障问题较为频

繁,尤其是在第 9~10季度左右,该备件出现的故障问题较大,因此可以预测在西门子冰箱

购买的前 10个季度内,该冰箱压缩机的备件应该多加储备;在第 10个季度之后,西门子冰

箱压缩机出现的故障问题较少,因此可以预测在西门子冰箱购买的第 10个季度后,该冰箱

压缩机的备件应该减少储备。

由图 16可明显的观察出,在前 4个季度内,西门子冰箱主控板出现的故障问题较为频

繁,尤其是在第 4季度左右,该备件出现的故障问题较大,因此可以预测在西门子冰箱购买

的前 4个季度内,该冰箱主控板的备件应该多加储备;在第 4个季度之后,西门子冰箱主控

板出现的故障问题较少,因此可以预测在西门子冰箱购买的第 4个季度后,该冰箱主控板的

备件应该减少储备。

(2)空调

图 17 更换功率模块 图 18 更换室外机控制板

图 19 压缩机

由图 17,图 18可明显的观察出,在购机之后的任何一段季度内,西门子空调功率模块

备件,室外机主控板备件出现的故障问题较为频繁,出现间断故障问题较为频繁,因此可以

预测在西门子冰箱购买任何一个季度内,该空调空调功率模块备件,室外机主控板备件的备

件应该多加储备。

由图 19可明显的观察出,在前 4个季度内,西门子空调压缩机出现的故障问题较为频

繁,尤其是在第 4季度左右,该备件出现的故障问题较大,因此可以预测在西门子空调购买

的前 4个季度内,该空调压缩机的备件应该多加储备;在第 4个季度之后,西门子空调压缩

第 46 页 共 47 页

机出现的故障问题减少,因此可以预测在西门子空调购买的第 4个季度后,该空调压缩机的

备件应该减少储备。

(3)洗衣机

图 20 XPB 更换脱水电机 图 21 XQB 电脑板

图 22 XQB 更换水位开关或水位传感器 图 23 XQG 更换电脑板

由图 20,图 21可明显的观察出,在前 4个季度内,西门子洗衣机的 XPQ脱水机产品,

XQB电脑板出现的故障问题较为频繁,尤其是在第 4季度左右,该备件出现的故障问题较

大,因此可以预测在西门子洗衣机购买的前 4个季度内,该西门子洗衣机的 XPQ脱水机产

品,XQB电脑板的备件应该多加储备;在第 4个季度之后,西门子洗衣机的 XPQ脱水机产

品,XQB电脑板出现的故障问题减少,因此可以预测在西门子洗衣机购买的第 4个季度后,

该洗衣机的 XPQ脱水机产品,XQB电脑板的备件应该减少储备。

由图 22可明显的观察出,在前 3个季度内,西门子洗衣机的水位开关或水位传感器出

现的故障问题较为频繁,尤其是在第 2季度左右,该备件出现的故障问题较大,因此可以预

测在西门子洗衣机购买的前 3个季度内,该洗衣机的水位开关或水位传感器的备件应该多加

储备;在第 3个季度之后,西门子洗衣机的水位开关或水位传感器出现的故障问题减少,因

此可以预测在西门子洗衣机购买的第 3个季度后,该洗衣机的水位开关或水位传感器的备件

应该减少储备。

由图 23可明显的观察出,在前 6个季度内,西门子洗衣机的 XQG电脑板出现的故障

问题较为频繁,尤其是在第 6季度左右,该备件出现的故障问题较大,因此可以预测在西门

子洗衣机的 XQG电脑板购买的前 6个季度内,该洗衣机的 XQG电脑板的备件应该多加储

备;在第 6个季度之后,西门子洗衣机的 XQG电脑板出现的故障问题减少,因此可以预测

在西门子洗衣机购买的第 6个季度后,该洗衣机的 XQG电脑板的备件应该减少储备。

7.4 模型的评价

该模型针对不同备件首次出现的故障时间进行了不同的曲线拟合预测,且拟合结果具

有较高的相似度,这样有利于公司进一步准备设备备件件,防止设备备件的缺失或浪费,提

第 47 页 共 47 页

高公司的运行效率以及顾客的满意度。

2. 结论

利用上述模型,企业应该多加关注每时间段内设备故障情况,并对一段时间内故障频率比

较多的设备,加以储备并及时填补库存。

3. 参考文献

[1]吴志强,杨江丽.两步聚类分析在图书馆门禁数据挖掘中的研究 期刊 2012年 6月

[2]叶楠,周梅华,蔡建林.我国新能源汽车潜在采用者两步聚类分析 期刊 2012年 8月

[3]张泉慧.两步聚类方法在考试作弊答案分类中的应用 期刊 2010年 6月

[4]航空公司常旅客信息挖掘

[5]袁静,面相设备故障争端的数据挖掘,西安电子科技大学硕士学位论文,2012 年 2 月

[6]王玲,陈中,陈安,Modeler 软件及其在药品不良反应检测中的应用,期刊 2011 年 2 月

[7]黄秀琴,高志坚.备件消耗预测与备件储备定额的确定,期刊 2002 年 9 月

[8]卢 长 志,王 业 生,盛学范,宁世 友. 8 吨汽车起重机首次故障时间的分布 期刊 第 14

卷第 14 期

[9]朱小梅, 姜同敏 .电机的故障时间分布规律研究 期刊第 21 卷第 4 期 2000 年 7 月

[10]张海颖.家电产品服务备件库存管理研究 硕士 2007 年 4 月