4
24 卷第 6 计算机 应用与软件 Vo l 124 N o. 6 2 00 7 6 月    Computer Applications and Software Jun. 2007 基于 Gabor滤波器组的车牌汉字特征提取 朱 峰  詹永照 ( 江苏大学计算机科学与通信工程学院  江苏 镇江 212013) 收稿日期 : 2005 - 05 - 30。基金项目 : 江苏省“青蓝 ”科学基金项目 (1191170004) 朱峰 ,硕士生 ,主研领域 : 模式识别与图像处理 。 摘 要 提出基于 Gabo r 滤波器组的特征提取新方法。利用汉字图像的统计信息及归一化信息 ,提出针对车牌汉字的有效的 Ga2 bo r 滤波器组参数优化方法 ,并设计一组 Gabo r 滤波器用于提取车牌汉字图像中不同中心频率和方位的笔画纹理特征 , 实现直接对 灰度图像的特征提取。实验结果表明 ,相比传统二值化特征提取方法 ,采用基于 Gabo r 滤波器组的小波变换提取特征能够获得更良 好的识别性能 。 关键词 Gabo r 小波变换  Gabo r 滤波器组 车牌汉字  特征提取 CHINESE CHARACTER FEATURE EXTRACTION IN THE VEH ICL E2 L ICENSE2 PL A TE BA SED O N GA BO R F IL TERS Zhu Feng Zhan Yongzhao (School of Com puter Science and Telecomm unication Engineering, Jiangsu University, Zhenjiang 212013, Jiangsu, China) Abstract In this paper, a method for Chinese character feature extraction in vehicle2 license2 plate by using Gaborwavelet transform is pres 2 ented. Based on the theory of Gabor filters and the statistical information of Chinese character images, a set of Gabor filterswas designed to ex2 tract texture features of different central frequency and orientation in the character image. Experiments show the method that directly extracts features from gray scale image perform s excellently for images in low quality greyscale. Keywords Gabo r wavelet tran sfo rm Gabor filters Vehicle2 license2 plate chinese character Feature extraction 0 引 言 智能交通系统 ( Intelligent Transportation System, 简称 ITS) 是近年来国际上飞速发展的新兴产业 , 其应用领域贯穿整个交 通运输的全过程。车牌识别 (L icense Plate Recognition, LPR ) ITS的一个重要组成部分 , 它综合了计算机视觉 、人工智能 、光 学 、模式识别 、自动控制等多种科学技术 。一个完整的车牌识别 系统包括车牌定位、字符切分以及字符识别 3个部分 [1] 字符识别主要研究特征提取和分类决策两方面的算法。国 内车牌包含 8 个字符 ( 其中一个是标点符号 ) 。车牌的第一个 字符为汉字 , 第二个为英文字母 , 第三个是英文或阿拉伯数字 , 第四至第七个字符为阿拉伯数字 [2] , 由于天气原因、车牌整洁 程度 、光照等因素影响 ,牌照中的字符容易出现较严重的模糊、 缺损或污迹干扰 ,给识别带来了难度。对于车牌汉字的特征提 ,传统的方法是先对图像作二值化 , 然后再提取特征 [3,4] 。字 符和数字由于笔画简单 、结构清晰 ,处理相对简单。但首字汉字 存在笔画稠密 、分辨率低 、车牌受污染严重以及图像强度区域分 布不均匀等情况 ,若进行二值化处理 ,会造成大量字符特征信息 的丢失 ,从而使字符结构特征不明显 [5] , 所以牌照汉字的识别 问题一直以来都是车牌字符识别的瓶颈。本文针对已经分割好 的汉字灰度图像直接运用 Gabo r小波变换对其进行特征提取 , 能够避免因二值化操作造成的结构信息丢失 , 同时对环境条件 引起的噪声有较强的鲁棒性 , 提取的特征能够有效地反映车牌 汉字的局部和全局特征 。 1 Gabor滤波器的理论基础 Gabo r 滤波器是一个高斯包络函数所限定的正弦平面波。 Marcelja首先用它来模拟视觉细胞的接收场 , 指出了视觉细胞 对事物的空间频率的局部分析能力 。 Daugman进一步分析了信 号在空间、空间频率和方向上的不确定联系 ,得出 Gabo r滤波器 能达到不确定准则理论下界的结论。这些结论被广泛地用于进 行文理分析、边缘检测、数据压缩等 [6] Gabo r 滤波器可以用于提取图像中对应特定频带的区域主 要是因为纹理图像可看作是具有准周期性的信号 , 其能量相对 集中在一定的频率范围内 。如果这一频率范围与 Gabo r滤波器 的通频带吻合 ,滤波器输出的值将会很大 ,而如果不吻合 , 其输 出将受到抑制。所以可以根据 Gabo r 滤波器的不同频率和方向 对图像滤波结果提取某些参数作为其纹理特征 , 从而达到纹理 分析的目的。而 2D 2 Gabo r小波是对高级脊椎动物视觉平层中 神经元的良好逼近 ,所以基于 Gabo r滤波器的特征比较接近于 人眼观察到的特征 ,因此可以有效地用于特征分类 [7] © 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

基于 Gabor滤波器组的车牌汉字特征提取read.pudn.com/downloads166/ebook/762170/指纹方向场...字符为汉字,第二个为英文字母,第三个是英文或阿拉伯数字,

  • Upload
    others

  • View
    13

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 基于 Gabor滤波器组的车牌汉字特征提取read.pudn.com/downloads166/ebook/762170/指纹方向场...字符为汉字,第二个为英文字母,第三个是英文或阿拉伯数字,

第 24卷第 6期     计算机应用与软件 Vol124 No. 6

2007年 6月    Computer App lications and Software Jun. 2007

基于 Gabor滤波器组的车牌汉字特征提取

朱  峰  詹永照(江苏大学计算机科学与通信工程学院 江苏 镇江 212013)

收稿日期 : 2005 - 05 - 30。基金项目 :江苏省“青蓝 ”科学基金项目

(1191170004)。朱峰 ,硕士生 ,主研领域 :模式识别与图像处理。

摘  要   提出基于 Gabor滤波器组的特征提取新方法。利用汉字图像的统计信息及归一化信息 ,提出针对车牌汉字的有效的 Ga2bor滤波器组参数优化方法 ,并设计一组 Gabor滤波器用于提取车牌汉字图像中不同中心频率和方位的笔画纹理特征 ,实现直接对

灰度图像的特征提取。实验结果表明 ,相比传统二值化特征提取方法 ,采用基于 Gabor滤波器组的小波变换提取特征能够获得更良

好的识别性能。

关键词   Gabor小波变换  Gabor滤波器组  车牌汉字  特征提取

CH INESE CHARACTER FEATURE EXTRACT IO N

IN THE VEH ICL E2L ICENSE2PLATE BASED O N GABO R F IL TERS

Zhu Feng Zhan Yongzhao( School of Com puter Science and Telecomm unication Engineering, J iangsu U niversity, Zhenjiang 212013, J iangsu, China)

Abstract   In this paper, a method for Chinese character feature extraction in vehicle2license2p late by using Gaborwavelet transform is p res2ented. Based on the theory of Gabor filters and the statistical information of Chinese character images, a set of Gabor filterswas designed to ex2tract texture features of different central frequency and orientation in the character image. Experiments show the method that directly extracts

features from gray scale image perform s excellently for images in low quality greyscale.

Keywords  Gabor wavelet transform Gabor filters Vehicle2license2p late chinese character Feature extraction

0 引  言

智能交通系统 ( Intelligent Transportation System,简称 ITS)

是近年来国际上飞速发展的新兴产业 ,其应用领域贯穿整个交

通运输的全过程。车牌识别 (L icense Plate Recognition, LPR )是

ITS的一个重要组成部分 ,它综合了计算机视觉、人工智能、光

学、模式识别、自动控制等多种科学技术。一个完整的车牌识别

系统包括车牌定位、字符切分以及字符识别 3个部分 [ 1 ]。

字符识别主要研究特征提取和分类决策两方面的算法。国

内车牌包含 8个字符 (其中一个是标点符号 )。车牌的第一个

字符为汉字 ,第二个为英文字母 ,第三个是英文或阿拉伯数字 ,

第四至第七个字符为阿拉伯数字 [ 2 ] ,由于天气原因、车牌整洁

程度、光照等因素影响 ,牌照中的字符容易出现较严重的模糊、

缺损或污迹干扰 ,给识别带来了难度。对于车牌汉字的特征提

取 ,传统的方法是先对图像作二值化 ,然后再提取特征 [ 3, 4 ]。字

符和数字由于笔画简单、结构清晰 ,处理相对简单。但首字汉字

存在笔画稠密、分辨率低、车牌受污染严重以及图像强度区域分

布不均匀等情况 ,若进行二值化处理 ,会造成大量字符特征信息

的丢失 ,从而使字符结构特征不明显 [ 5 ] ,所以牌照汉字的识别

问题一直以来都是车牌字符识别的瓶颈。本文针对已经分割好

的汉字灰度图像直接运用 Gabor小波变换对其进行特征提取 ,

能够避免因二值化操作造成的结构信息丢失 ,同时对环境条件

引起的噪声有较强的鲁棒性 ,提取的特征能够有效地反映车牌

汉字的局部和全局特征。

1 Gabor滤波器的理论基础

Gabor滤波器是一个高斯包络函数所限定的正弦平面波。

Marcelja首先用它来模拟视觉细胞的接收场 ,指出了视觉细胞

对事物的空间频率的局部分析能力。Daugman进一步分析了信

号在空间、空间频率和方向上的不确定联系 ,得出 Gabor滤波器

能达到不确定准则理论下界的结论。这些结论被广泛地用于进

行文理分析、边缘检测、数据压缩等 [ 6 ]。

Gabor滤波器可以用于提取图像中对应特定频带的区域主

要是因为纹理图像可看作是具有准周期性的信号 ,其能量相对

集中在一定的频率范围内。如果这一频率范围与 Gabor滤波器

的通频带吻合 ,滤波器输出的值将会很大 ,而如果不吻合 ,其输

出将受到抑制。所以可以根据 Gabor滤波器的不同频率和方向

对图像滤波结果提取某些参数作为其纹理特征 ,从而达到纹理

分析的目的。而 2D2Gabor小波是对高级脊椎动物视觉平层中

神经元的良好逼近 ,所以基于 Gabor滤波器的特征比较接近于

人眼观察到的特征 ,因此可以有效地用于特征分类 [ 7 ]。

© 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

Page 2: 基于 Gabor滤波器组的车牌汉字特征提取read.pudn.com/downloads166/ebook/762170/指纹方向场...字符为汉字,第二个为英文字母,第三个是英文或阿拉伯数字,

 

第 6期     朱峰等 :基于 Gabor滤波器组的车牌汉字特征提取 57   

2D2Gabor小波的脉冲响应表达式如下 :

Ψ j ( k→

, x→

) =| k→

j |

σ2 exp -| k→

j | 2 | x→

|2

2σ2 exp ( i k→

j·x→

) - exp -σ2

2

(1)

其中 , i为复数算子 ,σ为尺度因子 , k→

j为特征小波矢量 ,其不同

的取值就构成了小波族中不同的小波函数。式 ( 1)中第一个指

数项为局部化振荡部分的 Gaussian窗 ,第二个指数项为直流分

量增益 ,以避免过滤器响应对于图像亮度绝对值的依赖 ,当 σ

值足够大时 ,对于直流分量的影响可以忽略不计 [9 ]。 k→

j的定义

如式 (2) :

k→

j = kv ( cosφ, sinφ) T (2)

其中 , kv表示小波不同的核频率 ,σ表示小波不同的方向。

为了得到图像的局部特征 ,需将公式 ( 1)在空间域和频率

域上离散化 [9 ] ,频率的离散化通过对 (1)在 V个对数空间频率 v

∈{ 0, 1, ⋯, V - 1}和σ∈{ x°, y°, z°, ⋯}上取样来实现。这样就

可以利用 2D2Gabor脉冲响应函数构造不同频率和方向的小波

滤波器 ,使之覆盖整个频域以便对图像进行多通道分解。因此 ,

对相关图像的分析可将原图像分解为不同频率和方向的子图

像 ,然后分别从各个子图像中提取特征并进行分析。

2 基于 Gabor滤波器组的特征提取

2. 1 车牌汉字图像预处理

预处理对于车牌汉字的特征提取非常重要 ,好的预处理算

法可以有效提高特征提取的质量。实验中采用的预处理算法主

要包括图像尺寸归一化、灰度均衡化、笔划粗细归一化等步骤。

(1) 灰度均衡化  目的是通过点运算使输入的车牌汉字图

像转化为在每一灰度级上都有相同的像素点数的输出图像。可

以将不同环境下得到的灰度有很大差别的图像转化为一致的格

式。这里采用反差增强算法进行灰度均衡 ,首先用直方图统计

其灰度分布 ,然后自适应得到门限值 T1 和 T2 ,对不同的灰度范

围采用不同的拉伸。

f ( i, j) =

0       m ≤T1

255T2 - T1

(m - T2 ) T1 <m < T2

255 m ≥T2

其中 , m 为图像点 ( i, j)的灰度值 , f ( i, j)为均衡后得到的灰

度值。

(2) 尺寸归一化  为防止图像失真 ,采用双线性插值方法

把图像归一化为 643 32大小。双线性插值的表达式如下 :

f ( x′, y′) = [ f ( x + 1, y) - f ( x, y) ]·x′+ [ f ( x, y + 1) - f ( x,

y) ]·y′+ [ f ( x + 1, y + 1) + f ( x, y) - f ( x, y + 1 ) - f ( x + 1, y) ]

·x′y′+ f ( x, y)

在灰度均衡化和大小归一化后还对每个字符点阵做了笔画

粗细归一化和平滑处理。笔画粗细归一化就是把原字符笔画根

据同一种标准加粗或变细的过程。采用将字符点阵进行水平和

垂直投影 ,根据投影值的分布用逻辑模板确定加粗或变细。平

滑的目的是为了去掉孤立的噪音平滑边缘消除边缘的锯齿

现象。

图 1是“津 ”和“晋 ”字的预处理效果图 ,和原图比较 ,预处

理后的图像具有下列突出的特点 :

图 1 预处理效果图

   (1) 笔画宽度基本一致 ;对于相同的字符 ,其笔画位置和间

隔也相对稳定 ;

(2) 字符笔画方向集中分布在几个特定的方向附近。

2. 2 Gabor滤波器组的设计

Gabor小波滤波器的应用可以转化为在不同的问题中如何

合理选取 Gabor滤波器参数的问题 ,不同的应用场合参数选取

的依据应有所不同。汉字字符图像在空间上具有局域性和方向

性 ,在频域上字符笔画与干扰具有可分性。这就要求所选的参

数应当能够使 Gabor小波滤波器对字符不同纹理区域的主要频

率分量有较大的响应 ,以此获得所需的纹理特征值。也就是采

用的 Gabor滤波器能够抽取字符图像局部空间中最重要和最稳

定的笔画方向信息。

在车牌汉字特征提取中 , Gabor滤波器的频率选择性表现

为对字符的笔画宽度和方向的选择 [8 ]。在实验中 ,我们考虑将

Gabor滤波器组的参数与车牌汉字字符图像的先验知识以及统

计信息进行关联 ,从而设计合理的参数。

我们对一幅预处理后的车牌字符可以获得下列信息 : ( 1 )

字符笔画的平均宽度 w。车牌字符属于专用字体 ,有固定的尺

寸和长宽比 ,利用这些先验知识可以方便地获得归一化尺寸的

车牌字符图像的笔画平均宽度 ,避免常规取得汉字笔画平均宽

度所需要的大量统计信息。 ( 2)笔画方向的分布 {θk } k = 1, 2⋯K. 。

由于汉字主要是横撇竖捺 4种笔画构成 ,投影在空间域上相邻

两种笔画之间恰好有 45°相差。这里我们重点考察 Gabor滤波

器组的空间抽样间隔 D、带宽σ、频率选择性 kv以及方向选择性

φ。首先 ,通过对车牌汉字库中大量的样本进行试验 ,发现 Ga2bor滤波器组对宽度为σ /2的中心线条最敏感 ,所以有 W =σ /

2,即σ = 2W。同时 ,为避免图像信息损失 , Gabor滤波器组在空

间上的抽样间隔应满足 : D≤σ / 2。其次 ,频率的范围根据所要

识别的对象的尺寸来选定 ,以便所有的局部信息能够通过小波

表示出来。最后 ,对于一组归一化为 643 32大小的车牌汉字灰

度图像 ,可具体设置参数数据如下 :

D = 3

σ = 5. 6

kv =12

,1

2 2,

14

π

φ = (0°, 45°, 90°, 135°)

不同 kv、σ值的组合可以得到 3个不同尺度和均匀分布在

平面上的 4个不同方向的 3 ×3的 Gabor小波矩阵 ,构造 12个

小波函数组成小波族 ,然后将车牌汉字灰度图像分别与小波族

的每一个小波函数作卷积 ,如式 (3)所示 :

Gj =Ψ j ( k→

, x→

) 3 I ( x→

) (3)

这样 ,对于图像中采样的每一个像素点可以进行 12次 Ga2bor小波变换 ,同时由于小波变换后的结果也是由实部和虚部两

© 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

Page 3: 基于 Gabor滤波器组的车牌汉字特征提取read.pudn.com/downloads166/ebook/762170/指纹方向场...字符为汉字,第二个为英文字母,第三个是英文或阿拉伯数字,

 

58        计算机应用与软件 2007年

部分的矢量组成 ,可通过取模运算将实部矢量和虚部矢量合为

模矢量 ,并最终作为小波变换的结果。“琼 ”字通过 Gabor小波

变换的 12幅 Gabor特征图如图 2所示。

 0° 45° 90° 135°

π2

π

2 2

π

4 2

图 2 “琼”字不同频率和方向的滤波输出

3 实验结果与分析

由于小波是复指函数 ,为了计算的方便 ,在程序设计中将小

波函数分解为实部和虚部两类 Gabor函数 ,分别与函数图像卷

积 ,因此小波变换后的结果也是由实部和虚部两部分的矢量组

成 ,可通过取模运算将实部矢量和虚部矢量合为模矢量 ,并最终

作为提取的特征结果。为形象地表示提取的不同汉字特征 ,将

卷积后得到的图像矩阵用二维曲线表征。如图 3给出了不同光

照和不同角度的车牌上“苏 ”字的输出特征曲线 ,图 4给出了不

同的车牌汉字“冀 ”“桂 ”“陕 ”“湘 ”的输出特征曲线。

( a) “苏”0的特征曲线   ( b) “苏”1的特征曲线

图 3 不同“苏”的输出特征曲线

( a) “冀”的特征曲线    ( b) “桂”的特征曲线

( a) “陕”的特征曲线    ( b) “湘”的特征曲线

图 4 不同车牌汉字的输出特征曲线

可以看出 ,对于不同车牌上的同一个汉字经 Gabor小波变

换后 ,输出曲线走向大致相同 ,而不同的汉字特征曲线有较明显

的差别。为了验证用 Gabor小波变换提取车牌汉字特征的可行

性 ,从实际环境中取得首字为“苏 ”的车牌 10张 ,首字为“冀 ”、

“桂 ”、“陕 ”、“京 ”、“吉 ”、“浙 ”、“津 ”、“琼 ”、“湘 ”的车牌各 6张

作为实验样本。这 64张图像中每个不同的汉字均有惟一一张

比较标准的图像作为该汉字的模板 ,另外 54张在不同程度上都

存在倾斜、变形、断裂、模糊、污染等情况。首先对这 64张车牌

图像进行预处理将首位汉字切分出来 ,并归一化成大小为 64 ×

32的灰度图像 ,采用公式 ( 1, 2)定义的小波族与图像进行卷积

提取灰度汉字的特征。实验中采用比较简单的欧式距离进行计

算以验证特征提取的有效性。欧式距离计算式为 :

d = ‖c - x‖ (4)

其中 : c表示特征模板 , x表示待识别的汉字。

实验中车牌汉字特征的欧氏距离比较如表 1、表 2、表 3所

示。表 1显示了 9幅不同的“苏 ”字与模板“苏 ”的欧氏距离。

表 2显示了“冀 ”、“桂 ”、“陕 ”、“京 ”、“吉 ”、“浙 ”、“津 ”、“琼 ”、

“湘 ”9个字与“苏 ”的欧氏距离的比较。表 3显示了“冀 ”等 9

个车牌汉字之间的欧氏距离的比较。

表 1 10幅不同“苏”的欧氏距离

苏 1 苏 2 苏 3 苏 4 苏 5 苏 6 苏 7 苏 8 苏 9

苏 0 2. 51 5. 79 2. 59 4. 32 5. 59 4. 97 11. 12 3. 79 8. 76

表 2 部分不同车牌汉字与“苏“的欧氏距离

冀 桂 陕 京 吉 浙 津 琼 湘

苏 0 36. 53 28. 47 26. 74 22. 03 24. 55 28. 96 67. 98 44. 67 27. 89

表 3 部分不同车牌汉字之间的平均欧氏距离

冀 桂 陕 京 吉 浙 津 琼 湘

冀 7. 47 28. 12 35. 67 33. 56 56. 35 29. 13 28. 56 22. 13 32. 47

桂 10. 94 22. 87 34. 55 33. 57 28. 13 29. 35 32. 11 33. 47

陕 6. 78 27. 47 30. 55 28. 97 29. 98 29. 78 33. 64

京 3. 24 26. 77 34. 58 27. 78 12. 99 36. 94

吉 4. 97 35. 47 38. 27 62. 78 44. 57

浙 11. 57 29. 47 16. 54 19. 30

津 9. 09 48. 30 22. 36

琼 11. 55 39. 21

湘 7. 99

由表 1中的数据可以看出不同车牌上的同一个汉字例如

“苏 ”,经 Gabor小波变换后 ,特征之间的欧氏距离数值较小。而

由表 2、表 3可以看出不同汉字的 Gabor变换特征之间的欧氏距

离明显大于同一个汉字之间的欧氏距离。但是 ,对于两个有较

多相同笔画的汉字如“京 ”与“琼 ”,其欧氏距离相对于与其他汉

字的距离有所减少 ,但仍比两个“京 ”或者两个“琼 ”之间的距离

大 ,所以使用 Gabor小波变换能够有效地提取车牌汉字特征。

4 结  论

本文提出一种基于 Gabor滤波器组的车牌汉字特征提取新

方法。实验结果表明 ,基于 Gabor小波变换的特征提取可以抽

取字符图像局部空间中最重要和稳定的笔画方向信息 ,并且对

于字符的大小、倾斜等干扰因素具有较低的敏感性和较强的抗

噪能力。进一步的工作是将该特征提取方法与泛化能力强、分

类效果好的分类算法有效地结合起来 ,以提高车牌汉字识别率 ,

开发出实用的实时车牌识别系统。 (下转第 92页 )

© 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

Page 4: 基于 Gabor滤波器组的车牌汉字特征提取read.pudn.com/downloads166/ebook/762170/指纹方向场...字符为汉字,第二个为英文字母,第三个是英文或阿拉伯数字,

 

92        计算机应用与软件 2007年

总精确度 53. 25% 53. 84% 55. 08%

回报 - 12. 87% 20. 85% 2. 73%

基准回报 - 13. 05% 12. 09% - 6. 95%

从初步结果来看 ,由朴素贝叶斯分类器选择的高收益类股

票所组成的等权投资组合在所测试的一年半中的每半年周期的

回报都超过基准回报。其中 2003年下半年的回报非常可观 ,而

在其他时段所选择的高收益类股票组成的等权投资组合其表现

仍然略为超出基准回报。在 2003~2004上半年的整个期间这

些股票的累积回报是 8. 17% ,而根据市场指数操作所产生的回

报是 - 9. 31%。然而由于股票交易回报与股票发行公司的财务

结构和会计信息之间的联系比较微弱 ,这种根据基本面进行分

类的方法与其他基于时间序列的技术分析方法相比稍为逊色 ,

这是可以预料到的 ,但是我们可以通过对这种朴素贝叶斯分类

法进行改进以改善其表现。

通过检视每半年的分类精确度 ,我们发现当前的分类方法

在 2003年上半年表现很差 ,因为在该时段里分类器选择了大量

的股票作为高收益类股票 ,而正如我们所知 ,将一个低收益类股

票包含在股票投资组合中其代价要高于将一个高收益类股票排

除在投资组合外。因此我们通过一个崭新的视角来拓展该朴素

贝叶斯分类法以提高其精度。我们提出将朴素贝叶斯分类法的

输出结果进行排序 ,然后选取 Class + 1与 Class - 1分类概率

之差的绝对值最高的前 25%的股票进行分类判定。

表 2显示了应用这种方法所得到的结果。我们可以看到预

测精度和总体获利度都提高了。在整个一年半中总体回报已经

从 8. 17%增长到 21. 31%。同时如图 1所示 ,总体获利度与选

取用来进行类别确定的股票的份额之间的关系也显示出选取前

25%的股票进行类别判定是一个比较好的方案。

表 2 朴素贝叶斯法测试结果 (选择 25%的股票进行类别判定 )

2003上半年 2003下半年 2004上半年

总股票数 692 684 684

进行类别判定的股票数 173 171 171

选出的高收益股票数 47 53 38

选出的低收益股票数 126 118 133

高收益股票精确度 33. 87% 37. 56% 24. 59%

低收益股票精确度 74. 32% 72. 56% 87. 84%

总精确度 54. 10% 55. 06% 56. 22%

回报 - 4. 13% 16. 58% 8. 54%

基准回报 - 13. 05% 12. 09% - 6. 95%

图 1 相对于选择用来进行类别确定

的股票所占百分比的总回报率

5 结  论

我们可以看到朴素叶斯分类法对于股票选择的问题很有

效。在上海证券市场上交易的股票应用该方法 ,我们在 1年半

(3个样本外周期 )的时段中总共获得 8%的收益 ,明显优于基

于市场指数操作而得到的 - 9%的收益。并且当我们对朴素贝

叶斯分类法的输出结果进行排序 ,并固定选取排在前面的股票

的比例以确定这些股票的类别后 ,可以看到朴素贝叶斯分类法

的结果得到了相当大的改善 ,回报率达到了 21%。

参 考 文 献

[ 1 ] E F Fama. Multiperiod com sump tion2investment decisions. American E2

conom ic Review, 1970, 60: 163 - 174.

[ 2 ] E F Fama, K R French. D ividend yields and expected stock returns.

Journal of Financial Econom ics, 1988, 22: 3 - 26.

[ 3 ] E F Fama, K R French. The cross2section of expected stock returns.

Journal of Finance, 1992, 47: 427 - 465.

[ 4 ] A lbanis G, R Batchelor. 21 methodologies to beat the market. In Pro2

ceedings of Computational Finance 2000, 2000.

[ 5 ] R A Haugen. Modern Investment Theory. Prentice2Hall, Inc. 1997.

[ 6 ] G John, P M iller, R Kerber Stock. selection using recon. In Neural Net2

works in Financial Engineering, 1996: 303 - 316.

[ 7 ] A U Levin. Stock selection via nonlinear multi2factor models. In Ad2

vances in Neural Information Processing System s, 1995.

[ 8 ] Machael E W all, Andreas Rechtsteiner, Luis M Rocha. Singular value

decomposition and p rincipal component analysis. In A Practical Ap2

p roach to M icroarray Data Analysis, 2003.

[ 9 ] J iawei Han,M icheline Kamber. Data M ining Concep ts and Techniques,

Morgan Kaufmann Publishers, Inc. 2000.

(上接第 58页 )

参 考 文 献

[ 1 ] 张云刚 ,张长水. 利用 Hough变换和先验知识的车牌字符分割算法

[ J ]. 计算机学报 , 2004, 27 (1) : 130 - 135.

[ 2 ] 张引 ,潘云鹤. 面向车辆牌照字符识别的预处理算法 [ J ]. 计算机

应用研究 , 1999, 16 (7) : 85 - 87.

[ 3 ] 柴治 ,陶青川 ,等. 一种快速实用的车牌字符识别方法 [ J ]. 四川大

学学报 :自然科学版 , 2002, 39 (3) : 465 - 468.

[ 4 ] Cowell J R. Syntactic pattern recognize for vehicle identification num2

bers[ J ]. Image and V ision Computing, 1995, 13 (1) : 13 - 19.

[ 5 ] Lee SeongW han, Kim Young Joon. D irect extraction of topographic fea2

ture for gray scale character recognition[ J ]. IEEE Transactions on Pat2

tern Analysis and Machine Intelligence, 1995, 17 (7) : 724 - 729.

[ 6 ] 傅一平 ,李志能 ,等. 基于优化设计 Gabor滤波器的边缘提取方法

[ J ]. 计算机辅助设计与图形学学报 , 2004, 16 (4) : 481 - 486.

[ 7 ] yoshihikl hamamoto, shunji uchimura, masanori watanabe. A Gabor fil2

ter2based method for recognizing handwritten numerals, Proc. Japan,

1998: 98 - 107.

[ 8 ] 王学文 ,丁晓青 ,等.基于 Gabor变换的高鲁棒汉字识别新方法 [ J ].

电子学报 , 2002, 9 (9) : 1317 - 1322.

[ 9 ] 徐杰 ,施鹏飞. 基于 Gabor小波特征的多姿态人脸图像识别 [ J ]. 计

算机工程与应用 , 2003, 21 (17) : 16 - 18.

© 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net