22
電電電電電電電電電電電 電電電電電電電電電電電電電 電電電電 電電電電電

電子マニュアルの構造を 利用した文書評価メトリクス

Embed Size (px)

DESCRIPTION

電子マニュアルの構造を 利用した文書評価メトリクス. 谷口真也 井上研究室. 背景 (1/2). ソフトウェアが分野を問わず広く利用 開発・利用のためにマニュアルが必要 マニュアルの品質を評価する枠組が必要 知識をもたない人を対象 大量のマニュアルが存在. 背景 (2/2). 文書の電子化が進行 ( 例: CALS ,グループウェア,マニュアル ) 文書を構造的に記述 情報の共有 再利用性,検索性の向上. 目的. 電子マニュアルの構造の良さを定量的に評価したい 大量のマニュアルから品質の劣る文書を検出する手法を提案し,その修正ガイドラインを示す. - PowerPoint PPT Presentation

Citation preview

Page 1: 電子マニュアルの構造を 利用した文書評価メトリクス

電子マニュアルの構造を利用した文書評価メトリクス

谷口真也井上研究室

Page 2: 電子マニュアルの構造を 利用した文書評価メトリクス

背景 (1/2)

• ソフトウェアが分野を問わず広く利用– 開発・利用のためにマニュアルが必要

• マニュアルの品質を評価する枠組が必要– 知識をもたない人を対象– 大量のマニュアルが存在

Page 3: 電子マニュアルの構造を 利用した文書評価メトリクス

背景 (2/2)

• 文書の電子化が進行( 例: CALS ,グループウェア,マニュアル )

• 文書を構造的に記述– 情報の共有– 再利用性,検索性の向上

Page 4: 電子マニュアルの構造を 利用した文書評価メトリクス

目的

• 電子マニュアルの構造の良さを定量的に評価したい

• 大量のマニュアルから品質の劣る文書を検出する手法を提案し,その修正ガイドラインを示す

Page 5: 電子マニュアルの構造を 利用した文書評価メトリクス

構造化文書 (1/2)

• 文書内容が階層化されたモジュール単位で記述された文書– モジュール:読者に一度に提供するため情

報量を表す単位– 情報ブロック:意味を伝達可能な情報量を

表す単位– 階層:モジュール間の上下関係– 参照:階層以外のモジュール間の関係

Page 6: 電子マニュアルの構造を 利用した文書評価メトリクス

構造化文書 (2/2)

情報ブロック

情報ブロック

モジュール

モジュール モジュールモジュール

モジュールモジュール

階層

参照

構造化文書の模式図

Page 7: 電子マニュアルの構造を 利用した文書評価メトリクス

文書構造の評価基準 -モジュール-

1. モジュールのサイズは 1 ウィンドウ程度2. 各モジュールのサイズは均等3. モジュールは複数の情報ブロックから構

• ユーザが情報を把握しやすく,読みやすさが向上

Page 8: 電子マニュアルの構造を 利用した文書評価メトリクス

文書構造の評価基準 -階層-

4. モジュールが構成する階層は基本的に3 階層

5. 各モジュールの子供は 1 桁以内にする

• ユーザが現在読んでいる階層の認識をしやすくなる

Page 9: 電子マニュアルの構造を 利用した文書評価メトリクス

HTML で記述された構造化文書

モジュール

モジュールモジュール

モジュールモジュール

階層(見出し)

階層 ( 構造リンク )

HTML 記述された構造化文書の模式図

ページ内参照リンク

ページ外参照リンク

ファイル

ファイル

Page 10: 電子マニュアルの構造を 利用した文書評価メトリクス

HTML マニュアルの定義• モジュール

– <H1> ,…, <H6> タグによって分割された一連の情報• 情報ブロック

– <P>...</P> タグで記述されている段落• 階層

– <Hn> タグの大小関係– 構造リンク

• 参照– ページ内参照リンク– ページ外参照リンク

Page 11: 電子マニュアルの構造を 利用した文書評価メトリクス

HTML マニュアルの評価基準

6. 1 ファイルに記述されるのは 1 モジュール

– 文書作成の分散作業

7. 1 モジュールにつき 1 つのページ内リンク

– 読者の一覧性

8. 関連のあるモジュール間での参照リンク– 階層の認識

Page 12: 電子マニュアルの構造を 利用した文書評価メトリクス

構造評価メトリクスの定義 (1/2)

評価メトリクス集約された計測値

統計的手法により集約

構造から算出できる計測値

文書構造の評価基準

基準と計測値を対

HTMLマニュアル

計測値を算出

検出されるデータの分析

Page 13: 電子マニュアルの構造を 利用した文書評価メトリクス

構造評価メトリクスの定義 (1/2)

• 無作為に収集した 142 件 (7885 ファイル ) の HTML マニュアル– InternetExplorer5.0– 800×600 のウインドウ– フォントサイズ中

「文書構造を利用した電子マニュアル評価メトリクス計測ツールの試作」

– 計測ツール,データの分析

Page 14: 電子マニュアルの構造を 利用した文書評価メトリクス

構造評価メトリクス

1. 文字数 / モジュールの平均が 42394 以上2. 文字数 / モジュールの標準偏差が 7661 ,変動係数

が 2.67 以上の和集合3. 情報ブロック数 / モジュールの平均が 476 以上4. 深さが 8 以上:構造リンクが 2.72 以上 =2 : 1 で加

算した平均5. 子供の数 / モジュールの平均が 71.5 ,標準偏差が

42.7 ,変動係数 2.37 以上の和集合6. モジュール / ファイルの平均が 78 以上7. 文字数 / ファイルが 5000 以上,かつ,ページ内構

造リンクが 1 以下

Page 15: 電子マニュアルの構造を 利用した文書評価メトリクス

検出される HTML マニュアル

基準 棄却データ

特徴

1 2 件 見出しタグを正確に使用していない

2 6 件 サイズの大きいモジュールが存在

3 2 件 段落タグを大量に使用

4 2 件 文書中で線形に記述

5 14 件 1 モジュールに子供が大量に存在

6 3 件 単一ファイルでサイズが大きい

7 9 件 サイズの大きいモジュール

Page 16: 電子マニュアルの構造を 利用した文書評価メトリクス

構造化文書の修正ガイドライン

1. 見出しタグを利用してモジュールに分割2. ファイル内を見出しタグで分割         

     内容を再考し,モジュールを再分割3. 内容を再考し,段落を再構成          

     段落ごとに段落タグを適切に記述4. 線形になっている部分を木構造に再構成5. 親モジュールを作成し木構造に構成6. 1 モジュール単位にファイルを分割       

     明確な基準を定め,ファイルを分割7. 1 モジュールごとに 1 ページ内参照リンク    

     約 1200 文字ごとにページ内参照リンク

Page 17: 電子マニュアルの構造を 利用した文書評価メトリクス

HTML マニュアルの修正例 (1/2)

4. モジュールが構成する階層は 3 階層検出されるデータ: 2 件

– 文書に線形に記述された部分がある• 概要を把握しづらい• 各モジュールを直接参照することができない

– 線形部分を階層的に記述しなおすことでこの問題を解消

Page 18: 電子マニュアルの構造を 利用した文書評価メトリクス

HTML マニュアルの修正例 (2/2)

マニュアル A ( ファイル数 86 ,深さ 15)– ある手順の操作説明が線形に記述

モジュール B

モジュール C

モジュール A

親モジュールへ

子モジュールへ

モジュール Cモジュール B

モジュール A

親モジュールへ

Page 19: 電子マニュアルの構造を 利用した文書評価メトリクス

考察

• ほとんどの評価基準において,品質の低い文書を検出できた

• 修正ガイドラインに従うことにより,文書構造の品質が高くなる

• 検出できない品質の低い文書がいくつかあった– 評価メトリクスに利用する計測値の不足

• 基準 8 で検出された HTML 文書は修正後も品質がそれほど向上しなかった– 参照は文書の関連を示すための付加的なものである

ため,少ないことが特に問題とはならない

Page 20: 電子マニュアルの構造を 利用した文書評価メトリクス

まとめと今後の課題

• 大量のマニュアルから品質の劣る文書を検出する手法を提案し,その修正ガイドラインを示した

• その結果,本手法により実際に文書構造の品質が低い文書を検出し,ガイドラインに従って修正することで品質が高くなることが確認できた

• 更に大量のサンプルデータを集めて分析を進める– 文書構造の品質と, HTML 文書の構文的正しさ– 文書構造の品質と文書の再利用性

Page 21: 電子マニュアルの構造を 利用した文書評価メトリクス

検出できなかったデータ (1/2)

3. モジュール内の情報ブロックが極端に少ない文書を検出できない

– 収集した HTML マニュアルに段落タグをあまり利用していないものが多い

5. トップページに全てのノードへのリンクが張ってある文書が多く検出される

– ツールが HTML の構造リンクによる階層と,モジュール間の論理構造から構成される階層のうち,前者を優先しているため,ページ外参照リンクを構造リンクと判断する

Page 22: 電子マニュアルの構造を 利用した文書評価メトリクス

検出できなかったデータ (2/2)

7. 1 ファイルに記述されるのは 1 モジュール– モジュールをファイルに配置する基準が

一定でない文書が検出されない• ファイル / モジュールの平均値以外の評価値

が必要