20
1 摘要 近年來,雲端運算(Cloud Computing) 產業崛起,各資訊大廠紛紛搶入市場。雲 端運算技術不單是對於相關企業的發展非常重要,對於國家整體競爭力也有舉足輕 重的影響,然後有關雲端技術產業專利分析的研究文獻極少。然而,專利文件的數 量龐大,加上內容可能包含大量領域專業和技術詞彙,專利工程師無法有效率地閱 讀和分析。近年來,以文字探勘進行專利分析的研究漸受重視。因此,本研究實作一 套文字探勘工具進行專利網絡分析,提出二階段式專利檢索策略,並提出一新專利指 標「技術中心性」找出核心專利。研究結果顯示:(1)二階段式專利檢索策略將雲端運 算產業專利正確分類至正確的商業模式上; (2)透過不同試驗參數的權重系統與相似度 找出較佳的專利網路;(3)技術中心性能確實找出核心專利。本研究所獲得分屬三類雲 端運算模式之核心專利,可提供國內外有意進軍雲端運算產業之企業的重要研發參考 依據。 關鍵詞:雲端運算、專利檢索、文字探勘、社會網路分析

(Cloud Computing) (2) - thesis.topco-global.comthesis.topco-global.com/TopcoTRC/2013_Thesis/I0085.pdf · 效的降低成本與風險。但是,雲端運算其實不是新技術,更嚴格的說,甚至不能算

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

  • 1

    摘要

    近年來,雲端運算(Cloud Computing)產業崛起,各資訊大廠紛紛搶入市場。雲

    端運算技術不單是對於相關企業的發展非常重要,對於國家整體競爭力也有舉足輕

    重的影響,然後有關雲端技術產業專利分析的研究文獻極少。然而,專利文件的數

    量龐大,加上內容可能包含大量領域專業和技術詞彙,專利工程師無法有效率地閱

    讀和分析。近年來,以文字探勘進行專利分析的研究漸受重視。因此,本研究實作一

    套文字探勘工具進行專利網絡分析,提出二階段式專利檢索策略,並提出一新專利指

    標「技術中心性」找出核心專利。研究結果顯示:(1)二階段式專利檢索策略將雲端運

    算產業專利正確分類至正確的商業模式上;(2)透過不同試驗參數的權重系統與相似度

    找出較佳的專利網路;(3)技術中心性能確實找出核心專利。本研究所獲得分屬三類雲

    端運算模式之核心專利,可提供國內外有意進軍雲端運算產業之企業的重要研發參考

    依據。

    關鍵詞:雲端運算、專利檢索、文字探勘、社會網路分析

  • 2

    壹、 緒論

    一、 研究背景與動機

    近年來,眾多資通科技業者視雲端運算(Cloud Computing)為繼 Web2.0 的概念

    之後的重要發展趨勢,並持續推出相關的創新應用以搶攻商機。伴隨著雲端運算技

    術的發展,使用者對於網際網路的使用模式也正悄然改變。但是雲端運算目前的發

    展趨勢仍稍嫌混沌,其在「網格運算」(Distributed Computing)和「分散式運算」(Grid

    Computing)之間的定位也是妾身未明。而整合眾多電腦的資源來完成更龐大的作

    業,已是未來發展的必然趨勢,因此若能透過專利分析找出相關技術的發展狀況,

    可幫助雲端運算產業的企業降低研發投資風險。

    專利資訊為企業最重要的無形資產,其不僅可以保護公司的研發成果,更可以

    做為市場上競爭攻防的工具。專利文件包含了大量有用的資訊,其能用於確認新技

    術的發展機會、探測競爭對手的動向及評估研發的趨勢等資訊,對於技術的創新及

    研發,皆有很重要的影響。

    然而專利文件的數量龐大,加上其內容可能包含大量領域專業和技術詞彙,因

    此專利工程師無法有效率地閱讀和分析。此外,傳統上專利分析師僅依專利類別

    (IPC 或 UPC)分群,此舉可能將不同技術之專利納在同一分類中。換言之,單純由專

    利類別並不易瞭解該專利與其他專利間之關係,因此若能將專利文件歸屬到正確的

    技術分群,則較易瞭解此專利之主要技術領域。

    文字探勘 (Text Mining) 為近來年興起的新技術,其目的為挖掘大量文件資料中

    的隱含資訊,將非結構化的文字(text)經萃取與轉換成結構化的資料,使分散的文

    字組合成可用的資訊與規則。常用的技術有文字分群(text clustering)、概念萃取

    (concept extraction)、文件摘要(document summarization)與關聯規則(association

    rules)等。其優點是可從文件中抽取出特定用語(term)間的關聯性,而這些用語不

    需事先定義,因此可應用在各個不同的領域,大幅降低專家參與的必要性。

    由於雲端運算產業涵蓋領域仍是眾說紛紜,導致其專利檢索的困難,因此目前

    仍少見有雲端運算產業專利分析報告的原因。有鑑於近年來文字探勘的技術在資訊領

    域之應用頗有進展,因此本研究將此技術運用於專利分析並結合社會網路分析,希望藉

    由此開發之分析工具與流程,對專利工程師或相關領域研究者會有實質的幫助。

    二、 研究目的

    專利工程師或相關工作研究者進行專利分析時,若能清楚瞭解其待分析產業之

  • 3

    專利類別,則分析工作將會駕輕就熟。然而,一般而言,此項工作並不容易,尤其

    類似雲端運算產業之發展尚屬渾沌,其分析更是困難。本研究之目的如下:

    1. 發展以文字探勘為基的自動化專利分析工具,以突破傳統上的專利分析。

    2. 提出一套二階段式專利檢索策略,提高專利檢索準確度。

    3. 透過文字探勘取得文件-文件關聯矩陣,進行雲端運算產業之網路分析,綜整

    出該產業目前的核心趨勢,以幫助雲端運算相關企業降低研發投資風險。

    4. 提出一新專利指標,擺脫以往專利分類號與專利引證之限制。

    貳、 文獻探討

    一、 雲端運算

    對消費者而言,雲端運算可使其得到更妥善的服務,而對企業而言,則能夠有

    效的降低成本與風險。但是,雲端運算其實不是新技術,更嚴格的說,甚至不能算

    是「技術」。雲端運算是利用網路使電腦能夠彼此合作或使服務更無遠弗屆的一種概

    念,而在實現「概念」的過程中,才會產生出相應的「技術」。

    雲端運算產業之發展尚屬渾沌,其本質大抵承襲自「網格運算」和「分散式運

    算」。所謂「分散式運算」係將大型工作區分成小塊後,分別交由眾多電腦各自進行

    運算再彙整結果,以完成單一電腦無力勝任的工作。而「網格運算」則是分散式運算

    加以延伸的一支,其主要特點在於將各種不同平台、不同架構、不同等級的電腦透

    過分散式運算的方式做整合運用。所謂的「網格」指的則是以公開的基準處理分散各

    處的資料。

    美國國家標準和技術研究院的雲端運算定義中明確了三種服務模式:軟體即服

    務 (SaaS)、平台即服務 (PaaS)以及基礎架構即服務 (IaaS),分述如下。

    軟體即服務 (SaaS):消費者使用應用程式,但並不掌控作業系統、硬體或運作

    的網路基礎架構。是一種服務觀念的基礎,軟體服務供應商,以租賃的概念提供客

    戶服務,而非購買,比較常見的模式是提供一組帳號密碼。例如: Microsoft Dynamic

    CRM 與 Salesforce.com CRM。

    平台即服務 (PaaS):消費者使用主機操作應用程式。消費者掌控運作應用程式

    的環境(也擁有主機部分掌控權),但並不掌控作業系統、硬體或運作的網路基礎架

    構。平台通常是應用程式基礎架構。例如: Google App Engine。

  • 4

    基礎架構即服務 (IaaS):消費者使用「基礎運算資源」,如處理能力、儲存空

    間、網路元件或中介軟體。消費者能掌控作業系統、儲存空間、已部署的應用程式

    及網路元件(如防火牆、負載平衡器等),但並不掌控雲端基礎架構。例如: Amazon

    AWS、Rackspace。

    雲端運算具有集中運算資源並有效配置的效益,且目前已發展出多樣化的應用

    模式,而其商業服務模式之興起,更帶動軟、硬體相關產業的發展,深受先進國家

    的高度重視。現階段歐、美、日等先進國家,在法制政策面皆已具有促進雲端產業

    之具體作為,可作為我國之參考(張乃文,2010)。

    二、 專利檢索

    專利資料庫是最豐富的技術資料來源,因此在開發新技術之前必先做好專利的

    檢索,檢視是否已出現相同或近似的技術,並藉以觀察對手的發展現況。將專利檢

    索的資料亦轉化為經營情報,可提高經營決策的正確性。專利檢索具以下功能:(1)

    降低侵權風險;(2)檢視競爭者的技術發展;(3)減少產品開發時程;(4)避免重複研

    發;(5)攻擊對手專利的有效性。

    專利檢索常用的工具包括,現有各國專利與商標局所提供專利資料庫,商用專

    利資料庫與國內研究者常用的專利領航員(Patent Guider)軟體。專利資料庫是取得專

    利文獻的便利管道,也是傳播專利文獻的主要媒介。由於資訊科技及網際網路的蓬

    勃發展,使得專利文獻得以透過線上專利資料庫,讓使用者能夠快速取得與利用所

    需的資訊,因此線上專利資料庫已逐漸取代紙本專利公報或說明書的查閱。透過資

    訊取得便利的線上資料,不僅可快速獲得最新且完整的專利訊息,更能掌握技術領

    域的最新發展,對知識與智慧的傳播扮演重要的媒介。專利資料庫的特色有下幾

    點:(1)內容新穎性高,更新速度快;(2)技術分類詳細,分類號的賦予可信度高;(3)

    檢索結果首頁及圖式呈現功能;(4)專利的法律狀態資訊。

    三、 文字探勘

    知識探勘(Knowledge Mining)為擷取具潛在價值及有用的規則、資訊或知識的過

    程。此過程透過運用資訊組織與分析等探勘技術,以發現新的、有用的訊息或規

    律,並將發現的訊息或規律變成有用的資訊或知識。

    知識探勘的步驟為:資料蒐集、資料清理、資料轉換、探勘技術運用、結果呈

    現與解讀。這些步驟與前述專利分析步驟雷同,顯示專利分析本身即在進行知識探

    勘。因此運用知識探勘的方法、技術與工具進行專利分析非常合理。

  • 5

    文字探勘包含了傳統的資料探勘技術外,還包含其他不同資訊領域的技術,諸

    如:自然語言處理(Natural Language Processing)、資訊萃取(Information Extraction)、

    統計、機器學習、文字分析及比對的技術…等等。透過這些技術,對文字資料提供

    更多處理,讓使用者能更精確地從大量的文字資料中找出其所需要的資料。若干學

    者已在此領域提出許多寶貴的研究成果。諸如,Lent(1997)以序列探勘方式分析專

    利資料庫以尋找趨勢,以幫助企業發掘出具有利基的領域;Sheremetyeva(2003)與

    Shinmori 等人(2003)以自然語言方法對專利文件進行資訊萃取、摘要與整合。Hsu

    and Liang (2007)提出一文字探勘流程,以便從專利資料庫中找出資訊安全領域潛在

    技術趨勢。

    Yoon 與 Park (2004)提出一個網路基礎的替代分析方法(專利視覺網路分析),以

    取代傳統的引證分析。專利分析中以引證分析最為常見,但是引證分析有嚴重缺

    點:(1)引證分析僅能指出兩特別專利間的個別關連,無法捉住全體專利間的關係,

    (2)分析範圍受限,(3)無法分析專利間的內部關係,(4)分析耗時。因此 Yoon 與 Park

    (2004) 提出三個新指標:技術中心指標、技術週期指標、技術關鍵字群集,並透過

    網路分析專利文件(非專利分類)以看出大部份的專利是由哪一篇文章衍伸而來。植基

    於網路分析的專利分析步驟包括:(1)資料預處理(關鍵字向量),(2)透過關鍵字擷取

    技術,將初始資料轉化為結構化格式,(3)繪出網路圖,(4)以量化指標協助決策。該

    研究所提網路分析的優點是:(1)以視覺化方式展現各專利間的關係,(2) 因為轉換

    原始文件成結構化資料,故可減少搜尋時間與降低成本。

    Fataneh(2009)以文字探勘萃取RFID專利之關鍵詞,以研究 Intermec Technologies

    與 RFID Patent Pool 之專利策略。該研究之目的在於說明兩個派別(團隊) Intermec

    Technologies 早在主要技術進行研發,取得有利的競爭地位,在基礎專利已有很好的

    競爭力,以解釋其之所以不加入 RFID Patent Pool 聯盟之原因。

    四、 特徵擷取

    特徵擷取(Feature Selection)是從文件中找出該領域相關文件所用的詞彙與慣用語

    (Trivedi,2004)。所選取的特徵可以用來代表該類別的文件特性,據此特性可從文件

    中找出領域中特定的關鍵資訊。不少研究提出特徵擷取的技術,大致上可區分為詞

    庫比對法、文件剖析法、統計分析法。

    統計分析方法乃對文件進行分析,再擷取累積數量足夠的統計參數並且符合某

    些條件之詞彙。其優點為較不受語文國別與句型之限制,且可擷取未曾被詞庫、語

  • 6

    料庫定義之新生詞彙、專有名稱及專業用語等詞彙。茲將統計分析法相關之文獻整

    理如下:

    (一)、 詞頻

    詞頻(TF)方法是由 Luhn(1957)所提出的,對文件進行分析,去計算詞項在某文件

    中所出現的次數。Salton et al(1983)認為詞項在文件出現的頻率越高,代表該詞項在

    文件中愈重要。某一關鍵詞 ki在文件集合 S 中的詞頻如(1)式所示:

    其中,freqij表示關鍵字 ki在文件 sj中所出現的頻率次數。

    (二)、 詞頻與反文件頻率

    詞頻(TF)方法透過詞項出現的次數決定該文件中的重要關鍵字,但若某詞項在

    文件集合中出現的文字頻率(Document Frequency,DF)次數越多的話,則表示該詞項

    很普遍並不具有代表性。因此,Jones(1972)則認為各個關鍵詞之間的相對性權重是

    由各個關鍵詞文件頻率之倒數來決定,稱作反轉換文件頻率 (Inverse Document

    Frequency,IDF)。計算公式如(2)式所示:

    上述(2)式中,N 表示總文件數,ni表示包含關鍵詞 ki的文件數。

    Salton and Buckley(1988) 提 出 TF-IDF(Term Frequency-Inverse Document

    Frequency,TF-IDF),也就是整合 TF 和 IDF 的結果,以改善原有詞項頻率計算方

    式。TF-IDF 所代表的意思是,一個詞項出現在該文件集合中的頻率越高而且反轉換

    文件頻率越低的話,則該詞項就越具有代表性,重要程度也相對高。計算公式如(3)

    式所示:

    上述(3)式中,TFIDFi表示關鍵字 ki在文件集合 S 中所佔的權重值。

    (三)、 熵

    熵(Entropy)源自物理學,用來衡量熱力學系統的混亂程度。應用在資訊理論上

    的解釋為測量資訊系統的可信度或是不確定度。Shannon(1948)是最早應用其概念在

  • 7

    資訊理論上。計算公式如(4)式所示:

    上述(4)式中,pi為事件 i 發生的機率,而 H(1,…,m)代表其對應的 Entropy 值,當

    H(1,…,m)值越大,其不確定度也就越大。

    近年來,Entropy 也被應用到各個領域中。Kao(2004)將熵的概念應用於網頁探

    勘,並且將熵進行正規化處理,使其每個特徵值的 Entropy 值落在[0,1]範圍之間,當

    Entropy 越小其重要性越高,反之則不確定性越高。計算公式如(5)式所示:

    上述(5)式中,wij為特徵值 Ti在文件 n 所出現的機率,而 E(Ti)表示特徵值 Ti對應

    的 Entropy 值。

    五、 社會網路

    社會網路是分析社會結構和關係的一種方法,最早由 Moreno(1932)運用社會計

    量學針對小群體進行研究,70 年代後才被廣泛地使用。社會網路主要是將人際行為

    與人際關係量化,透過圖形理論呈現人與人之間的方向性與距離,並且以點或線的

    方式表達這些量化的結果,使其彼此間的關係可更清楚地呈現。

    參與者(Actors)與關係(Relationship)是社會網路分析的基本要素。參與者是整個

    網路的主體,在網路中參與者被視為一個節點(nodes)。兩個參與者之間存在某種關

    係而影響彼此的互動,不同的關係型態使網路呈現不同風貌,關係的定義一般是由

    研究者視需求自行定義。本研究之社會網路,參與者代表著一項專利,參與者之間

    關係由兩項專利之間的關鍵詞相似性來定義。

    中心性(Centrality)在社會網絡分析中是重點之一,其代表著參與者在社會網路中

    具有怎樣的地位,亦或是有怎樣的中心位置。Freeman(1979)研究結果顯示:「參與者

    越處於網絡的中心位置,其影響力越大。」。Trajtenberg(2002)將中心性視為發明的

    重要性指標。本研究將延伸社會網絡分析中對於中心性的意義,以發展出本研究衡

    量專利重要性的指標。

    社會網路分析不僅可以計算網路的中心性,也可計算整個網路的集中趨勢,稱

  • 8

    之為中心勢(Centralization)。網路中心性描述的是個體特性不同,網路中心勢描述的

    是整個網路中各個參與者之間的差異性程度,因此一個網路只有一個中心勢。本研

    究將中心勢作為衡量專利網路的品質指標。

    網路的中心性又可分為以下 3 種類別:

    程度中心性(Degree Centrality):

    程度中心性可用以衡量社會網路中最主要的核心參與者。如果一個參

    與者與多個參與者之間存在直接關係,表示此參與者在網路中居於中心地

    位,在該網路中擁有較大的權力。

    中介中心性(Betweenness Centrality):

    中介中心性可用以衡量一個參與者在社會網路中是否處於其他兩個參

    與者之間的中介位置。如果一個參與者處於多個兩者之間的中介位置,表

    示此參與者在網路中對資源控制擁有較大的權力。

    接近中心性(Closeness Centrality):

    接近中心性可用以衡量一個參與者在社會網路中與其他參與者之間的

    距離。如果一個參與者透過最短距離路徑與其他參與者聯繫,表示此參與

    者在網路中對取得資訊的速度越快。

    參、 研究方法

    一、 專利檢索

    由於雲端運算產業定義眾說紛紜,導致其專利檢索的困難,因此目前仍少見有

    雲端運算產業專利分析報告的原因。本研究採用二階段式專利檢索策略,據此可確

    實獲得雲端運算領域之有效專利,以便進一步進行文字探勘與網路分析。

    在第一階段,本研究使用 "Patent Guider" 作為專利檢索工具,其檢索資料來自

    於美國專利商標局(USPTO)資料庫。首先,以"Cloud Computing"作為檢索的關鍵

    字,並限定在專利名稱、摘要及申請專利範圍三個欄位內,檢索句為:(TTL/"Cloud

    Computing" OR ABST/"Cloud Computing" OR ACLM/"Cloud Computing" ),共得到

    104 筆專利。

    其次,為了掌握數件主要相關的專利(即珍珠,Pearl),我們將此 104 筆專利以人

    工閱讀方式進行概略瀏覽,並從中找到 62 筆珍珠,並藉此珍珠發展分區組合檢索策

    略。所謂分區組合檢索策略是將一個檢索問題分為數個主題層面,再確定這些主題

    http://wiki.mbalib.com/zh-tw/%E9%9B%86%E4%B8%AD%E8%B6%8B%E5%8A%BF

  • 9

    層面的關係,彼此之間以布林邏輯“AND”運算元作連結,找出可能代表該主題層

    面的所有相關字詞。雲端運算產業包含了三個商業服務模式,因此將 62 筆珍珠再以

    人工閱讀方式,依各專利所屬公司進行分類,IaaS 共得到 9 筆、PaaS 共得到 21 筆以

    及 SaaS 共得到 45 筆。

    接著,根據上述分類結果進行關鍵詞擷取,並依據 Salton and Buckley(1988) 所

    提 TF-IDF 的概念,找出權重值較高之關鍵詞。為能更精確掌握雲端運算各服務模式

    之專利,將三類服務模式之 TF-IDF 權重值較高之前五十筆關鍵詞進行比對,將有交

    集之關鍵詞予以刪除。篩選後 IaaS 剩下 7 項關鍵詞;PaaS 剩下 5 項關鍵詞以及 SaaS

    剩下 10 項關鍵詞。如此,我們可獲得屬於各服務模式的關鍵詞。

    在第二階段主要是進行分區組合檢索。首先,在第一區檢索係以不限定欄位方

    式,使用”Cloud Computing”關鍵字搜尋。其次,第二區檢索為運用各模式經篩選後

    之關鍵詞。第一區與第二區係以”and”連結後進行檢索。以 PaaS 檢索句為例:我們在

    第一區檢索係以”Cloud Computing”關鍵字為搜尋之設定條件。再於第二區以

    ("application template" or nodegroup or "operational nodes" or query or "private text")關鍵

    詞為搜尋之設定條件。再將第一區與第二區以”and”連結後進行檢索,以找出屬於

    PaaS 服務模式之專利。經過搜尋結果,共取得 IaaS 服務模式專利計 167 筆、PaaS 服

    務模式專利計 393筆以及 SaaS服務模式專利計 650筆,將其結果輸出至 Excel以便後

    續文字探勘分析。值得注意的是,此階段所得之三種模式專利數量比例與第一階段

    珍珠的 IaaS: PaaS: SaaS=9:21:45 之比例非常接近。這表示經過將珍珠擴展取得之專

    利,仍保有其屬於雲端運算之正確性。經此二階段式搜尋,我們可更精確掌握雲端

    運算專利,以確保後續分析之正確性。

    二、 文字探勘

    本節包含關鍵詞擷取、關鍵詞篩選及文件向量化三部份,各別說明如下。

    (一)、 關鍵詞擷取

    本研究依據曾元顯(2000)所提出之關鍵特徵自動擷取演算法主要方法,並以 Java

    語言實作出一套文字探勘工具。

    關鍵特徵自動擷取演算法包含以下三個步驟:

    1. 資料前處理:

    將輸入轉換成一個單一字元的「串列」(LIST,為一種有序的集合

    (ordered set),表示時通常將其「元素」(element)以逗點分開,並按照順序列

  • 10

    舉在圓括弧內)。轉換時,是依輸入順序轉換,且同時透過雜湊函數(Hash)

    統計其出現次數,並且在這個串列的最後面加了一個區隔符號(separator),

    以便依序從頭至尾處理這個串列時,可以自然的處理串列的最後一個元

    素。

    2. 關鍵詞擷取:

    將相鄰的兩個字詞拿出來處理,透過此方法所歸納出來的「合併」、「接

    受」與「移除」規則。說明如下

    (1) 合併:

    兩相鄰元素的出現次數(即 Hash(LIST[I]與 Hash(LIST[I+1])都必須大於

    一個預設的「臨界值」(threshold),才將兩元素合併並保留到下個迴圈再繼

    續處理。

    (2) 接受:

    若 Hash(LIST[I])達到臨界值,且 Hash(LIST[I])並未與 Hash(LIST[I]-1)

    進行合併,則將 Hash(LIST[I])作為最後擷取出的元素。

    (3) 移除:

    若「合併」、「接受」條件都不符合,則不再保留 Hash(LIST[I])。

    根據上述步驟,重複執行直到所有相異的最大可重疊字串都被截取出

    來才停止。此方法不需要預先設定字串長度,也不需額外統計子字串的「互

    相出現統計資訊」,且在擷取的過程中,不需列舉所有的子字串,不符合條

    件的子字串會在處理過程中就被移除,不需進一步處理,因此可大幅降低

    所需檢視子字串的個數。

    3. 排序與過濾

    將所擷取之字串中的開頭及結尾的「停用字」(stop words),如 of、on、

    the等介系詞、代名詞或其他功能詞(functional words),以遞迴的方式刪除,

    直到該字串的開頭與結尾都不含停用字為止。

    (二)、 關鍵詞篩選

    本研究將文字探勘工具所擷取出的關鍵詞,依據 Kao(2004)所提出 Entropy 的公

    式計算後進行篩選。我們將各關鍵詞的 Entropy 值限定在[0,1]範圍之間,以助於將其

    排序及比較。若某關鍵詞均勻地分佈在所有我們所搜尋出的專利文件中,則其

  • 11

    Entropy 值較高,代表資訊的不確性越高。若某關鍵詞只分佈在某些文件中,則其

    Entropy值較低,代表資訊的不確性越低。據此,本研究將挑選Entropy值較低之關鍵

    詞納入關鍵詞庫。若某關鍵詞只出現在某一篇文件中,其 Entropy 值為 0,雖然其代

    表資訊的不確性最低,但對於專利文件集而言,其實質意義並不大。為避免這種情

    況發生,本文將 Entropy 值為 0 之關鍵字予以刪除。

    (三)、 文件向量化

    本研究依據Luhn(1957)所提出TF的概念,計算各個文件 j中關鍵詞 i的詞頻 tfij,

    並建立文件向量模式如表 1 所示:

    表 1 文件向量模式

    三、 技術分析

    本節包含關聯分析、網路分析及專利分析三部份,各別說明如下。

    (一)、 關聯分析

    本研究採用餘弦相似度(Cosine Similarity)來衡量文件向量之間的相似度。此數值

    越高表示兩向量間夾角越小,意味兩文件越相似。計算公式如(6)式所示:

    上述(6)式中, 為文件向量之間的內積值,而 為

    與 的歐基里德長度。

    關鍵詞 1 關鍵詞 2 … 關鍵詞 i

    文件 1 tf11 tf21 … tfi1

    文件 2 tf12 tf22 … tfi2

    .

    .

    .

    文件 j tf1j tf2j … tfij

  • 12

    根據上述計算結果,建立文件-文件關聯矩陣,以便後續網路分析使用。如表 2

    所示:

    表 2 文件-文件關聯矩陣

    (二)、 網路分析

    本研究使用由加州大學歐文(Irvine)分校的 Borgatti、Everett 及 Freeman 所發

    展出來的社會網路分析軟體 UCINET6 進行網路分析。此工具可提供社會網路分析、

    矩陣分析及資料轉換功能。其中,社會網路分析包括中心性分析、子群體分析、角

    色分析和排列統計分析等,矩陣分析包括矩陣代數和多元統計分析,資料轉換功能

    包括對稱、補零和二元化等。此工具也支援讀寫多種不同格式的文字檔及 Excel 檔

    案。圖 5 為 UCINET6 介面。

    UCINET6 最大特色在於整合 Net Draw 程式,可將一維或二維的數據繪製出網路

    圖。Net Draw 也包含了基本的社會網路分析工具,像是中心性、子群體、密度、相

    互性等,方便使用者將資料圖形化。

    (三)、 專利分析

    Fattori(2003) 提出一文字探勘工具應用於專利地圖,以取代傳統的專利分析。

    其研究指出專利分析長久以來都存在著幾項問題:(1)黑盒子效應,用戶無法完全控

    制其內部運作,(2) 語意分析技術抱有高度的懷疑,(3)過於依賴專利分類。

    Yoon 與 Park (2004)提出一個以文字探勘基礎的專利視覺網路分析,以取代傳統

    的引證分析。其研究指出專利分析中以引證分析最為常見,但是引證分析有嚴重缺

    點:(1)引證分析僅能指出兩特別專利間的個別關連,無法捉住全體專利間的關係,

    文件 1 文件 2 文件 3 文件 4 文件 i

    文件 1 sim 12 sim 13 sim 14 sim 1i

    文件 2 sim21 sim 23 sim 24 sim 2i

    文件 3 sim31 sim 32 sim 34 sim 3i

    文件 4 sim41 sim 42 sim 43 sim 4i

    文件 i simi1 sim i2 sim i3 sim i4

  • 13

    (2)分析範圍受限,(3)無法分析專利間的內部關係,(4)分析耗時。

    有鑑於傳統專利分析的限制,本研究摒棄以專利分類號(IPC)以及專利引證

    (Citation)來進行專利分析的作法,而是透過文件間的相似度來衡量之間關係,並將不

    同標準的相似度以及不同權重的關鍵詞庫所得結果,以網路方式呈現出來。如此,

    讓分析者依照自己需求呈現讓整個系統更加透明化。

    本研究依據網路中心勢來衡量一個網路的優劣。中心勢可表示整個網路中各個

    參與者之間的差異性程度,網路中心勢越高代表專利間差異性越低,專利間集中度

    越高。本研究依據程度中心性來衡量專利在網路中的地位。程度中心性可表示專利

    在網路中的活躍程度,簡言之,就表示該專利與幾項專利有關聯。關聯的專利越

    多,在網路活躍程度越高,也代表著該專利在網路中居於中心地位。

    傳統專利分析中,衡量專利之重要性的指標為技術影響力(Yoon et al,2004)。所

    謂技術影響力表示過去五年內,某一技術類別的專利被目前專利引證的平均次數,

    相對於整體專利被引證的平均次數,為衡量技術的影響力及重要性。本研究以技術

    中心性指標作為衡量專利之重要性的新指標,其定義如下。

    技術中心性:某一技術類別的專利與其它專利的關係加總,相對於其它專利的

    件數。計算公式如(7)式所示:

    上述(7)式中, 為專利 i 與其它專利的關係加總,所得即為程度中心性。因

    只能呈現與其它專利的關係數量,不能得知在網路中的地位為何,故對公式進

    行正規化,將其計算結果再除以網路中其它專利的數量。

    肆、 研究結果

    一、 文字探勘分析

    本節根據專利檢索之結果,進行關鍵詞擷取、篩選與文件向量化。首先,根據

    第一階段檢索得到的三個商業模式之專利文件(分別為 IaaS 模式 9 件、PaaS 模式

    21 件與 SaaS 模式 45 件)個別進行關鍵詞擷取。IaaS、PaaS 以及 SaaS 三個商業模

    式分析結果分別得到 628、1255 項以及 1635 項關鍵詞。

    根據上述關鍵詞擷取結果,各模式的關鍵詞數量偏多,主要原因為多數關鍵詞

  • 14

    僅出現於一篇文件中,因此本文透過 Entropy計算進行篩選。篩選結果 IaaS、PaaS 以

    及 SaaS 三個商業模式分別剩下 61、171 項以及 233 項關鍵詞。因關鍵詞數量甚多,

    故只呈現前 50 項關鍵詞篩選結果。

    上述所篩選之關鍵詞可作為各模式之關鍵詞庫,此部分之關鍵詞係依據在第一

    階段檢索 62 筆珍珠專利所擷取出來。本文不再依第二階段檢索得到的三個商業模式

    之專利文件(分別為 IaaS 167 件、PaaS 393 件與 SaaS 650 件)進行關鍵詞擷取與篩選。

    此原因是為珍珠往往能夠更精確提供雲端運算關鍵詞。若專利文件不包含關鍵詞庫

    中任一關鍵詞,表示此專利不屬於該模式之專利,則與該模式其他之專利之間的相

    似度將會是 0,在網路分析也不會與其他參與者有關係,因此這也是不再對第二階段

    檢索進行人工閱讀之原因。

    在完成關鍵詞庫定義後,可接續對各模式的專利文件進行向量化處理,計算文

    件中關鍵詞的詞頻,並建立文件-關鍵詞向量矩陣,。

    然而文件與文件間的關聯矩陣,在此採取的方式為文件-關鍵詞向量矩陣之間

    的餘弦相似度,以用於比較文件間的相似度。

    二、 專利網路分析

    本節根據各模式之文件-文件關聯矩陣進行網路分析。社會網絡分析中通常以

    鄰接矩陣來表示參與者之間的關係。矩陣中「1」表示參與者之間存在直接關係,「0」

    表示參與者之間並無關係。然而 4.2 節所建立之文件-文件關聯矩陣,其呈現數值介

    於[0,1]範圍之間,因此透過UCINET資料轉換功能對其數值進行二元化(Dichotomize)

    處理。藉設定一門檻值(Cut-Off Value)可對其數值進行轉換,而本文在門檻值設定是

    基於其數值必須大於某一餘弦相似度才將數值轉換為「1」,反之則為「0」。

    由於門檻值受到關鍵詞挑選的影響,Fattori(2003) 提出 Weighting system 概念,

    以便有系統化地測試門檻值的影響。Fattori將關鍵詞分為三個領域:Large domains、

    Specific domains 與 Medium domains。「Large domains」定義為在群集內較為頻繁的

    詞,「Specific domains」定義為在群集內較為罕見的詞,「Medium domains」則介於

    前兩者之間。該研究檢驗在不同的Weighting system以及不同的Alpha (α表示在該研

    究定義為兩兩文件間之最小相似度)組合下,其分群的優劣。

    本研究將 Weighting system 以及 Alpha 概念應用於檢驗專利網路之優劣,首先將

    各模式的關鍵詞庫依照其分類方法分為三個領域,並設定兩兩文件間之最小相似

    度,最後透過網路中心勢來衡量專利網路品質。茲將各商業模式之結果分述如下。

    本研究為了突顯網路中心勢之差異,也一併將較低之網路中心勢呈現。

  • 15

    圖 1 為 IaaS 較佳之專利網路,其中 Cosine Similarity 為 0.75 且 Weighting system

    為 Medium-domains 之網路品質最高 21.27%,其分佈情形較為集中,其意謂著專利間

    差異性程度較低。圖中左邊的數字代表沒有與任何專利有關係的專利。

    圖 1 IaaS 網路品質較佳之專利網路

    圖 2 為 PaaS 較佳之專利網路,其中 Cosine Similarity 為 0.7 且 Weighting system

    為 Large-domains 之網路品質最高 13.1%,其分佈情形較為集中,其意謂著專利間差

    異性程度較低。圖中左邊的數字代表沒有與任何專利有關係的專利。

  • 16

    圖 2 PaaS 網路品質較佳之專利網路

    圖 3 為 SaaS 較佳之專利網路,其中 Cosine Similarity 為 0.7 且 Weighting system

    為Medium-domains之網路品質最高 25.93%,其分佈情形較為集中,其意謂著專利間

    差異性程度較低。圖中左邊的數字代表沒有與任何專利有關係的專利。

    圖 3 SaaS 網路品質較佳之專利網路

  • 17

    三、 專利分析

    本節根據各模式之專利網路進行技術中心性分析。

    IaaS專利網路之技術中心性。其中,專利編號 124的技術中心性最高,表示其在

    網絡中與較多的專利有所關聯,其擁有的影響力也較大。檢視專利 124的文件內容,

    其專利編號為 08201237,專利標題為「Techniques are described for providing users with

    access to computer」。摘要內容簡述此專利為用戶提供了一個安全的遠端私人網路。

    所謂基礎架構即服務(IaaS)包含消費者使用「基礎運算資源」,如處理能力、儲存空間、

    網路元件或中介軟體。因此專利 124 應確實隸屬於 IaaS 的領域內。

    PaaS 專利網路之技術中心性。其中,專利 231 技術中心性最高,表示其在網絡

    中與較多的專利有所關聯,其擁有的影響力也較大。檢視專利 231的文件內容,其專

    利編號為 08281046,專利標題為「System and method for distributing user interface

    device configurations」。摘要內容簡述此專利為一種分散式的 UI 系統,使用者透過控

    制器將所要的介面要求傳給 server,server 會依要求提供相對的 GUI 介面給使用者。

    所謂平台即服務(PaaS)包含消費者使用主機操作應用程式。消費者掌控運作應用程式的

    環境,但並不掌控作業系統、硬體或運作的網路基礎架構。因此專利124應隸屬於PaaS

    的領域內。

    SaaS專利網路之技術中心性。技術中心性最高者有 22項專利,表示這 22項專利

    在網絡中與較多的專利有所關聯,其擁有的影響力也較大。檢視專利 244 的文件內

    容,其專利編號為 08336047,專利標題為「Provisioning virtual resources using name

    resolution」。摘要內容簡述此專利為使用者透過身分識別,得到特定資源(資訊),還

    有電腦運算資源,運算結果會回傳到使用者端。軟體即服務(SaaS)為消費者使用應用

    程式,但並不掌控作業系統、硬體或運作的網路基礎架構,是一種服務觀念的基

    礎。軟體服務供應商以租賃的概念提供客戶服務,而非購買,比較常見的模式是提

    供一組帳號密碼。因此專利 244 應隸屬於 SaaS 的領域內。

  • 18

    四、 驗證二階段式專利檢索策略

    本節根據第一階段檢索的 IaaS 模式之專利文件進行驗證,其目的為了解在第一

    階段檢索所得之專利,在第二階段檢索之網路活躍程度表現如何。

    本研究是使用程度中心性分析之程度中心性指標進行驗證,在此因受限於此兩

    階段所包含之專利數(網路大小)差異甚大,故不使用技術中心性指標。此處以 IaaS專

    利網路之各程度中心性指標為例,說明本研究所採用由第一階段檢索擴大到第二階

    段檢索的檢索策略,仍可保留專利在網路中的地位。簡言之,某專利在第一階段被

    檢索出來,其程度中心性之表現佳,則再第二階段檢索時,其程度中心性亦保持不

    錯的表現。茲分別自第一階段中挑選出活躍程度高、中、低三類的專利,以進行檢

    視其在第二階段之表現如何。如表 3 所示,專利 1、4、3、8 與 9 其程度中心性=4,

    代表這些專利與其他 8 篇專利中的 4 篇有關係,故在網路中活躍程度較高。此 5 項專

    利所對應到的第二階段專利編號專利分別是 42、162、157、166 與 167,其程度中心

    性大於 50,代表這些專利與其他 166 篇專利中的 50 篇以上有關係,同樣代表在網路

    中活躍程度較高。另外,活躍程度較低的專利 2 與 5,在第一階段時沒有與其他專利

    有關係,而在第二階對應之專利編號 93 與 153 之程度中心性也是偏低的。因此根據

    上述之結果,可合理推斷本研究所提之二階段式專利檢索是有效的。

  • 19

    表 3 IaaS 驗證結果

    活躍程度 第一階段

    專利編號

    Degree

    (程度中心性)

    第二階段對應之

    專利編號

    Degree

    (程度中心性)

    1 4.000 42 52.000

    4 4.000 162 51.000

    3 4.000 157 52.000

    8 4.000 166 52.000

    9 4.000 167 51.000

    中 6 1.000 164 31.000

    7 1.000 165 28.000

    低 2 0.000 93 6.000

    5 0.000 153 7.000

  • 20

    伍、 結論

    有鑑於傳統上使用專利分類號及專利引證進行專利分析的限制,近年來,以文

    字探勘進行專利分析的研究漸受重視。為更清楚掌握雲端運算產業之技術,本研究提

    出運用文字探勘的二階段式專利檢索策略,以便將雲端運算產業專利正確地分類至合

    宜的商業模式上(SaaS 或 Paas 或 Iaas)。並透過程度中心性指標之計算,驗證此檢索策

    略之可行性。

    由專利網路分析文獻顯示,專利數量過多或過少都會對分析工作產生一定的困

    擾。為解決此方面的限制,本研究提出將關鍵詞依熵值分為三個領域並搭配不同的關

    聯門檻值所組成的參數試驗,進行專利網絡分析,並以網路中心勢為評估準則,以獲

    取品質較佳的專利網路。研究結果顯示:當網路中心勢越高,其整體網路越集中,並

    可得到專利網絡之核心趨勢。

    在獲取較佳的專利網路後,研究提出以「技術中心性」作為衡量專利之重要性的指

    標。本研究分別計算三類雲端運算模式專利網路內各專利之技術中心性,及其核心專

    利。本研究所獲得分屬三類雲端運算模式之核心專利,可提供國內外有意進軍雲端運

    算產業之企業的重要研發參考依據。