5
e Application 智慧財產局的智慧選擇 產業專利知識平台 當群體智慧遇上人工智慧 撰文 | 叡揚資訊 系統發展與運帷事業群 經理 范晴嵐 強化科技與制裁應用之整合,推展大數 據建設,行政院於 2010 年推動智財戰略 綱領,到 2014 產業升級轉型行動方案整合全 球專利技術資訊,經濟部智慧財產局(以下簡 稱智慧局)「專利大數據知識領航計畫」,該 計畫由叡揚資訊開發建置產業專利知識平台系 統。 智慧局規劃整體平台,主要規劃分四大部份: 專利文件轉換機制、專利知識服務平台、專利 技術辭庫自動學習及本國專利文獻的自動分 類;平台建置採分散式系統,以開放原始碼軟 體為主要基礎,同時導入人工智慧(AI)的機 器學習方法,作為未來專利知識平台的持續推 動的發展方向。叡揚資訊在軟體開發、系統整 合的專業,以及在機器學習自然語言方面相當 的投入,獲得智慧局的肯定而承接此專案。 巨量專利資料 共通格式轉換 專利知識平台系統處理來自全球五大專利局, 包括歐、美、日、韓、中國大陸,加上智慧 局的發明專利公開開放格式文件,原本 XML- base 資料轉換為共通格式的 JSON 文件,為因 應每年近 200 萬大量專利資料的儲存與分析, Apache CouchDB 非關聯式文件型資料庫搭 MySQL 關聯式資料庫,並採用 Apache Solr 作為全文檢索引擎,以 Solr ZooKeeper SolrCould 方案達成分散式索引系統,提供對外 開放、可加值應用之專利文件資料庫。 專利檢索在應用上有侷限性,除需要知道精準 詞彙,大量的檢索結果,仍需要仰賴人工過濾 才能真正取得需要內容,也看不出主題歸屬。 正是希望透過「群體智慧」使用者行為與專利 分析的來找出隱含的產業動向,提供接近產業 所需要的智慧搜尋。 產業專利知識平台作為專利資料的整合介面, 提供專利資訊瀏覽、檢索及資料下載,為了讓 使用者可以快速及便利地在大量數據中獲得所 需的資訊,是以輕量簡潔開發框架及響應式網 頁設計,讓平台功能的整合擴充有較大的彈 性。與此同時,智慧局針對專利知識平台基礎 | 叡揚e論壇 第89期 | April 2018 18

智慧財產局的智慧選擇 - gss.com.tw · 巨量專利資料 共通格式轉換 專利知識平台系統處理來自全球五大專利局, 包括歐、美、日、韓、中國大陸,加上智慧

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 智慧財產局的智慧選擇 - gss.com.tw · 巨量專利資料 共通格式轉換 專利知識平台系統處理來自全球五大專利局, 包括歐、美、日、韓、中國大陸,加上智慧

e Application

智慧財產局的智慧選擇產業專利知識平台 當群體智慧遇上人工智慧

撰文 | 叡揚資訊 系統發展與運帷事業群 經理 范晴嵐

為強化科技與制裁應用之整合,推展大數

據建設,行政院於 2010 年推動智財戰略

綱領,到 2014 產業升級轉型行動方案整合全

球專利技術資訊,經濟部智慧財產局(以下簡

稱智慧局)「專利大數據知識領航計畫」,該

計畫由叡揚資訊開發建置產業專利知識平台系

統。

智慧局規劃整體平台,主要規劃分四大部份:

專利文件轉換機制、專利知識服務平台、專利

技術辭庫自動學習及本國專利文獻的自動分

類;平台建置採分散式系統,以開放原始碼軟

體為主要基礎,同時導入人工智慧(AI)的機

器學習方法,作為未來專利知識平台的持續推

動的發展方向。叡揚資訊在軟體開發、系統整

合的專業,以及在機器學習自然語言方面相當

的投入,獲得智慧局的肯定而承接此專案。

巨量專利資料

共通格式轉換

專利知識平台系統處理來自全球五大專利局,

包括歐、美、日、韓、中國大陸,加上智慧

局的發明專利公開開放格式文件,原本 XML-

base 資料轉換為共通格式的 JSON文件,為因

應每年近 200萬大量專利資料的儲存與分析,

以 Apache CouchDB非關聯式文件型資料庫搭

配MySQL關聯式資料庫,並採用 Apache Solr

作為全文檢索引擎,以 Solr及 ZooKeeper的

SolrCould方案達成分散式索引系統,提供對外

開放、可加值應用之專利文件資料庫。

專利檢索在應用上有侷限性,除需要知道精準

詞彙,大量的檢索結果,仍需要仰賴人工過濾

才能真正取得需要內容,也看不出主題歸屬。

正是希望透過「群體智慧」使用者行為與專利

分析的來找出隱含的產業動向,提供接近產業

所需要的智慧搜尋。

產業專利知識平台作為專利資料的整合介面,

提供專利資訊瀏覽、檢索及資料下載,為了讓

使用者可以快速及便利地在大量數據中獲得所

需的資訊,是以輕量簡潔開發框架及響應式網

頁設計,讓平台功能的整合擴充有較大的彈

性。與此同時,智慧局針對專利知識平台基礎

| 叡揚e論壇 第89期 | April 201818

Page 2: 智慧財產局的智慧選擇 - gss.com.tw · 巨量專利資料 共通格式轉換 專利知識平台系統處理來自全球五大專利局, 包括歐、美、日、韓、中國大陸,加上智慧

服務同時進行訪查國內產業 /企業、蒐集企業

需求及使用意見,以為功能擴增改善之依據,

服務能切合企業所需。

除了結合使用者行為,產業專利知識平台將

AI領域技術,應用在專利技術辭庫自動學習

與本國專利文件自動分類系統,龐大的專利

文件資料庫,透過機器學習與文字探勘技術

進行內容分析,建立高階檢索及知識應用的

基礎。叡揚資訊在 2015年運用機器學習技術

在公文自動化分文上已有相當成果,準確度

達 85%。

產業專利知識平台技術架構

在智慧局產業專利知識平台專案開發過程,

專案團隊以其經驗,對於更為複雜的專利文

件,比較各工具及演算法的優缺點,進行技

術測試與驗證,建立作為辭庫分析、自動分

類與檢索佈建的專利分析引擎。辭庫分析是

以機器學習之詞頻選取演算技術,透過系統

程式可針對專利文件進行自動分析作業,定

義與記錄其技術關鍵字詞,建立專利分類技

術辭庫;自動分類則是以機器學習中的監督

式學習建立分類模型,藉由分類模型便可以

預測新進文件屬於各分類的機率,以達到自

動分類的效果。

April 2018 | 叡揚e論壇 第89期 | 19

企業 e化應用Column

e Application

Page 3: 智慧財產局的智慧選擇 - gss.com.tw · 巨量專利資料 共通格式轉換 專利知識平台系統處理來自全球五大專利局, 包括歐、美、日、韓、中國大陸,加上智慧

e Application

運用自然語言處理、機器學習的專利

分析引擎

專利分析引擎的技術辭庫自動學習技術主要是

自然語言處理中包括分詞 /斷詞、標註詞性及

關鍵詞抽取的技巧;專利自動分類技術則包括

文件前置處理、特徵值處理、分類模型訓練及

回饋機制的流程。

因為語言的變化萬千,如何將文件化成機器能

讀懂的數學向量,就是文件前置處理的任務,

主要也有三個步驟:文件斷詞 /分詞、去雜訊

及特徵化。

文件斷詞是將一串連續的文字序列切割成若干

個詞,透過一個個完整的詞重新描述語句原來

的含意,有利於統計以及後續之運算操作。若

是中文或日文等語言,並不像英文在詞與詞之

間以一個空白字元做為區隔,因此選擇中文斷

詞表現不錯的 Jeiba作為前置處理的開源程式

庫,而在辭庫學習階段同時使用 OpenNLP進

行詞性標注,即每個詞都指派名詞、動詞、形

容詞或其他合適的詞性,以及選擇 Atr4s 處理

關鍵字抽取的演算法工具。

文件進行斷詞程序之後,還須經過「去除雜

訊」。在一篇文章中,有許多語言常用詞,

或是冠詞、介詞、副詞與連接詞等這類停止

詞 (Stop Words)。停止詞廣泛地出現在各類文

件,對於分類的鑑別程度較低,也可能會造成

干擾,因此在前置處理階段將停止詞過濾。過

濾的方式則是利用統計與詞性辨識的方式建立

停止詞表,出現在停止詞表的單詞不納入後

續特徵化與建立模型處理。在辭庫學習的技術

中,也是經過去除雜訊,產生出符合專利文件

分類的技術詞彙。接下來,一般稱為「Bag of

words」的模式,是將文件表達為一個特徵向量,

每個文件的向量長度是一樣的,向量維度代表出

現在專利文件的每一個詞,數字大小即這個詞在

文件中出現的次數。如此一來,就把文件轉換成

機器學習算演算法可使用的數值向量。

另外一方面,若要提高分類準確度,需要進行特

徵值處理。假設語言中的詞彙數是固定且有限

的,將其蒐集成詞典,以詞頻統計,再搭配詞頻

與反向文件頻率加權 (TF-IDF)或利用類神經網

路技術的Word2Vec結合為文件建立特徵向量,

來加強文件內部關鍵詞的影響力。因為專利文件

的可觀的詞量,考量到效能及資源需求,經過專

案團隊測試在分類準確度影響上在可接受的範圍

內,採用Word2Vec將特徵化的向量維度降低來

加快訓練的速度。

文件前置處理及特徵值處理之後,則是進行分類

模型訓練,在訓練模型時,必須使用具有正確分

類標記的文件集進行分類器學習。主要運算的目

標是從特徵向量學習到分類規則與特徵權重值;

當訓練階段完成時,便將特徵權重紀錄成分類模

型。叡揚專案團隊在進行分類訓練前,分別測試

Logistic Regression、SVM 及 XGBoost 三種演算

法。其中 XGBoost可藉由訓練回合數及參數調

整,達到平均 80%分類預測的準確度,因此採

用 XGBoost作為專利分類模型訓練的機器學習

演算法。

分類模型建立後,當預測分類錯誤時,我們希望

能夠藉由蒐集錯誤分類的回報,來達到調整模型

的目的。目前在產業專利知識平台的做法是使用

批次的方式,當蒐集到一定程度的錯誤資訊,或

| 叡揚e論壇 第89期 | April 201820

Page 4: 智慧財產局的智慧選擇 - gss.com.tw · 巨量專利資料 共通格式轉換 專利知識平台系統處理來自全球五大專利局, 包括歐、美、日、韓、中國大陸,加上智慧

者一段固定的時間,將訓練資料與回饋資料

合併重新訓練分類模型。

將廠商的 RD 作為智慧局自己的 RD從需求訪談、平台架構設計、演算技術測試

及應用服務開發中,智慧局皆與專案團隊密

切合作,尤其是 AI領域技術的導入過程,專

案團隊須先實作基本流程,找出適合用於產

業專利知識平台的工具及演算法,智慧局一

同參與。由於核心技術研發由叡揚資訊的研

發單位 CII(Central Innovation Institute)創

新研究所負責,主管倪文君也非常樂見這樣

的發展「以前的研發成果都不知何時可商用

專利分析引擎監督式學習流程

化,現在透過與客戶策略結盟,研發成果便

有立即成效,對研發人員是一個極大的鼓舞。

我們過去研發方向與成果都是給產品或專案

使用,但現在也增加直接支援我們重要客戶

核心業務的策略,當此策略持續進行,假以

時日,我們其他自行研發的成果,客戶自然

也會加值運用,形成研發的良性循環,達成

客、我、研發團隊多贏結果」。

因應物聯網、雲端運算、巨量資料等智慧科

技,電子化政府以更為宏觀的角度,運用資

料力量、深度的資訊整合與結合群眾智慧,

啟動數位政府、創新經濟,達到透明治理與

便捷生活。

April 2018 | 叡揚e論壇 第89期 | 21

企業 e化應用Column

e Application

Page 5: 智慧財產局的智慧選擇 - gss.com.tw · 巨量專利資料 共通格式轉換 專利知識平台系統處理來自全球五大專利局, 包括歐、美、日、韓、中國大陸,加上智慧

e Application

智慧局積極推動 AI研

發,其實各國專利局

也有相關計畫。日本

特許廳(日本國家專

利局)在 2017年對外

發布日本特許廳人工

智慧技術應用之實施

及未來行動計畫:從

2016年中開始,分階

段考察各項工作及業

務,確認引入 AI的可

能性以進行初步示範

驗證。

依據行動計畫,將在

2018年對電話自動應

答、紙質文件電子化

和商標分類調查引入

AI技術試行;而在專

利的自動分類及專利

檢索等業務工作上,於 2019

年將針對研究結果評估後,探

討是否導入 AI技術。相較於

此,智慧局在專利 AI技術應

用推展上已毫不遜色。

不同於智慧局全球專利檢索系統幾乎囊括全球

所有資料,替產業建立全球圖書館,智慧局對

於產業專利知識平台的定位,則是追求深度,

希望達到一站式作業,就可滿足需求。

智慧局資訊室一科科長林簡任技正對於產業專

利知識平台的形容是「就像替產業建立親切的

隔壁書店,求新、求方便,希望達到每天看一

↑產業專利知識平台畫面。

↑產業專利知識平台專利檢索。

次,就可快速獲得最新且全面的專利趨勢。」

智慧局持續透過產業專利知識平台推廣,與產

業界合作,共同找尋與逐步構建適合本國的專

利平台。叡揚資訊協助打造技術核心,持續運

用語意搜尋、文字探勘、知識管理、產業服務

及個人化推薦等技術主軸,提供產業內廠商在

專利檢索、專利分析及專利管理上更便捷精準

的服務。

| 叡揚e論壇 第89期 | April 201822