<address id="hrnlf"><listing id="hrnlf"><menuitem id="hrnlf"></menuitem></listing></address>

        <address id="hrnlf"></address>
        • 論文
        主辦單位:煤炭科學研究總院有限公司、中國煤炭學會學術期刊工作委員會

        大數據時代的地學知識圖譜研究展望

        2021-06-03

        隨著現代對地觀測系統小時級的全球監測,地球科學研究已經進入了一個全球覆蓋、全天候監測、全要素觀測的大數據時代。同時, 作為典型的數據密集型科學, 地球科學在數據集成與共享、數據挖掘與知識發現等方面面臨諸如數據混雜、機理缺乏的空間統計分析的挑戰, 大數據的眾多潛在優勢在地球科學相關研究中尚未得到充分發揮, 知識驅動的地球科學大數據分析的理論與方法亟待發展, 構建全域地學知識圖譜、探討地學知識演化等, 是當代地學知識研究的前沿領域和戰略重點。

          

          人工智能是大數據價值挖掘與提升的關鍵, 而知識圖譜則是人工智能的重要基石之一, 是實現統計表征與物理表征融合的核心基礎。

          

          近日一個由中國科學院、中國科學院大學、中國地質大學(北京)、上海交通大學等10個科研單位的14位科研人員組成的研究團隊從地學知識表達的圖模型、地學知識圖譜構建方法和地學知識圖譜應用等方面, 闡述和討論了面向地學大數據分析的地學知識圖譜研究的關鍵科學問題與前沿方向,成果發表于《中國科學:地球科學》。

          

          知識圖譜概念和雛形可以追溯到20世紀60年代,并在圖書情報領域得到廣泛應用。2012年谷歌正式發布知識圖譜引擎,建成了包含6億多實體、180多億條屬性或關系的知識節點,創建了用于從非結構化網絡文本中獲取事實信息的新一代知識圖譜“Knowledge Vault”,極大地推動了知識圖譜技術方法的發展和應用。自2017年以來, 美國將開放知識網絡( O p e n Knowledge Network)作為一項國家科技戰略予以重點推動。2019年美國國家自然科學基金會(NSF)資助的43項學科融合加速先導項目(總預算3900萬美元)中, 包含了21項以開放知識網絡為主題的項目, 并計劃繼續投入更大的資金支持該方向。

          

          地學知識圖譜以地球科學共同認可的知識體系為基礎, 是對地球科學領域內的所有知識節點(包括已知的各種現象與事實、基本的概念與定義、自然原理與規律、觀測與分析技術方法等)以及這些知識點之間的相互關系進行清晰、明確的闡釋, 是一種可以為機器所理解的地球科學知識庫和“推理機”。

          

          根據地學知識的來源和可靠性等, 對于相對穩定和成熟的知識體系, 特別是領域的事實性知識和概念性知識多采用人機協同編輯導入策略, 如群智協同構建方法; 對于散布在大量文獻資料中的知識, 特別是出版的學術論文、圖書、研究報告, 多采用文本文獻資料挖掘與知識發現的方法, 如網絡文本解析與知識發現方法。 隨著知識圖譜的進一步發展, 領域專家知識和文本動態知識將會融合發展, 相互補充和支撐, 形成混合型的構建體系。

          

          為了從海量結構化與非結構化、出版發行和內部使用的地學文本文獻中, 挖掘隱含的大量地學知識, 特別是最新的動態知識,研究人員提出了基于深度解析的多模態地學數據動態知識圖譜構建方法,包括:

          

          (1)基于多源地學數據深度解析的非結構話數據感知。針對海量的文本、圖片、數據表格、地圖等非結構化的文本資料進行分類, 并對同一來源的數據標記其關聯屬性, 如地圖的名稱、區域等, 實現文本關聯與多源數據感知;在標記的基礎上, 對所處理的文本進行分割、純文本提取、文本分詞和句法分析等, 特別是采用一定已有規則知識消除文本中的非實質性的半結構化文本; 采用文本匹配和統計學習等方法, 對不同來源、具有一定相似性的圖-文-數進行標記關聯, 特別是通過基于規則過濾以及神經網絡模型, 對文本描述中關鍵詞信息的抽取。

          

          (2)基于關鍵詞的實體對象與知識抽取。深度學習的關鍵之一是有大量優質的訓練語料樣本, 而依靠人工選取、標注訓練語料的方式難以實現, 發展高效、可信的無監督學習算法至為關鍵, 如基于關鍵詞圖模型的對象抽取。在該類算法中, 采用基于海量文本分詞結果和詞頻-逆向文檔頻率(TF-IDF)算法量化地學領域實體的統計特征, 依據排序結果搭建常用詞表, 構建海量文本的語言網絡圖; 基于圖特征大小和向量匹配排序, 在語言網絡圖上尋找具有重要作用的詞或者短語, 篩選出文本中的關鍵詞, 抽取相應的對象實體, 構建圖文數-關鍵詞的索引關系, 完成地學知識中圖表-文本描述-數字間的匹配, 從而實現基于非結構化文本的地學知識提取。

          

          (3)知識歧義消除與動態地學知識圖譜構建。針對由多數據源引起的知識歧義和沖突問題, 以地學知識圖譜中實體概念特定的語義時空關聯為特征通過深度強化學習進行分類和聚類, 以分別解決一詞多義和多詞同義問題; 并以信源屬性為特征, 通過特征學習訓練信源可信度完成屬性對齊以消除知識沖突。

          

          地學知識圖譜是地球科學研究的前沿方向, 構建地學知識圖譜是地球科學界的一項系統性知識工程。地學知識圖譜的廣泛應用可以推動地球科學與信息科學、數據科學的交叉融合, 促進學科發展?;谥R驅動的時空地學大數據分析有助于實現更加精準的地學分析, 推動基于統計表征和物理表征的地學大數據綜合分析; 基于已有地學知識庫和知識引擎, 可以推動地學知識體系研究, 理解地學知識演化的特征,發現新的地學知識, 形成新的研究突破點和創新點;將地學知識和地圖編制知識融合, 可以推動地圖制圖的智能化與自動化發展; 將地學知識與地球系統模型結合, 可以推動礦產資源的探測與預測研究。

          5小.jpg

          全域地學知識圖譜自適應表達模型


          7小.jpg

          基于深度解析的多模態地學數據動態知識圖譜構建框架


        論文鏈接
          責任編輯:宮在芹
        今日專家
        亮點論文

        應用啟發式方法在換熱網絡全局優化上的優點,提出了一種全新的強制進化隨機游走算法(random walk algorithm with compulsive evolution, RWCE)}算法以目標函數減小...

        今日企業

        主辦單位:煤炭科學研究總院有限公司 中國煤炭學會學術期刊工作委員會

        ©版權所有2015 煤炭科學研究總院有限公司 地址:北京市朝陽區和平里青年溝東路煤炭大廈 郵編:100013
        京ICP備05086979號-16  技術支持:云智互聯
        5544444