Posted on 2005-12-07 16:24
inwind 閱讀(537)
評論(0) 編輯 收藏 引用 所屬分類:
數據挖掘
信息提取(Information Extraction)的定義是指從一段文本中抽取指定的一類信息(例如事件、事實)、并將其(形成結構化的數據)填入一個數據庫中供用戶查詢使用的過程。
與其他信息處理技術的關系
信息檢索(Information Retrieval) :只是找出滿足一定檢索條件(query)的整篇文檔或段落,而人們仍然必須閱讀所找到的每一個文檔或段落才能獲得所需要的信息。
自動文摘、文本理解 :自動文摘和文本理解則沒有預先規定目標的特性,需要對多種多樣的內容進行分析和處理。
信息提取的方針:識別實體,確定關系
信息提取由簡到繁:
單個實體:找出所有人名;找出所有email;找出所有大學......
二元關系實體:XXX的電話(地址,email),位于某地的所有公司.....
多元關系實體:把所有報道恐怖活動的報道都找出來(IR),并按照事件的地點/時間/參與者/…分類、排序;
信息提取的基礎設施
詞典、詞切分和詞性標注
制作一個規模適當、分級合理并可靈活配置的詞典是建造中文信息提取系統的第一步;
適用于中文信息提取的短語句法及語義分析
包括句法成分的識別與標引,關鍵詞提取,檢索特征集的提取、索引等。
適用于信息提取的句群分析與篇章表示
這些技術包括表達句間成分的傳遞,指代、引用信息表的建立和使用,"this指針"(當前語義焦點focus)的維護,以及概念關系的推理等。