與人類(lèi)視聽(tīng)覺(jué)感知密切相關(guān)的圖像、語(yǔ)音和文本(語(yǔ)言)信息在社會(huì)、經(jīng)濟(jì)和國(guó)家安全等領(lǐng)域中扮演著重要角色,并在今后一段時(shí)間內(nèi)仍將迅猛增長(zhǎng)。這類(lèi)信息可被人類(lèi)直接感知和理解,也可用計(jì)算機(jī)進(jìn)行處理,但計(jì)算機(jī)的處理能力遠(yuǎn)遜于人類(lèi)且處理效率遠(yuǎn)不能滿(mǎn)足當(dāng)今社會(huì)的發(fā)展需求。如何借鑒人類(lèi)的認(rèn)知機(jī)理和相關(guān)數(shù)學(xué)的最新研究成果,建立新的計(jì)算模型和方法,從而大幅度提高計(jì)算機(jī)對(duì)這類(lèi)信息的理解能力與處理效率,不僅可有力推動(dòng)信息科學(xué)的快速發(fā)展,也將為國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展做出重大貢獻(xiàn)。
一、科學(xué)目標(biāo)
本重大研究計(jì)劃的總體科學(xué)目標(biāo)是:圍繞國(guó)家重大需求,充分發(fā)揮信息科學(xué)、生命科學(xué)和數(shù)理科學(xué)的交叉優(yōu)勢(shì),從人類(lèi)的視聽(tīng)覺(jué)認(rèn)知機(jī)理出發(fā),研究并構(gòu)建新的計(jì)算模型與計(jì)算方法,提高計(jì)算機(jī)對(duì)非結(jié)構(gòu)化視聽(tīng)覺(jué)感知信息的理解能力和海量異構(gòu)信息的處理效率,克服圖像、語(yǔ)音和文本(語(yǔ)言)信息處理所面臨的瓶頸困難,為確保國(guó)家安全與公共安全、推動(dòng)信息服務(wù)及相關(guān)產(chǎn)業(yè)發(fā)展以及提高國(guó)民生活和健康水平做出重要貢獻(xiàn)。具體表現(xiàn)為:在視聽(tīng)覺(jué)信息處理的基礎(chǔ)理論研究方面取得重要進(jìn)展;在視聽(tīng)覺(jué)信息協(xié)同計(jì)算、自然語(yǔ)言(漢語(yǔ))理解以及與視聽(tīng)覺(jué)認(rèn)知相關(guān)的腦―機(jī)接口等三項(xiàng)關(guān)鍵技術(shù)方面取得重大突破;集成上述相關(guān)研究成果,研制具有自然環(huán)境感知與智能行為決策能力的無(wú)人駕駛車(chē)輛驗(yàn)證平臺(tái),主要性能指標(biāo)達(dá)到世界先進(jìn)水平,從而提升我國(guó)在視聽(tīng)覺(jué)信息處理領(lǐng)域的整體研究實(shí)力,培養(yǎng)具有國(guó)際影響力的優(yōu)秀人才與團(tuán)隊(duì),為國(guó)家安全和社會(huì)發(fā)展提供相關(guān)研究環(huán)境與技術(shù)支撐。
二、核心科學(xué)問(wèn)題
本重大研究計(jì)劃將圍繞“感知特征提取、表達(dá)與整合”、“感知數(shù)據(jù)的機(jī)器學(xué)習(xí)與理解”和“多模態(tài)信息協(xié)同計(jì)算”等核心科學(xué)問(wèn)題,組織并實(shí)施如下四個(gè)主要方面的研究工作。
(一)圖像與視覺(jué)信息計(jì)算。
主要研究圖像與視覺(jué)信息計(jì)算的認(rèn)知機(jī)理,視覺(jué)基本特征的提取與選擇,物體識(shí)別與圖像內(nèi)容理解,復(fù)雜場(chǎng)景下運(yùn)動(dòng)目標(biāo)的行為分析等。提出若干圖像與視覺(jué)信息的高效計(jì)算模型,取得國(guó)際公認(rèn)的原創(chuàng)性研究成果(在Nature, Science, IEEE Trans. PAMI等刊物上發(fā)表高水平論文),培養(yǎng)具有國(guó)際影響力的優(yōu)秀人才與研究團(tuán)隊(duì)。
(二)語(yǔ)音與聽(tīng)覺(jué)信息計(jì)算。
主要研究聽(tīng)感知機(jī)理與音頻場(chǎng)景分析,自然環(huán)境下的語(yǔ)音識(shí)別與合成,口語(yǔ)對(duì)話(huà)分析與理解等。取得國(guó)際上有影響的原創(chuàng)性研究成果,提出若干語(yǔ)音與聽(tīng)覺(jué)信息的有效計(jì)算模型,在本領(lǐng)域國(guó)際權(quán)威刊物上發(fā)表高水平論文,培養(yǎng)具有國(guó)際影響力的優(yōu)秀人才與研究團(tuán)隊(duì)。
(三)自然語(yǔ)言(漢語(yǔ))理解。
主要研究語(yǔ)言加工的認(rèn)知機(jī)理,語(yǔ)言知識(shí)建模和語(yǔ)義計(jì)算模型,基于語(yǔ)義理解的機(jī)器翻譯方法,面向網(wǎng)絡(luò)的漢語(yǔ)適度理解模型和系列分析工具,支持自然環(huán)境下口語(yǔ)對(duì)話(huà)分析、識(shí)別與理解的關(guān)鍵技術(shù)等。在國(guó)內(nèi)已有相關(guān)成果的基礎(chǔ)上,統(tǒng)籌構(gòu)建大規(guī)模高標(biāo)準(zhǔn)漢語(yǔ)語(yǔ)義知識(shí)庫(kù)。將上述研究成果應(yīng)用到語(yǔ)言(漢語(yǔ))信息處理典型系統(tǒng)中,顯著提高對(duì)自然語(yǔ)言(句子、段落、篇章)的理解能力,并在網(wǎng)絡(luò)信息檢索、過(guò)濾和知識(shí)獲取方面得到驗(yàn)證。
(四)多模態(tài)信息的協(xié)同計(jì)算與腦—機(jī)接口。
主要研究多模態(tài)感知信息協(xié)同的認(rèn)知機(jī)理與計(jì)算模型,基于視聽(tīng)覺(jué)信息融合的模式識(shí)別與環(huán)境交互方法,跨模態(tài)視頻信息檢索與網(wǎng)絡(luò)敏感信息過(guò)濾技術(shù)等。大幅度提高跨模態(tài)視頻信息檢索的查準(zhǔn)率,顯著提升本領(lǐng)域整體研究實(shí)力。
研究與視聽(tīng)覺(jué)認(rèn)知相關(guān)的腦信號(hào)提取、腦區(qū)定位與腦功能網(wǎng)絡(luò)分析方法和技術(shù),腦—機(jī)交互中的信號(hào)傳輸、處理與控制技術(shù),與視聽(tīng)覺(jué)認(rèn)知相關(guān)的腦—機(jī)接口典型應(yīng)用。在改善殘疾人生活質(zhì)量和功能康復(fù)等方面得到驗(yàn)證或應(yīng)用,為延伸和提高人類(lèi)行為控制能力提供新技術(shù)。
三、關(guān)鍵技術(shù)與集成驗(yàn)證平臺(tái)
在上述研究工作的基礎(chǔ)上,本重大研究計(jì)劃進(jìn)一步開(kāi)展與視聽(tīng)覺(jué)信息處理相關(guān)的關(guān)鍵技術(shù)和集成驗(yàn)證平臺(tái)研究。
(一)視聽(tīng)覺(jué)信息協(xié)同計(jì)算的關(guān)鍵技術(shù)。
研究機(jī)器視聽(tīng)覺(jué)信息的協(xié)同計(jì)算模型及系統(tǒng)實(shí)現(xiàn)技術(shù),基于視聽(tīng)覺(jué)信息融合的模式識(shí)別技術(shù)與驗(yàn)證系統(tǒng),跨模態(tài)視頻信息檢索與網(wǎng)絡(luò)敏感信息過(guò)濾技術(shù)及應(yīng)用。基于多模態(tài)協(xié)同計(jì)算模型的網(wǎng)絡(luò)視頻信息搜索的查準(zhǔn)率比同期國(guó)外最好水平高5%—10%,并在網(wǎng)絡(luò)信息安全與服務(wù)等領(lǐng)域得到驗(yàn)證。
(二)自然語(yǔ)言(漢語(yǔ))理解關(guān)鍵技術(shù)。
研究漢語(yǔ)通用詞匯的規(guī)范化語(yǔ)義知識(shí)庫(kù)及其構(gòu)建技術(shù),面向網(wǎng)絡(luò)的漢語(yǔ)適度理解模型及系列分析工具的實(shí)現(xiàn)技術(shù),支持自然環(huán)境下口語(yǔ)對(duì)話(huà)分析、識(shí)別與理解的關(guān)鍵技術(shù)。在國(guó)內(nèi)現(xiàn)有相關(guān)成果的基礎(chǔ)上,統(tǒng)籌構(gòu)建漢語(yǔ)語(yǔ)義知識(shí)庫(kù),漢語(yǔ)通用詞匯規(guī)模不小于5萬(wàn)詞,帶有語(yǔ)義標(biāo)注的漢語(yǔ)平衡語(yǔ)料庫(kù)規(guī)模不小于1千萬(wàn)字。將研究成果應(yīng)用到網(wǎng)絡(luò)環(huán)境下的漢語(yǔ)處理系統(tǒng)中,信息檢索與知識(shí)獲取的準(zhǔn)確率比現(xiàn)有最好技術(shù)提高20%以上。
(三)與視聽(tīng)覺(jué)認(rèn)知相關(guān)的腦―機(jī)接口關(guān)鍵技術(shù)。
研究與視聽(tīng)覺(jué)認(rèn)知相關(guān)的腦信號(hào)提取、腦區(qū)定位與腦功能網(wǎng)絡(luò)分析技術(shù),腦—機(jī)交互中的信號(hào)傳輸、處理、控制技術(shù)及系統(tǒng)實(shí)現(xiàn),與視聽(tīng)覺(jué)認(rèn)知相關(guān)的腦—機(jī)接口典型應(yīng)用。所提無(wú)創(chuàng)腦―機(jī)接口信息提取與分析等技術(shù)處于同期國(guó)際領(lǐng)先水平,在改善殘疾人生活質(zhì)量和功能康復(fù)等方面得到驗(yàn)證或應(yīng)用。
(四)無(wú)人駕駛車(chē)輛集成驗(yàn)證平臺(tái)。
集成上述基礎(chǔ)理論與關(guān)鍵技術(shù)的相關(guān)研究成果,將傳統(tǒng)視覺(jué)計(jì)算模型與新的視覺(jué)認(rèn)知模型相結(jié)合,實(shí)現(xiàn)環(huán)境感知與建模方法新突破;實(shí)現(xiàn)多傳感器跨模態(tài)跨尺度信息融合,生成高質(zhì)量三維場(chǎng)景認(rèn)知地圖,構(gòu)建高性能智能車(chē)輛無(wú)人駕駛驗(yàn)證平臺(tái);提供新的基于人—車(chē)—路狀態(tài)綜合分析的智能輔助安全駕駛關(guān)鍵技術(shù);在國(guó)防、智能輔助安全駕駛等相關(guān)領(lǐng)域得到驗(yàn)證或應(yīng)用并產(chǎn)生重要影響。