百科創(chuàng)建
12.9K
4104

自然語言處理

自然語言與人工(或人造)語言不同,前者是人類社會中自然形成的語言,人們借助其進(jìn)行各種交際活動,如漢語、英語、俄語等;后者是通過人工設(shè)計創(chuàng)造出來的語言,如國際輔助語和計算機(jī)語言。自然語言是人類歷史長期發(fā)展而約定俗成的產(chǎn)物,比人工語言要復(fù)雜得多。 自然語言與人工語言有以下不同:①自然語言中充滿著歧義,而人工語言中的歧義則是可以控制的。②自然語言的結(jié)構(gòu)復(fù)雜多樣,而人工語言的結(jié)構(gòu)則相對簡單。③自然語言的語義表達(dá)千變?nèi)f化,迄今還沒有一種簡單而通用的途徑來描述它,而人工語言的語義則可以由人來直接定義。④自然語言的結(jié)構(gòu)和語義之間有著千絲萬縷的、錯綜復(fù)雜的聯(lián)系,一般不存在一一對應(yīng)的同構(gòu)關(guān)系,而人工語言則常??梢园呀Y(jié)構(gòu)和語義分別進(jìn)行處理,人工語言的結(jié)構(gòu)和語義之間有著整齊的一一對應(yīng)的同構(gòu)關(guān)系。

由于自然語言的這些獨(dú)特性質(zhì),使得自然語言處理成為人工智能的一大難題。自然語言處理一般應(yīng)經(jīng)過四個方面的過程:①把需要研究的問題在語言學(xué)上加以形式化,建立語言的形式化模型,使之能以一定的數(shù)學(xué)形式,嚴(yán)密而規(guī)整地表示出來,這個過程可以叫作“形式化”。②把這種嚴(yán)密而規(guī)整的數(shù)學(xué)形式表示為算法,這個過程可以叫作“算法化”。③根據(jù)算法編寫計算機(jī)程序,使之在計算機(jī)上加以實現(xiàn),建立各種實用的自然語言處理系統(tǒng),這個過程可以叫作“程序化”。④對于所建立的自然語言處理系統(tǒng)進(jìn)行評測,使之不斷地改進(jìn)質(zhì)量和性能,以滿足用戶的要求,這個過程可以叫作“實用化”。

為了研究自然語言處理,不僅要有語言學(xué)方面的知識,而且還要有數(shù)學(xué)和計算機(jī)科學(xué)方面的知識,因此自然語言處理就成了一門界乎語言學(xué)、數(shù)學(xué)和計算機(jī)科學(xué)之間的邊緣性的交叉學(xué)科,它同時涉及文科、理科和工科三大領(lǐng)域。 自然語言處理的目的在于建立各種自然語言處理系統(tǒng),如機(jī)器翻譯系統(tǒng)、自然語言理解系統(tǒng)、信息自動檢索系統(tǒng)、信息自動抽取系統(tǒng)、文本信息挖掘系統(tǒng)、術(shù)語數(shù)據(jù)庫系統(tǒng)、計算機(jī)輔助教學(xué)系統(tǒng)、語音自動識別系統(tǒng)、語音自動合成系統(tǒng)、文字自動識別系統(tǒng)等。 自然語言理解是自然語言處理的核心,其中包括語音和語符的自動識別以及語音的自動合成。語言之間的自動翻譯是一種高級的人工智能,涉及兩種或多種自然語言的理解和處理問題。上述項目都還處于研究實驗或初步應(yīng)用的階段。自然語言處理中智能較低的工作,如語料的統(tǒng)計、分類、檢索等,早已付諸應(yīng)用。

在自然語言處理的領(lǐng)域內(nèi),計算語言學(xué)工作者所研究的只是它的一般理論和方法,以及與語文信息加工有關(guān)的基礎(chǔ)性工作。隨著計算機(jī)科學(xué)和語言學(xué)的發(fā)展,自然語言處理的條件將逐步改善,它的技術(shù)將逐步提高,同時,它所起的作用也會越來越大。 2018年后,自然語言處理進(jìn)入了大語言模型(large language model,簡稱LLM)階段,基本形成了一套近乎完備的技術(shù)體系,包括詞嵌入、編碼器-解碼器的端對端語言模型、注意力機(jī)制、Transformer模型以及BERT預(yù)訓(xùn)練模型等。這一套技術(shù)體系有力地促進(jìn)了自然語言處理在信息搜索、閱讀理解、機(jī)器翻譯、文本分類、智能問答、智能對話、網(wǎng)絡(luò)聊天、信息抽取、自動文摘、文本生成等重要領(lǐng)域的應(yīng)用,預(yù)示著自然語言處理將要開啟大規(guī)模工業(yè)化實施的時代。

4104

免責(zé)聲明:本站詞條系由網(wǎng)友創(chuàng)建、編輯和維護(hù),內(nèi)容僅供參考。

以上內(nèi)容均為商業(yè)內(nèi)容展示,僅供參考,不具備專業(yè)問題解決服務(wù),

如果您需要解決具體問題(尤其在法律、醫(yī)學(xué)等領(lǐng)域),建議您咨詢相關(guān)領(lǐng)域的專業(yè)人士。

如您發(fā)現(xiàn)詞條內(nèi)容涉嫌侵權(quán),請通過 948026894@qq.com 與我們聯(lián)系進(jìn)行刪除處理!

上一篇:月掩火星
一秒推