百科創(chuàng)建
23.2K
8509

在線學(xué)習(xí)算法

順序地根據(jù)歷史數(shù)據(jù)和可用信息做出預(yù)測(cè)或者決策的過(guò)程。它是人工智能和機(jī)器學(xué)習(xí)的一個(gè)重要分支領(lǐng)域。

傳統(tǒng)機(jī)器學(xué)習(xí)(統(tǒng)計(jì)學(xué)習(xí))通常的工作方式是先獲得批量的訓(xùn)練數(shù)據(jù)并且離線地學(xué)習(xí)數(shù)據(jù)的有意義的模式,最后將學(xué)習(xí)到的模型固定不變地應(yīng)用于測(cè)試數(shù)據(jù)中。與之不同,在線學(xué)習(xí)過(guò)程中的數(shù)據(jù)是順序地提供的。在線學(xué)習(xí)的工作模式是循環(huán)往復(fù)地根據(jù)歷史數(shù)據(jù)和當(dāng)前可用信息做出預(yù)測(cè)或者決策,收集反饋數(shù)據(jù)(可能只有部分信息)以改善系統(tǒng)自身性能,并且獲得相應(yīng)獎(jiǎng)勵(lì)或者承受相應(yīng)懲罰。簡(jiǎn)而言之,傳統(tǒng)機(jī)器學(xué)習(xí)采取的是“先學(xué)習(xí)后使用”的工作模式,而在線學(xué)習(xí)則是采用“邊學(xué)習(xí)邊使用”的工作模式。

除了工作場(chǎng)景和模式不同外,它們的理論假設(shè)和學(xué)習(xí)目標(biāo)也有區(qū)別。統(tǒng)計(jì)學(xué)習(xí)一般假定數(shù)據(jù)是獨(dú)立同分布的,其目標(biāo)是使得學(xué)習(xí)到的模型與真實(shí)模型在該數(shù)據(jù)分布下的性能差距盡可能地小。但是在線學(xué)習(xí)一般并不對(duì)數(shù)據(jù)的分布做出假設(shè),數(shù)據(jù)序列可以是確定性的、隨機(jī)的、甚至是對(duì)抗性的。最大化學(xué)習(xí)過(guò)程中的累積收益或者最小化累積懲罰是在線學(xué)習(xí)的一個(gè)自然目標(biāo)。為了便于評(píng)價(jià)和分析在線學(xué)習(xí)算法的性能,人們提出了一個(gè)稱為悔(regret)的評(píng)價(jià)指標(biāo)。它被定義為在線學(xué)習(xí)算法的累積收益(或者累積懲罰)與一直選取一個(gè)最優(yōu)的模型(在某個(gè)假設(shè)空間中)所取得的累積收益(或者累積懲罰)之差。一個(gè)好的在線學(xué)習(xí)算法應(yīng)該是具有次線性的悔界,即隨著交互次數(shù)的增加,算法的性能逼近最優(yōu)模型的性能。

8509

免責(zé)聲明:本站詞條系由網(wǎng)友創(chuàng)建、編輯和維護(hù),內(nèi)容僅供參考。

以上內(nèi)容均為商業(yè)內(nèi)容展示,僅供參考,不具備專業(yè)問(wèn)題解決服務(wù),

如果您需要解決具體問(wèn)題(尤其在法律、醫(yī)學(xué)等領(lǐng)域),建議您咨詢相關(guān)領(lǐng)域的專業(yè)人士。

如您發(fā)現(xiàn)詞條內(nèi)容涉嫌侵權(quán),請(qǐng)通過(guò) 948026894@qq.com 與我們聯(lián)系進(jìn)行刪除處理!

一秒推