強化學(xué)習:了解不同的機器學(xué)習技巧

強化學(xué)習:了解不同的機器學(xué)習技巧

強化學(xué)習是監(jiān)督的還是無監(jiān)督的?雖然這個技術(shù)問題很重要,但讓我們把重點轉(zhuǎn)向商業(yè)視角。強化學(xué)習(RL)在改變各行業(yè)的決策過程和優(yōu)化戰(zhàn)略方面具有巨大的潛力。

計算機、智能手機和各種技術(shù)所產(chǎn)生的數(shù)據(jù)量之大可能令人生畏,特別是對于那些對其影響不確定的人而言。為了有效地利用這些數(shù)據(jù),研究人員和程序員經(jīng)常利用機器學(xué)習來增加用戶體驗。

數(shù)據(jù)科學(xué)家每天都在使用復(fù)雜的方法,包括監(jiān)督學(xué)習、無監(jiān)督學(xué)習和強化學(xué)習技術(shù)。本文旨在簡潔地描述監(jiān)督學(xué)習、無監(jiān)督學(xué)習和強化學(xué)習,并強調(diào)它們間的區(qū)別。

強化學(xué)習是監(jiān)督的還是無監(jiān)督的?

強化學(xué)習在機器學(xué)習領(lǐng)域開辟了自己的道路,與監(jiān)督學(xué)習和無監(jiān)督學(xué)習截然不同。但首先,讓我們先了解一下什么是監(jiān)督學(xué)習和無監(jiān)督學(xué)習。

什么是監(jiān)督學(xué)習?

監(jiān)督學(xué)習是一種機器學(xué)習技術(shù),其中模型是在標記數(shù)據(jù)集上訓(xùn)練的。這意味著數(shù)據(jù)既包括輸入示例,也包括相應(yīng)的期望輸出(標簽)。模型的目標是學(xué)習輸入和輸出之間的關(guān)系,這樣它就可以準確地預(yù)測新的、看不見的數(shù)據(jù)的輸出。

將其想象成一個學(xué)生跟著老師學(xué)習。標記的數(shù)據(jù)集就像帶有解決方案的實踐問題。學(xué)生(模型)學(xué)習這些例子,教師(算法)指導(dǎo)學(xué)習過程。目標是讓學(xué)生學(xué)會如何獨立解決類似的問題。

關(guān)鍵概念: 標簽數(shù)據(jù):監(jiān)督學(xué)習的核心。每個數(shù)據(jù)點都有一個輸入(特性)及其相應(yīng)的正確輸出(標簽). 培訓(xùn):模型被輸入標記數(shù)據(jù)。它分析了輸入和輸出之間的模式和相關(guān)性。 學(xué)習功能:該模型開發(fā)了一個數(shù)學(xué)函數(shù),盡可能精確地將輸入映射到輸出中。 預(yù)測:一旦經(jīng)過培訓(xùn),該模型可以吸收新的投入并預(yù)測相應(yīng)的產(chǎn)出。

什么是無監(jiān)督學(xué)習?

無監(jiān)督學(xué)習是一種機器學(xué)習技術(shù),其中模型是在未標記的數(shù)據(jù)集上訓(xùn)練的。這意味著數(shù)據(jù)只包括輸入,沒有相應(yīng)的目標輸出。模型的目標是發(fā)現(xiàn)數(shù)據(jù)本身中隱藏的模式、結(jié)構(gòu)或關(guān)系。

將其想象成一個孩子在沒有任何具體指示的情況下探索一個新環(huán)境。孩子們通過觀察模式、對相似的物體進行分組和理解關(guān)系來學(xué)習,而不需要任何人直接告訴其事物的名稱。

關(guān)鍵概念:

無標簽數(shù)據(jù):無監(jiān)督學(xué)習沒有預(yù)先定義的答案來學(xué)習。 模式發(fā)現(xiàn):模型分析數(shù)據(jù)以找出相似性、差異性和潛在結(jié)構(gòu)。 沒有明確的指導(dǎo):沒有"老師"糾正模式。它通過自我發(fā)現(xiàn)學(xué)習。

什么是強化學(xué)習?

強化學(xué)習是一種機器學(xué)習,其中代理人通過與環(huán)境交互的試錯來學(xué)習。代理嘗試不同的行為,根據(jù)其行為獲得獎勵或懲罰,并隨著時間的推移調(diào)整其策略以最大化總獎勵。

想象一下訓(xùn)練一只狗,但沒有明確告訴狗怎么坐。相反,當它執(zhí)行導(dǎo)致坐著的動作時,給予它獎勵。隨著時間的推移,狗學(xué)會了把坐和獎勵聯(lián)系起來。

關(guān)鍵概念:

代理人:決策者,學(xué)習的實體。 環(huán)境:代理人與之相互作用的系統(tǒng)。 狀態(tài):代理人在其環(huán)境中的現(xiàn)狀。 行動:代理人在其環(huán)境中能做什么。 獎勵:積極或消極的反饋信號,代理人收到的行動。 策略:代理人使用的策略來決定在給定的狀態(tài)中采取什么行動。

總結(jié)

沒有任何一種"最佳"的機器學(xué)習技術(shù)能超越所有其他的。最佳技術(shù)取決于需求。

無監(jiān)督學(xué)習是探索數(shù)據(jù)集、發(fā)現(xiàn)隱藏模式或在沒有預(yù)定結(jié)果的情況下分組相似數(shù)據(jù)點的完美選擇。而,如果有帶有標記示例的數(shù)據(jù)集(輸入數(shù)據(jù)及其相應(yīng)的正確輸出),則選擇有監(jiān)督的學(xué)習。

強化學(xué)習對于以長期獎勵為重點的決策問題特別有用,如游戲或機器人。在強化學(xué)習中,代理人與環(huán)境交互,以獎勵或懲罰的形式獲得反饋,并學(xué)習隨著時間的推移使獎勵最大化的最佳策略。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2024-07-08
強化學(xué)習:了解不同的機器學(xué)習技巧
強化學(xué)習在機器學(xué)習領(lǐng)域開辟了自己的道路,與監(jiān)督學(xué)習和無監(jiān)督學(xué)習截然不同。

長按掃碼 閱讀全文