<i id="2d3a8"><dfn id="2d3a8"></dfn></i>

<span id="2d3a8"><kbd id="2d3a8"></kbd></span><noscript id="2d3a8"></noscript>

<label id="2d3a8"><ol id="2d3a8"></ol></label>

直播
榜單
7x24h快訊

極客網(wǎng) > 企業(yè)級(jí)IT >

深度學(xué)習(xí)的Attention模型

人閱讀

2017-10-12 14:30:46

來源：36大數(shù)據(jù)
相關(guān)關(guān)鍵詞

大數(shù)據(jù)

前言
前面看到谷歌發(fā)表的運(yùn)用在機(jī)器翻譯上的論文《Attention is all you need》，很是讓人驚訝，這是一種全新的模型，與之前的經(jīng)典的seq2seq模型改動(dòng)較大，它完全摒棄了RNN或CNN神經(jīng)網(wǎng)絡(luò)，大大簡化了模型的復(fù)雜度，而且效果還相當(dāng)好。當(dāng)然Attention模型可以單獨(dú)使用，但這篇文章我們來看看Attention的機(jī)制及怎么與經(jīng)典的seq2seq結(jié)合。

seq2seq
前面我們有詳細(xì)的文章介紹了seq2seq的機(jī)制以及如何用TensorFlow來實(shí)現(xiàn)seq2seq?？傻健渡疃葘W(xué)習(xí)的seq2seq模型》、《TensorFlow實(shí)現(xiàn)seq2seq》閱讀。
seq2seq模型結(jié)構(gòu)基本都大同小異，下面用一種常見結(jié)構(gòu)進(jìn)行說明，我們可以看到decoder將不同時(shí)刻的輸入最后用一個(gè)狀態(tài)C來表示,encoder部分的不同時(shí)刻的輸出則為yt=g(yt?1,h′t,C)，且有h′t=f(h′t?1,yt?1,C)，可以看到，不同時(shí)刻的輸入被編碼成C，而不同時(shí)刻的輸出與上一時(shí)刻的輸出、當(dāng)前時(shí)刻的隱含狀態(tài)、編碼狀態(tài)C都相關(guān)，而當(dāng)前時(shí)刻隱含狀態(tài)由于上一時(shí)刻的隱含狀態(tài)、上個(gè)時(shí)刻輸出、編碼C相關(guān)。

seq2seq缺點(diǎn)
seq2seq模型是處理序列問題的大殺器，由它實(shí)現(xiàn)的encoder-decoder模型讓其在很多場景都發(fā)揮著強(qiáng)大的作用，得到了很不錯(cuò)的效果。但它也有自己的局限性，被認(rèn)為最大限制了seq2seq能力的就在于編碼和解碼之間的唯一聯(lián)系就是一個(gè)固定長度的語義向量C。
我們可以看到上面，encoder的不同時(shí)刻的輸入都被編碼成狀態(tài)C，這個(gè)便是語義向量。從這個(gè)角度去看，它將整個(gè)序列的信息壓縮到一個(gè)固定長度的向量中去了。對(duì)于短序列來說，這種做法可能問題不大，但如果是較長較復(fù)雜的隊(duì)列，則該語義向量可能無法完全表示整個(gè)序列的信息。而且先輸入的序列的信息會(huì)被后輸入的序列信息稀釋掉。輸入序列越長，這個(gè)現(xiàn)象就越嚴(yán)重。如果我們得到一個(gè)有損的語義編碼，那對(duì)后面的解碼也很可能會(huì)產(chǎn)生影響。
另外seq2seq模型一般會(huì)使用RNN，而RNN因?yàn)榕c上一時(shí)刻狀態(tài)相關(guān)，所以不能并行運(yùn)算，效率低。但這是所有使用RNN的局限性，除非不使用它。

Attention模型
為了解決語義損失和信息稀釋的問題，提出了Attention模型，Attention即注意力，它是模擬了人類的視覺注意機(jī)制而來，比如當(dāng)觀察某個(gè)畫面時(shí)，注意力聚焦到其中某一部分，其余部分則變得模糊。
按照?qǐng)D，咱們往下詳細(xì)看Attention模型怎么與seq2seq結(jié)合。對(duì)于decoder，輸出為
yt=g(yt?1,h′t,C)
這里的C已經(jīng)與前面說到的seq2seq的語義向量C不同了，已經(jīng)不再是將所有輸入進(jìn)行編碼，下面會(huì)說到C怎么計(jì)算。再看隱含狀態(tài)，
h′t=f(h′t?1,yt?1,C)
C向量計(jì)算公式為，
Ct=∑Txj=1atjhj
我們可以將其中的a看成是各個(gè)時(shí)刻的輸出的不同時(shí)刻的輸入對(duì)應(yīng)的權(quán)重，其實(shí)就可以使用softmax來計(jì)算，它的計(jì)算公式為，
atj=exp(etj)∑Txk=1exp(etk)
其中，
etj=w(h′t?1,hj)
通過上面幾個(gè)公式就基本描述了seq2seq與Attention的結(jié)合，其中每個(gè)輸出多了注意力向量參與，注意力的權(quán)重由上一時(shí)刻隱含狀態(tài)與encoder的各個(gè)輸入的隱含狀態(tài)共同決定。
在seq2seq模型上加上Attention模型，克服了語義損失和信息稀釋的問題，但是它也引入了額外的成本，對(duì)于m個(gè)輸入，n個(gè)輸出的結(jié)構(gòu)中，Attention參數(shù)也達(dá)到了m*n的數(shù)量級(jí)。

閃存普惠，一步到位！華為商業(yè)市場極簡全閃數(shù)據(jù)中心Pro+重磅發(fā)布

《企業(yè)數(shù)據(jù)治理實(shí)踐白皮書》發(fā)布，啟信寶聯(lián)合六大數(shù)交所共同編制

業(yè)界首個(gè)！華為數(shù)據(jù)中心自動(dòng)駕駛網(wǎng)絡(luò)通過EANTC L4自智網(wǎng)絡(luò)等級(jí)測評(píng)

AI模型的耗電量驚人下一步是建設(shè)太空數(shù)據(jù)中心？

為什么制造商必須協(xié)調(diào)IT和OT，才能實(shí)現(xiàn)智能工業(yè)的成功？

打造AI時(shí)代先進(jìn)算力底座，鯤鵬開發(fā)者峰會(huì)2025即將開幕

金山辦公宣布未來五年戰(zhàn)略：重建海外基地，優(yōu)化WPS Office用戶體驗(yàn)

是德科技攜KAI系列布局AI新時(shí)代

微軟全球再裁6000人：無關(guān)績效，關(guān)乎未來

華為發(fā)布AI數(shù)據(jù)湖解決方案，助力企業(yè)加速擁抱AI

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

下一篇

阿里云將于馬來西亞和菲律賓新增數(shù)據(jù)中心

阿里云數(shù)據(jù)中心阿里云

極客觀察

專題報(bào)道

企業(yè)專欄

簡版
原版
投稿
回頂部

2017-10-12

深度學(xué)習(xí)的Attention模型

前言前面看到谷歌發(fā)表的運(yùn)用在機(jī)器翻譯上的論文《Attention is all you need》，很是讓人驚訝，這是一種全新的模型，與之前的經(jīng)典的seq2s

長按掃碼閱讀全文

<li id="fqwuq"><label id="fqwuq"><pre id="fqwuq"></pre></label></li>