3月9日,鈦媒體華楠直播間「訓練AI的人」專場直播中,海天瑞聲副總經理、業(yè)務負責人李科受邀做客直播間,分享人工智能在標注和算法中有哪些技術革新、AI訓練師如何教人工智能更懂人類,如何賦能人工智能產業(yè)。
華楠:
AI訓練師是一個怎樣的職業(yè),請科總為我們簡單介紹。
李科:
2021年底,人力資源社會保障部、工業(yè)和信息化部共同制定的人工智能訓練師等6個國家職業(yè)技能標準出臺。在《人工智能訓練師國家職業(yè)技能標準》中,對于人工智能訓練師的職業(yè)定義,是使用智能訓練軟件,在人工智能產品實際使用過程中進行數據庫管理、算法參數設置、人機交互設計、性能測試跟蹤及其他輔導作業(yè)的人員。人工智能訓練師包含兩個工種五大等級,分別為數據標注員和人工智能算法測試員,又分初級工、中級工、高級工、技師、高級技師這由低到高的五大等級。
華楠:
對于您提到的數據標注員和算法測試員,請您進一步介紹兩個職業(yè)分別做什么工作,又有怎樣的區(qū)別?
李科:
我們業(yè)內經常有一句話:有多少人工就有多少智能。
數據標注員從事的主要是人工部分的工作。根據相關的要求和規(guī)范,基于標注員自身的知識進行數據標注。舉例來說,在人臉識別、自動駕駛場景中,很多數據是從真實世界中獲取的原始數據,這些數據無法直接用作算法訓練,需要通過人的加工,才可以形成最終被算法識別的結構化數據集。
例如在算法識別人臉數據的場景中,需要對人臉進行關鍵點標注。最簡單的關鍵點包括兩個瞳孔、一個鼻尖和兩個嘴角。而隨著算法進步,需要標注的關鍵點也隨之增加。在以往的實際業(yè)務中,我們最多能夠在一張臉上標注200多個關鍵點。
這聽起來簡單,但在實際操作過程中會遇到很多難點,如遇到暗光環(huán)境、側臉環(huán)境、非正面環(huán)境等,標注員只能看見單側的瞳孔,需要對應想象另一側瞳孔的位置才能進行標注。
另外一個職位是算法測試員,主要對人工智能的算法性能和效果進行測試,通過定義一套測試的規(guī)范流程,最終得出測試結果。當算法迭代或系統升級,能夠客觀評判算法的升級或者迭代的方法是否取得了進步。
華楠:
目前什么樣的人在從事數據標注,需要具備哪些專業(yè)知識?
李科:
從我們的人員架構可以看出,主要分為三類人員。
第一類是研發(fā)和算法人員。在訓練算法的過程中,可能會需要百萬、千萬級的數據,我們需要開發(fā)專業(yè)的系統對數據快速準確的進行標注,同時通過算法輔助實現標注效率的提升。
第二類是項目管理人員。例如在標注1000萬張人臉圖片的項目中,項目管理人員需要在前期規(guī)劃、項目實施、項目監(jiān)控、項目交付等過程中把控項目進度,最終滿足客戶的交付需求。
第三類是廣義概念的數據標注員。這其中包含了數據標注員、標注組長、質檢組長,以及客戶方可能會配備的驗收員等,這些都是廣義上被定義為數據標注的人員。
從我們的業(yè)務角度,可以概括的分為智能語音、計算機視覺、自然語言理解三大方向,對數據標注員也有著不同要求。例如在自動駕駛領域,主要分為2D、3D兩個方面,在車載攝像頭拍攝的街景照片中,標注員需要對車輛、行人、標識線、標識物、紅綠燈等內容進行標注,我們會有針對性的對標注人員進行交通法規(guī)、汽車駕駛等相關培訓。
但是在金融、醫(yī)療、法律等場景和更加細分和垂直的領域中,則要求標注人員擁有專業(yè)的知識儲備。例如在CT圖像中標注肺癌腫瘤生長點的位置具體,這就需要接受長時間培訓的專業(yè)人員才能夠滿足標注的需求。
所以標注人員需要怎樣的專業(yè)知識,也要根據需求具體問題具體分析。大部分的標注需求可以通過短期的培訓達到標準,但針對特殊領域則需要長時間接受過專業(yè)的系統性培訓才能夠符合要求。
華楠:
最近大模型相關話題火熱,模型背后其實就是數據,作為人工智能的三要素,利用數據訓練形成算法很重要,如何通過數據標注和訓練在場景中應用AI?要經歷哪些階段?
李科:
人工智能的發(fā)展主要得益于三個方面的發(fā)展,包括算力、算法和數據。正是因為海量的數據更好的滿足了算法需求,所以才有了這一輪大規(guī)模的爆發(fā)和應用。我們有一句話叫做Garbage In, Garbage Out,如果輸入的數據質量不高,輸出的結果也會不盡人意。這句話從一定程度上表明數據質量的重要性,只有高質量、大規(guī)模、結構化的數據才能夠提升人工智能系統的效果。
具體到人工智能系統層面來講,通常分為兩個階段。第一個階段是訓練階段:在這個場景下需要大量的訓練數據,通過數據和算法得到模型。第二個階段是推理階段:在這個階段會應用在訓練階段得到的模型,對新的數據進行推理。
例如在語音識別場景,首先我們在訓練階段設計出一個語音識別算法,然后通過使用大量的語音數據得到一個語音模型。接著進入到推理階段,使用一句話輸入到語音模型中,從而得到語音識別的結果,通常是一個文本。這就是整個AI應用的兩個階段。
具體到數據層面,通常我們會將數據的生產過程分為四大階段:包括數據集設計、數據采集、數據清洗標注(也稱為數據處理),以及數據質檢和交付。
在數據設計和采集階段,還是用人臉識別舉例,在設計階段中需要根據應用的場景,設計采集人數、性別,采集光線、角度、場景,是否需要多人組合采集等眾多內容,才能進行采集并得到原始數據。在數據標注階段,對標注過程進行規(guī)范處理,形成結構化數據。在最后的質檢和交付階段,需要進行嚴格的質量把控,將海量優(yōu)質且安全合規(guī)的數據交付給合作方。
華楠:
隨著AI越來越多的走進大家的生活中,AI技術也在不斷進化,AI 數據標注以及算法有著哪些技術革新?
李科:
從數據的角度來講,現在的技術演進是非常清晰的,主要是系統化和智能化。
在系統化方面,我們自主研發(fā)了大規(guī)模的標注系統。能夠實現項目管理、流程管理、人員管理、數據管理等功能,尤其是數據安全管理。
在智能化方面,我們也擁有自己的算法團隊,將算法運用到數據的生產過程當中,提升標注的效率和準確度。例如質檢過程中,通過算法快速甄別出不合格的數據,更好的進行反饋和修改。
華楠:
訓練AI需要大量的數據支撐,您認為一個合格的AI至少需要使用多少數據進行學習才能達到真正的智能化?
李科:
針對不同的場景,會有不同的要求。
通過公開資料我們可以了解到,最近非常火的ChatGPT大模型,它在訓練過程中使用的數據是5000億個token(token為語言中最小的語義單位,在英文中等于一個單詞,在中文中等于一個詞語)。但在自動駕駛場景,即便只是一個車道線識別,我們通常給合作方提供的數據都是在幾十萬幀到上百萬幀的級別。
而語音識別場景則不同,谷歌此前公布的一個語音識別模型,可以識別100多種語言,使用了約1200萬小時的數據進行訓練。但有時也可以使用數千或者數萬小時進行單一語種的語音識別模型的訓練??偨Y來說,還是要看數據所應用的具體場景具體分析。
華楠:
對于最近大熱的ChatGPT我們會感慨到它的邏輯清晰,連續(xù)回答,像這樣的模型訓練量大概需要多少數據,才能保證他有這樣的強大的能力?
李科:
ChatGPT在訓練數據層面有兩大關鍵點。
第一個是基于大規(guī)模的數據。像我剛才提到的5000億個token這種級別的數據,進行大模型的初始訓練。
第二個是運用了RLHF基于人類反饋的強化學習。在強化學習的過程中大概使用了1-3萬數量級的人類反饋,正是通過人類反饋來進行強化學習,才可以使得ChatGPT最終呈現出非常好的效果。
華楠:
國內也有很多從事相關研發(fā)的企業(yè),其數據能力如何?與ChatGPT還有多少差距?
李科:
首先ChatGPT的很多數據是從公開來源獲取的,其中較大的數據集包括一個通用數據集約4000多億個token,還有兩個書籍數據集,以及Wikipedia數據集。
另外一個重要的數據,就是RLHF基于人類反饋的強化學習數據,這個數據集由OpenAI自行研發(fā),通過很多規(guī)則處理數據。這個數據集并未公開,是ChatGPT最終達到這么好的效果的關鍵因素。
從目前國內的情況來看,獲得公開數據集是相對容易的,但其自研的數據需要我們人工智能從業(yè)者共同探索,如何提升技術能力達到ChatGPT的最終效果。
華楠:
最后一個問題,目前傳統的數據來源主要還是依靠大量的人工進行標注,在未來很長一段時間內,這種模式是否成為訓練數據的主要來源?
李科:
首先,認為數據標注是一個純手動標注的工作,是有一定程度誤解的。我們是非常注重研發(fā)能力的企業(yè),包括我們的平臺、算法、項目管理等各方面,只有通過不斷的技術創(chuàng)新才能夠更好的提升整體的質量與效率。
其次,我個人認為在短期內,人工標注不太容易被取代。數據標注可以理解為將人類的知識教給計算機,計算機才能夠進行相關識別。我們自己也常說,其實我們就像是在為人工智能制作教材,幫助人工智能學習判斷和推理。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )