使用實(shí)時(shí)數(shù)據(jù)面臨的主要挑戰(zhàn)

分析實(shí)時(shí)數(shù)據(jù)一直對(duì)那些使用 ML 模型的人提出挑戰(zhàn),因?yàn)樗麄兿M褂米钚聰?shù)據(jù)提高推理的準(zhǔn)確性。

由于實(shí)時(shí)數(shù)據(jù)的交付速度對(duì)于手動(dòng)分析或用于數(shù)據(jù)組織的傳統(tǒng)軟件來說太快了,因此只有 AI 和 ML 才能理解大量的流數(shù)據(jù)。但是,雖然使用實(shí)時(shí)數(shù)據(jù)是 ML 模型最有價(jià)值的應(yīng)用之一,但對(duì)于那些希望利用該工具進(jìn)行數(shù)據(jù)分析的人來說,它提出了幾個(gè)問題。

接下來,我們將討論那些試圖使用實(shí)時(shí)數(shù)據(jù)的人所面臨的一些主要挑戰(zhàn)以及克服這些挑戰(zhàn)的潛在方法

在哪些用例中,企業(yè)需要使用流數(shù)據(jù)而不是批處理數(shù)據(jù)?總的來說,數(shù)據(jù)流可以用于實(shí)時(shí)自動(dòng)化決策,這可能涉及在復(fù)雜數(shù)據(jù)集的生產(chǎn)環(huán)境中利用機(jī)器學(xué)習(xí)模型。這方面的例子包括高頻交易中的算法交易、醫(yī)療設(shè)備的異常檢測(cè)、網(wǎng)絡(luò)安全中的入侵檢測(cè)或電子商務(wù)轉(zhuǎn)換/保留模型。因此,使用批處理數(shù)據(jù)屬于“其他所有事情”,實(shí)時(shí)決策和上下文不如有大量數(shù)據(jù)要分析重要。因此,使用批量數(shù)據(jù)屬于“其他所有”類別,在該類別中,實(shí)時(shí)決策和上下文并不重要,而是要分析大量數(shù)據(jù)。這方面的例子包括需求預(yù)測(cè)、客戶細(xì)分和多點(diǎn)觸控歸因。

使用實(shí)時(shí)數(shù)據(jù)的挑戰(zhàn)

雖然利用實(shí)時(shí)數(shù)據(jù)在連續(xù)數(shù)據(jù)流上訓(xùn)練ML 模型具有快速適應(yīng)變化和能夠節(jié)省數(shù)據(jù)存儲(chǔ)空間等優(yōu)勢(shì),但也存在挑戰(zhàn)。將模型轉(zhuǎn)換為實(shí)時(shí)數(shù)據(jù)可能會(huì)產(chǎn)生額外的開銷,如果沒有正確考慮這些挑戰(zhàn),可能無法提供理想的結(jié)果。

實(shí)時(shí)的定義

處理實(shí)時(shí)數(shù)據(jù)提出了幾個(gè)挑戰(zhàn),首先是實(shí)時(shí)數(shù)據(jù)本身的概念。“實(shí)時(shí)”這個(gè)詞,不同的人有不同的理解。在分析環(huán)境中,一些人可能認(rèn)為實(shí)時(shí)意味著立即獲得答案,而另一些人不介意從收集數(shù)據(jù)的那一刻起等待幾分鐘,直到分析系統(tǒng)做出響應(yīng)。

這些對(duì)實(shí)時(shí)的不同定義可能會(huì)導(dǎo)致結(jié)果不明確的問題??紤]這樣一個(gè)場(chǎng)景,在這個(gè)場(chǎng)景中,管理團(tuán)隊(duì)對(duì)實(shí)時(shí)分析的期望和理解與實(shí)施它的人不同。不明確的定義會(huì)導(dǎo)致潛在用例和可以解決的業(yè)務(wù)活動(dòng)(當(dāng)前和未來的)的不確定性。

恒定的數(shù)據(jù)速度和容量變化

一般來說,實(shí)時(shí)數(shù)據(jù)不會(huì)以一致的速度或數(shù)量流動(dòng),而且很難預(yù)測(cè)它的行為方式。與處理批處理數(shù)據(jù)不同,在管道中發(fā)現(xiàn)缺陷之前不斷重新啟動(dòng)任務(wù)是不切實(shí)際的。由于數(shù)據(jù)不斷流動(dòng),處理數(shù)據(jù)時(shí)的任何錯(cuò)誤都會(huì)對(duì)結(jié)果產(chǎn)生多米諾骨牌效應(yīng)。

實(shí)時(shí)數(shù)據(jù)處理階段的有限性進(jìn)一步阻礙了標(biāo)準(zhǔn)的故障排除過程。因此,盡管測(cè)試可能無法發(fā)現(xiàn)每個(gè)意外錯(cuò)誤,但較新的測(cè)試平臺(tái)可以更好地調(diào)節(jié)和緩解問題。

數(shù)據(jù)質(zhì)量

從實(shí)時(shí)數(shù)據(jù)中獲得有用的見解還取決于數(shù)據(jù)的質(zhì)量。數(shù)據(jù)質(zhì)量的缺乏會(huì)影響整個(gè)分析工作流程,就像糟糕的數(shù)據(jù)收集可能會(huì)影響整個(gè)管道的性能一樣。沒有什么比從錯(cuò)誤的數(shù)據(jù)中得出商業(yè)結(jié)論更糟糕的了。

通過分擔(dān)責(zé)任和民主化數(shù)據(jù)訪問,可以高度關(guān)注數(shù)據(jù)的正確性、全面性和完整性。有效的解決方案將確保每個(gè)職能部門的每個(gè)人都能認(rèn)識(shí)到準(zhǔn)確數(shù)據(jù)的價(jià)值,并鼓勵(lì)他們承擔(dān)起維護(hù)數(shù)據(jù)質(zhì)量的責(zé)任。此外,為了保證只使用值得信賴的數(shù)據(jù)源,必須使用自動(dòng)化程序?qū)㈩愃频馁|(zhì)量政策應(yīng)用于實(shí)時(shí)數(shù)據(jù),因?yàn)檫@減少了不必要的分析工作。

各種數(shù)據(jù)源和格式

由于數(shù)據(jù)格式的多樣性和數(shù)據(jù)源數(shù)量的不斷增加,實(shí)時(shí)數(shù)據(jù)處理管道可能會(huì)面臨困難。例如,在電子商務(wù)中,活動(dòng)監(jiān)控工具、電子活動(dòng)跟蹤器和消費(fèi)者行為模型都跟蹤在線世界中的網(wǎng)絡(luò)活動(dòng)。同樣,在制造業(yè)中,各種各樣的物聯(lián)網(wǎng)設(shè)備被用來從各種設(shè)備中收集性能數(shù)據(jù)。所有這些用例都有不同的數(shù)據(jù)收集方法,并且通常也有不同的數(shù)據(jù)格式。

由于數(shù)據(jù)的這些變化,API 規(guī)范更改或傳感器固件更新可能會(huì)導(dǎo)致實(shí)時(shí)數(shù)據(jù)流中斷。為了避免錯(cuò)誤的分析和潛在的未來問題,實(shí)時(shí)數(shù)據(jù)必須考慮到無法記錄事件的情況。

過時(shí)的技術(shù)

各種新的信息來源給企業(yè)帶來了問題。當(dāng)前分析傳入數(shù)據(jù)的流程的規(guī)模已大幅增長(zhǎng)。使用本地或云中的信息湖收集和準(zhǔn)備信息可能需要比預(yù)期更多的測(cè)試。

該問題主要源于遺留系統(tǒng)和技術(shù)的使用,這需要不斷擴(kuò)大的熟練信息設(shè)計(jì)師和工程師來獲取和同步信息,并創(chuàng)建將信息傳達(dá)給應(yīng)用程序所需的檢查管道。

鑒于處理實(shí)時(shí)數(shù)據(jù)的獨(dú)特挑戰(zhàn),企業(yè)組織需要考慮哪些工具將幫助他們以最有效的方式部署和管理 AI 和 ML 模型。一個(gè)簡(jiǎn)單易用的界面可以讓團(tuán)隊(duì)中的任何人利用實(shí)時(shí)指標(biāo)和分析來跟蹤、衡量和幫助提高 ML 的性能,這將是理想的選擇。

基本的可觀察性功能,如生產(chǎn)中使用的數(shù)據(jù)的實(shí)時(shí)審計(jì)跟蹤,可以幫助團(tuán)隊(duì)輕松識(shí)別障礙的根本原因。最終,企業(yè)的競(jìng)爭(zhēng)力可能取決于其從實(shí)時(shí)數(shù)據(jù)中獲得可操作的業(yè)務(wù)洞察力的能力,這些數(shù)據(jù)處理管道針對(duì)大量數(shù)據(jù)進(jìn)行了優(yōu)化,同時(shí)仍提供對(duì)模型性能的可見性。

本文作者:Nina Zumel 是Wallaroo Labs的數(shù)據(jù)科學(xué)副總裁

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2022-09-22
使用實(shí)時(shí)數(shù)據(jù)面臨的主要挑戰(zhàn)
鑒于處理實(shí)時(shí)數(shù)據(jù)的獨(dú)特挑戰(zhàn),企業(yè)組織需要考慮哪些工具將幫助他們以最有效的方式部署和管理 AI 和 ML 模型。

長(zhǎng)按掃碼 閱讀全文