為什么合成數(shù)據(jù)是人工智能的必備條件？

2023-08-01 17:37:13 來源: 千家網(wǎng)

企業(yè)正在收集拍字節(jié)、艾字節(jié)甚至澤字節(jié)數(shù)量級的數(shù)據(jù)。

但數(shù)據(jù)是混亂的，往往是分散和孤立的。許多企業(yè)對于在某些環(huán)境中使用數(shù)據(jù)猶豫不決，因為其具有高度專有性。在電信等受監(jiān)管行業(yè)中，由于其高度敏感的性質，許多數(shù)據(jù)甚至無法被觸及。

由于這些原因和其他原因，包括缺乏人工智能所需的大規(guī)?？捎脭?shù)據(jù)、數(shù)據(jù)偏差或數(shù)據(jù)漂移，越來越多的企業(yè)正在轉向合成數(shù)據(jù)。合成數(shù)據(jù)，顧名思義，這不是真實數(shù)據(jù)，但與真實數(shù)據(jù)非常相似。

(相關資料圖)

增強、保護現(xiàn)實世界的數(shù)據(jù)

合成數(shù)據(jù)在數(shù)學和統(tǒng)計上反映了現(xiàn)實世界的數(shù)據(jù)。但它不是從現(xiàn)實世界中收集和測量的，而是通過計算機模擬、算法、簡單規(guī)則、統(tǒng)計建模、模擬和其他基于小型、匿名的現(xiàn)實世界樣本的技術創(chuàng)建出來的。

雖然真實數(shù)據(jù)幾乎總是從數(shù)據(jù)中獲取洞察的最佳來源，但由于隱私法規(guī)，真實數(shù)據(jù)往往價格昂貴、不平衡、不可用或無法使用。合成數(shù)據(jù)可以成為真實數(shù)據(jù)的有效補充或替代。

人工數(shù)據(jù)可以幫助減輕真實數(shù)據(jù)的弱點，或者可以在不存在實時數(shù)據(jù)、數(shù)據(jù)高度敏感或存在偏見、或無法使用、共享或移動的情況下使用。但它并不總是需要接受真實數(shù)據(jù)的訓練：它可以通過查看領域或機構知識或真實數(shù)據(jù)的痕跡來生成。

隨著數(shù)據(jù)密集型生成人工智能模型的大量使用以及隱私和安全的必要性，各行業(yè)領域的企業(yè)正在認識到合成數(shù)據(jù)的潛力：2021年其全球市場價值僅為1.689億美元，但預計將增長到2031年將達到35億美元，復合年增長率接近36%。

Gartner甚至預測，到2030年，人工智能模型中的合成數(shù)據(jù)將完全蓋過真實數(shù)據(jù)。

利用合成數(shù)據(jù)克服隱私障礙

Vodafone作為一家跨國企業(yè)，在多個不同的司法管轄區(qū)運營，有著不同的規(guī)則和法規(guī)，自然會在數(shù)據(jù)使用方面受到阻礙。主要由于隱私問題，對數(shù)據(jù)的訪問通常受到限制，當涉及到跨地理邊界的數(shù)據(jù)流動時，也存在限制。

在這方面，Vodafone與總部位于倫敦的合成數(shù)據(jù)初創(chuàng)企業(yè)Hazy合作。該企業(yè)于3月份宣布獲得900萬美元的A輪種子融資，主要與Vodafone、Accenture、PwC、BMW Group和Wells Fargo等大型組織合作，因為他們都在數(shù)據(jù)方面面臨最大的問題。

這些大型企業(yè)擁有“大量敏感數(shù)據(jù)”，以及分散在不同地區(qū)的“大量數(shù)據(jù)孤島”。

這些企業(yè)的工具采用結構化數(shù)據(jù)集，并使用機器學習(ML)來進行掃描，以識別列之間的趨勢、模式、相關性、差異和關系。無論數(shù)據(jù)落在哪里，都可以要求它生成一個真實的數(shù)據(jù)點。

該工具可以生成比源數(shù)據(jù)集中更多的數(shù)據(jù)，并且在保留數(shù)據(jù)特征但不包含敏感細節(jié)的安全環(huán)境中生成數(shù)據(jù)。

最全面的數(shù)據(jù)分析，加速機器學習

Vodafone正在尋求進行更全面的數(shù)據(jù)分析，研究不同國家的不同廣告活動是如何運作的，并從這些數(shù)據(jù)集中學習。

“宏偉計劃”是在每個國家創(chuàng)建合成數(shù)據(jù)資產(chǎn)，并將其聚合到一個中心位置，以便進行更廣泛、更大規(guī)模的分析。例如，客戶流失分析。

其他感興趣的領域包括負載預測和欺詐預測，以及網(wǎng)絡中斷的檢測和預測。

人工數(shù)據(jù)的一大用例是機器學習：加快創(chuàng)建和改進模型，以及執(zhí)行快速實驗的內部開發(fā)流程。

通常沒有足夠的數(shù)據(jù)訪問權限，雖然可以使用開源數(shù)據(jù)，但這通常不是需要的，不適合情況。需要創(chuàng)建反映網(wǎng)絡現(xiàn)實的合成數(shù)據(jù)。

人工數(shù)據(jù)有助于改善和加速數(shù)據(jù)訪問，并更快地啟動項目，從而提高生產(chǎn)力和企業(yè)的敏捷性。

數(shù)據(jù)就像機器學習的燃料。沒有數(shù)據(jù)，就無法進行監(jiān)督學習。

促進協(xié)作，加強自動化

Vodafone龐大的移動網(wǎng)絡供應商生態(tài)系統(tǒng)也在進行機器學習創(chuàng)新，如果想要訓練新的機器學習模型，就需要數(shù)據(jù)。

但要分發(fā)網(wǎng)絡數(shù)據(jù)并不容易。相反，提供合成數(shù)據(jù)，可以消除這些障礙。

軟件測試是另一個重要的用例。Vodafone正在內部開發(fā)更多軟件，這需要進行測試。人工數(shù)據(jù)可以幫助確定何時可能發(fā)生故障、特定網(wǎng)絡軟件組件上的負載如何隨時間變化、如何將計算資源最佳地分配給軟件組件，以及如何將能耗降至最低。

測試每個大企業(yè)的基本業(yè)務可能需要數(shù)年時間，最大的障礙是獲取代表性生產(chǎn)數(shù)據(jù)。

此外，合成數(shù)據(jù)對于網(wǎng)絡自動化很重要。因此，希望盡可能實現(xiàn)自動化，以進行預測。

電信以外的合成數(shù)據(jù)考慮

當然，合成數(shù)據(jù)不僅僅在電信領域有用例。它被一些企業(yè)用來微調大型語言模型(LLM)，而不會泄露企業(yè)特定的數(shù)據(jù)，這些數(shù)據(jù)對ChatGPT等公共模型“超級敏感”。

與此同時，在銀行業(yè)，人工數(shù)據(jù)已被用作沙盒系統(tǒng)的一部分，以幫助開發(fā)圍繞欺詐檢測和洗錢的新技術。與此同時，BMW利用合成數(shù)據(jù)，對潛在客戶的信用狀況做出了更快、更準確的決策。Accenture開發(fā)了一款應用，旨在根據(jù)客戶的信用卡和借記卡交易記錄，識別易受影響的客戶，以便及早干預，防止出現(xiàn)不良財務狀況。

同樣，該技術可用于生成數(shù)據(jù)集的某些區(qū)域，以更能反映現(xiàn)實。例如，假設一個數(shù)據(jù)集只有20%是女性，組織可以再生成30%，以更好地服務其用戶群。

人工數(shù)據(jù)提高了企業(yè)創(chuàng)新的強度，可以快速進行實驗和創(chuàng)新。

獲得認可，決定企業(yè)成熟度

從文化的角度來看，使用合成數(shù)據(jù)可以幫助隱私官員放松心情，并消除其阻礙創(chuàng)新甚至是數(shù)據(jù)科學家敵人的看法。

我們可以將合成數(shù)據(jù)視為真正的匿名數(shù)據(jù)。但盡管如此，由于它改變了數(shù)據(jù)在組織中移動的方式，因此必須得到首席信息安全官、首席信息官、首席執(zhí)行官、安全和法律團隊以及其他高管和部門領導的支持。

從小事做起，建立證據(jù)點。為了支持這一點，Hazy創(chuàng)建了一個合成數(shù)據(jù)成熟度模型。成熟階段包括探索、評估、操作化、擴展和嵌入。

不過，同樣重要的是，要解決人工數(shù)據(jù)是“假的”或不準確的反彈。

有一些誤解認為，使用合成材料會失去一些準確性。合成數(shù)據(jù)永遠不會像真實數(shù)據(jù)那樣100%準確。

的確。通過將數(shù)據(jù)保密，會在準確性上有所犧牲。但盡管略有下降，但還是有很多有用之處。

最終，合成數(shù)據(jù)將迎來它的時代：監(jiān)管機構正在開始探索其可能性，隨著越來越多的企業(yè)接受它，圍繞數(shù)據(jù)使用和共享的行業(yè)標準將出現(xiàn)。

這對于合成數(shù)據(jù)來說，是一個有趣的時刻。合成數(shù)據(jù)是一個復雜的產(chǎn)品，企業(yè)不太容易采用。但未來幾年將是一個相當重要的轉折點。

關鍵詞：

夜先锋av资源网站,国产精品极品美女在线观看免,欧美亚洲精品电影在线观看,日韩在线精品强乱一区二区三区

為什么合成數(shù)據(jù)是人工智能的必備條件？

您可能也感興趣:

今日熱點

大學生網(wǎng)絡創(chuàng)業(yè)規(guī)劃大學生網(wǎng)絡創(chuàng)業(yè)計劃書

這些賬號因蹭炒涉企熱點事件、傳播涉企不實信息被禁言、關閉

國金證券：給予安井食品買入評級

更多

更多

排行

最近更新

今日要聞

夜先锋av资源网站,国产精品极品美女在线观看免,欧美亚洲精品电影在线观看,日韩在线精品强乱一区二区三区

為什么合成數(shù)據(jù)是人工智能的必備條件？

您可能也感興趣:

今日熱點

大學生網(wǎng)絡創(chuàng)業(yè)規(guī)劃 大學生網(wǎng)絡創(chuàng)業(yè)計劃書

這些賬號因蹭炒涉企熱點事件、傳播涉企不實信息被禁言、關閉

國金證券：給予安井食品買入評級

為您推薦

Meta高管：公司更名很成功 轉移了媒體視線

生完孩子腰痛下肢乏力 傳統(tǒng)醫(yī)學聯(lián)手為寶媽“撐腰”

預計投入2.4億元用于科技

蕪湖奧體中心青少年體育免費公益培訓時間安排2023年

更多

更多

排行

最近更新

今日要聞

為什么合成數(shù)據(jù)是人工智能的必備條件？

大學生網(wǎng)絡創(chuàng)業(yè)規(guī)劃大學生網(wǎng)絡創(chuàng)業(yè)計劃書

這些賬號因蹭炒涉企熱點事件、傳播涉企不實信息被禁言、關閉

Meta高管：公司更名很成功轉移了媒體視線

生完孩子腰痛下肢乏力傳統(tǒng)醫(yī)學聯(lián)手為寶媽“撐腰”