對於人工智慧使用者而言,資料管理對於人工智慧專案是否成功扮演著重要角色,因此,企業如何建立出色的數據管理並決定與那些公司合作非常重要。
圖片來源 : shutterstock、達志影像
2024 年第一季度,近 1/3 的公司執行長在財報會議中提及人工智慧,但只有極小部分(占所有財報會議的 1%)討論資料管理的應用。事實上,資料管理對於人工智慧的成功至關重要,調研機構指出,從2023 年到2030 年,整體成長率預計為每年16%,到2030 年底,市場預計將達到5,130 億美元。若進一步觀察,人工智慧模型大幅依賴資料進行訓練和操作,而為了訓練專門設計用於特定業務流程和環境的模型,公司必須評估其資料管理技術堆疊的 7 個關鍵要素。
要素一:資料來源
資料來源包括來自多個儲存庫的多種資料格式,可能包括企業資源規劃 (ERP) 或客戶關係管理(CRM) 等企業系統、來自可程式邏輯控制器 (PLC) 或感測器等裝置的物聯網數據,或其他外部資料(例如社群媒體或政府數據)數據等。資料來源為人工智慧訓練奠定了基礎,因為複雜的人工智慧通常需要來自不同來源的大量資料組合。連接的資料來源越多,人工智慧模型就越強大、越通用。因此,確定需要那些數據、從那裡獲取數據以及如何收集數據是關鍵,例如生成式人工智慧主要處理非結構化數據,即無法完全適合關聯式資料庫的訊息,例如文字或圖像,這些非結構化資料必須被識別、整合並整合到資料儲存系統中,以最大限度來發揮人工智慧的潛力。
要素二:資料擷取
資料擷取主要來源(ERP、CRM、PLC 或外部來源)收集數據,並使用連接器將其統一到儲存系統中,以確保相容性和正確的格式處理,企業必須持續收集各種來源的數據並將其輸入人工智慧演算法,為了確保人工智慧模型發揮作用,避免可能導致資料缺口的連接問題至關重要,連續資料流對於需要即時資料的應用程式尤其重要,延遲可能會導致錯失機會或增加風險。一個例子是,美國非營利組織Apache的 Kafka(分散式事件流平台)等技術可以以高吞吐量和低延遲促進即時資料收集和處理,這使業者能夠數據生成時採取行動,從而提高回應能力和營運效率。例如,線上串流服務Netflix運用Kafka 管理超過 7,000 億個日常事件,確保資料流與即時處理,以維持超過 2.6 億訂閱者的高品質用戶體驗。
要素三:資料儲存
儲存使用技術和架構來保護、組織和儲存資料。有兩個主要組成部分,分別是(1)儲存技術,包括用於資料儲存的硬體(HDD 或 SSD)和軟體(資料庫管理系統 (DBMS));(2)資料架構,包括資料倉儲、資料湖或雲,用作資料架構和資料存取的藍圖。資料儲存可確保有效存取所需資料。儲存至關重要,因為它提供了必要的基礎設施來集中組織和管理人工智慧模型所需的大量資料。儲存技術確保資料的快速訪問,直接影響人工智慧應用的效能。此外,隨著人工智慧專案的擴展和發展,可擴展的儲存系統支援不斷增長的資料需求。
資料儲存市場是由資料架構細分市場的成長所推動的,隨著資料量持續成長,多家機構預測,到 2030 年資料架構細分市場的年複合成長率將達到 18%,這顯示出企業資料以產生有價值的見解的重要性日益增加。相較之下,儲存技術同期複合年增長率預計將低於平均 8%;過去十年,硬體儲存成本大幅下降,例如,2016 年,記憶體成本為每 TB 203 美元,此後固態儲存成本已降至每 TB 49.50 美元,預計該趨勢將導致儲存技術細分市場的成長率低於平均值。另外,向量資料庫在產生人工智慧用例中越來越受歡迎,這些資料庫對於索引和搜尋用於相似性搜尋,及模式匹配的高維向量至關重要,該趨勢表示特定人工智慧應用正在轉向新的、先進的資料管理系統。
要素四:資料轉換
資料轉換為將資料細化並重組為適合詳細分析的格式,堆疊的這一部分涉及清理、整合和修改數據,以確保品質以及與分析工具和儲存結構的兼容性,提取數據,將其轉換為標準化格式,並將其加載到目標儲存中,此流程可確保資料乾淨、結構化並可供分析。資料轉換對於人工智慧至關重要,因為它將原始資料轉換為乾淨的結構化格式,使其易於人工智慧訓練和操作,此過程包括檔案格式轉換、資料清理、保護敏感資料(對於生成式人工智慧尤其重要)以及巨集資料以支援查詢,預測人工智慧和產生人工智慧都將需要預處理資料以保持資料品質和有用性。
此外,反向 ETL 對於將 AI 產生的見解整合到業務流程中非常重要。與將資料移至集中式儲存系統(例如集中式資料倉儲、資料湖或雲端)進行分析的傳統 ETL 不同,反向 ETL 從這些系統中提取資料並將其同步回營運應用程式。透過將 AI 產生的見解轉移到 ERP 等系統,反向 ETL 使組織能夠將 AI 結果整合到業務流程中,確保這些見解能夠及時應用以增強業務營運、決策等。
要素五:資料分析
分析將資料轉換為有意義且可操作的資訊,這部分堆疊包括商業智慧工具,將數據轉換為視覺化報告、儀表板和指標,使理解和交流見解變得更加容易。第二是數據科學工具,透過識別傳統方法可能無法立即看到的更深層的模式、趨勢和相關性來增強分析。資料分析對於人工智慧至關重要,它提供開發和完善人工智慧模型所需的工具,業者透過利用資料探勘、統計分析和機器學習等技術,分析有助於發現模式和趨勢,從結構化和非結構化資料中提取洞見。到2030 年,分析細分市場的年複合成長率(CAGR) 為20%,而商業智慧細分市場預計將成長最快,年複合成長率為27%,這些預測強調數據驅動決策的重要性和投資日益增加。
舉例而言,Airbnb利用人工智慧來改進其主人-客人匹配流程,透過使用A/B 測試、圖像辨識和預測建模等技術來增強用戶體驗和增加預訂,公司的模型根據用戶搜尋來預測預訂機率,並且他們的價格提示功能可以為房東提供最佳定價建議,此外,為了解決某些亞洲遊客的高跳出率問題,Airbnb 對網站進行修改,使將轉換率提高10%。
要素六:資料治理與安全
資料治理和安全性透過策略、流程和角色確保組織資料的完整性、可用性和一致性,確保其對業務營運的可信度,且在近期歐盟人工智慧法案通過下,資料治理的重要性又更上層樓,資料治理和安全性對於人工智慧至關重要,因為它們可以保護資料和人工智慧模型,這對於開發準確、符合道德的人工智慧模型以及保護投資這些模型的智慧財產權至關重要,資料管理不善可能會導致專有和私人資訊洩露,從而可能導致罰款和負面宣傳;此外,強有力的措施可確保所使用的數據準確且不受影響,從而提高人工智慧模型的品質,它們還能防止資訊外洩以及對人工智慧及其底層模型程式碼的未經授權的存取。資料治理大概可以分成三種模式,第一種為集中式模型,意即單一資料治理實體監督並標準化組織內所有主題領域的活動;第二是複製模型,指各業務單位獨立採用並實施相同的資料治理模型與標準;最後則是聯合模型,資料治理機構與多個業務部門協調,以確保整個組織的定義和標準的統一。
要素七:資料編排
資料編排是對不同系統和服務之間的資料流進行系統化管理和協調,它牽涉到自動化資料移動,以確保以適當的格式和位置提供分析和決策的可用性,資料編排確保資料在各個系統之間的無縫整合、協調和流動,並促進人工智慧模型的訓練、部署和細化。
AWS、微軟和Google這三大超大型企業將在 2023 年佔據資料管理市場的總計 52% 的市場份額,並在上述每個細分市場提供領先的服務。值得注意的是,這些公司並未提供最複雜和最受好評的解決方案,但他們提供經濟高效且高度整合的服務,這些服務易於為客戶擴展,使用者面臨著一個重要的選擇:他們可以選擇來自小型專業公司的多種最佳資料管理解決方案,或者他們可以利用一兩個超大規模的便利性和全面的產品,將這些解決方案統一在一個解決方案下提供所有必要的服務。
【本文僅反映專家作者意見,不代表本報立場。】
作者: |
蘇翰揚 |
學歷: |
國立中正大學企研所 |
經歷: |
產業分析師 |
專長: |
產業分析與市場研究 |
|
|
|
Facebook |
|
在北美智權報粉絲團上追踪我們 |
|
|
|
|
|
|
|