「數據是新石油」這個觀點曾由《經濟學人》(The Economist)提出,現在看來原來是正確不過的描述,因為可開採石油會有被用盡的一天,現在「數據」也面對同樣困局,GenAI 亦可能遇上新發展樽頸。
《華爾街日報》早前引述人工智能市場研究機構 Epoch 的觀點,指出目前 OpenAI 主導的 GPT-4,其大型語言模型(LLM)採用的詞元(Token)訓練素材多達 12 萬億個。該機構研究人員 Pablo Villalobos 認為,如果要跟隨目前 GenAI 的高速成長步伐,GPT-5 的 LLM 需要多達 60 萬億至 100 萬億的詞元,唯目前利用所有於互聯網或其他可存取途徑內,能獲得的高品質語言與圖像數據後,GPT-5 依然欠缺多達 10 萬億至 20 萬億的詞元缺口,才能訓練出有效的 LLM。Epoch 估計至 2028 年「高品質語言」供不應求的可能性高達 90%。
目前在公開互聯網中有意義與高品質數據,就如可被開採的石油一樣買少見少,大部分能夠輕易得到的數據與句字往往是殘缺不存,對訓練有效 LLM 毫無功用。在一般情況下,無論是私人用戶、商業機構以至社交網站,都不願意交出私人對話與數據來協助 LLM 模型訓練,預期這會令如日中天的 GenAI 科技發展帶來衝擊。