📝📝:人才多、英文好,為什麼印度沒造出世界級 AI?|數百種在地語言成為最大阻力

本文參考自《麻省理工科技評論》(MIT Technology Review)的文章《Inside India's scramble for AI independence》
2025 年初,當 DeepSeek-R1 正式發表的那一刻,印度科技圈瞬間掀起波瀾。這款中國開發的 AI 模型,以遠低於西方同類產品的資本與時間成本,達成了可與世界頂尖模型匹敵的性能標竿。
對印度 AI 社群而言,這不只是又一場產品發表會而是一記警鐘,清楚指出印度在全球 AI 競賽中的潛力與現實落差。
印度 AI 建設者的兩種反應,恰如其分地反映出這個國家與人工智慧發展之間複雜的關係。印度當地的開源新創公司 CognitiveLab 創辦人 Adithya Kolavi 從 DeepSeek 的成功中汲取靈感:
「這正是資源有限也能顛覆現狀的方式。如果 DeepSeek 做得到,我們為何不能?」
與此同時,多語言 AI 模型 Pragna-1B 的開發者 Abhishek Upperwal 則因資金匱乏導致項目受挫而感到遺憾:
「如果我們兩年前就獲得資金,也許現在打造出這款產品的就是我們。」
這兩種觀點的對比,呈現了印度在實現 AI 開發上所面臨的更大挑戰。儘管印度是全球科技重鎮、擁有人才優勢,但在本土 AI 發展方面卻長期落後於美國與中國。
高度仰賴服務業,而非新創
印度在 AI 發展上的困境,來自其傳統優勢與尖端 AI 研究所需條件之間的基本錯位。
印度的科技產業是以「服務導向」的模式發展起來的,像 Infosys 與 TCS 等 IT 巨頭的成功,依賴的是高效的軟體交付流程,而非技術上的突破創新。這種模式雖在經濟上卓有成效,卻也形塑出一個創新既不被優先考慮,也缺乏足夠獎勵機制的產業生態。

印度的研發支出僅占 GDP 的 0.65%,相當於 2024 年的 254 億美元;相比之下,中國為 2.68%(4762 億美元),美國更高達 3.5%(9623 億美元)。在研發投入長期不足的情況下,印度未能建立起發展深層科技(從高階演算法到專用晶片)所需的制度性能力。
雖然在國防研究發展組織(DRDO)與印度太空研究組織(ISRO)等政府機構中仍存在世界級的研究成果,但這些技術突破極少能轉化為民用或商業應用。與美國的 DARPA(國防高等研究計畫署)不同,後者能有效將高風險研究與商業化道路相連結,但印度缺乏能將研究成果推向市場的制度橋梁。
人才外流問題更是雪上加霜。印度頂尖的 AI 專才大量外流,流向更懂得資助深科技研發、也更具吸引力的海外生態系。這場人才的流失,進一步削弱了印度在全球 AI 領域的競爭力。
多達 22 種官方語言
除了資金與制度障礙,印度還面臨一項其他國家極少遭遇的特殊挑戰:語言多樣性極其龐大。
印度擁有 22 種官方語言、數百種方言,以及數以百萬計的多語言使用者,這樣的語言環境對現有大型語言模型(LLM)構成了極高挑戰。印度的憲法在第八附表(Eighth Schedule)中,列出了 22 種受到保護的法定語言,分別是:
阿薩姆語(Assamese)
孟加拉語(Bengali)
博多語(Bodo)
多格拉語(Dogri)
古吉拉特語(Gujarati)
印地語(Hindi)
坎納達語(Kannada)
克什米爾語(Kashmiri)
孔卡尼語(Konkani)
邁蒂利語(Maithili)
馬拉雅拉姆語(Malayalam)
曼尼普爾語(Manipuri)
馬拉地語(Marathi)
尼泊爾語(Nepali)
奧里亞語(Odia)
旁遮普語(Punjabi)
梵語(Sanskrit)
桑塔利語(Santhali)
信德語(Sindhi)
泰米爾語(Tamil)
泰盧固語(Telugu)
烏爾都語(Urdu)
這些語言被認可,在印度各邦和中央政府的官方事務中都具有一定的地位和使用權。

儘管印度人普遍英文不錯,也有大量高品質的英文網路資料,但印度語言在網路上的內容總量卻不到 1%。
對於如「博杰普爾語」(Bhojpuri)或「康納達語」(Kannada)這類語言而言,幾乎找不到數位化、標註齊全、經過清理的語料。這使得訓練能夠理解印度人實際溝通方式或搜尋行為的 LLM 變得極為困難。
技術層面也問題重重。現有能將文字切割為 AI 可處理單元的技術的分詞器(tokenizers),面對印度各種文字系統時表現不佳,常常誤解或遺漏字符。即便某些多語言模型納入了印度語言,表現通常也很差,產出內容不準確或語義錯亂。
印度語言的複雜程度更甚於英文。
許多語言使用拼寫複雜的文字與黏著語法(agglutinative grammar),詞彙由眾多前後綴結合而成,承載的資訊量巨大。
印度許多語言不同於英文,沒有明確空格分詞且語法結構較單純,像印地語(Hindī)、泰米爾語(Tamiḻ)等語言往往詞與詞之間缺乏明確邊界,單一詞彙即含有多重語意。
這些元素的堆疊都讓標準分詞器難以正確處理,導致詞彙被拆解為過多片段,使模型理解困難、反應準確率下降。
IndiaAI 計畫:全方位戰略藍圖
2025 年 4 月,印度政府目標在 2025 年底前開發六個大型語言模型,並推出另外 18 項針對關鍵領域(如農業、教育與氣候行動)的 AI 應用。最值得注意的是,政府選定 Sarvam AI 開發一個專為印度語言與本地需求優化的 700 億參數模型。
此項行動屬於更宏大的「IndiaAI 計畫」的一環。該計畫於 2024 年 3 月啟動,總預算達 12.5 億美元,目標是建構印度核心的 AI 基礎設施,並讓先進工具更廣泛可得。

IndiaAI 計畫由電子與資訊科技部(Ministry of Electronics and Information Technology, MeitY)主導,此計畫聚焦於支援 AI 新創企業,尤其是那些開發印度語言基礎模型,並將 AI 應用於醫療、教育與農業等關鍵領域的公司。
在運算資源計畫下,政府正部署超過 18,000 顆 GPU,包括近 13,000 顆高階 H100 晶片,提供給一批精選的印度新創公司使用;包括 Sarvam、Upperwal 的 Soket Labs、Gnani AI。此任務同時涵蓋其他重要規劃,包括建立全國多語言資料集庫、在中小型城市設立 AI 實驗室,以及資助深科技(deep-tech)研發。
根據 IndiaAI 執行長、同時為 MeitY 官員的 Abhishek Singh 表示,印度針對深科技的全面推動,預期在未來五年內帶來約 120 億美元的研發投資。
Abhishek Singh 強調,IndiaAI 計畫本身預估將挹注約 1.62 億美元,當中約 3200 萬美元專門用於直接資助新創企業。另有「國家量子任務」(National Quantum Mission)將投入 7.3 億美元,支援印度的量子研究雄心。

此外,2025–26 年度的國家預算文件中,亦宣佈設立一項總額 12 億美元的「深科技基金母基金」(Deep Tech Fund of Funds),目標是促進私部門早期創新的活力。
其餘的 99 億美元資金,預計來自私人與國際來源,包括企業研發投資、創投公司、高資產個人、慈善組織,以及如 Microsoft 等全球科技領導企業。
專精特定層級的技術
隨著印度的 AI 野心逐漸明朗,更廣泛的戰略討論也隨之展開。在邦加羅爾舉辦的 Meta 高峰會上,Infosys 主席 Nandan Nilekani 呼籲印度應避免追隨「仿製的 AI 夢想」。
「讓矽谷的巨頭去做吧,」Nilekani 針對大型語言模型的建構如此表示。
「我們的角色應該是用來創建合成資料,快速建構小型語言模型(small language model),並以合適的資料進行訓練。」
他的觀點雖然引起分歧,但也逐漸凝聚共識:
印度是否應該選擇一條與全球強權截然不同的 AI 發展路線。
「想要主宰每一層技術堆疊是不切實際的,即便對中國也是如此,」印度政策智庫 Takshashila Institution 研究員 Shobhankita Reddy 指出:
「重點在於主導某一層級,例如應用、服務或人才培育,確保你在全球 AI 鏈中不可或缺。」
喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!

- 来自作者
- 相关推荐