埃及程序员阿塞姆·萨布里(Assem Sabry)一直希望有一款能够体现本国文化的人工智能模型,但在现有产品中始终找不到合适选择。他表示,埃及“几乎不存在”本土人工智能产业,于是决定自行开发模型,并将其命名为 Horus——取自古埃及天空之神。
萨布里称,他的目标是摆脱对“美国或中国模型”的依赖,探索一个以埃及文化为中心的模型应当具备何种特征。为训练 Horus,他使用了 Google Colab 及其他云服务提供商的 GPU,并依托开源数据集进行训练。该模型于今年四月初发布,在 Hugging Face 平台上线首周下载量超过 800 次。
萨布里并非个例。越来越多开发者开始尝试纠正人工智能在语言和文化上的长期不平衡。当前主流大模型在英语方面表现最为成熟,在中文上也具备较强能力,但对大多数其他语言的支持明显不足。许多被技术行业视为“少数语言”的语种,实际上是全球大量人口的日常用语。
研究人士指出,这一局面与模型训练方式和产业结构密切相关。大模型通常依赖大规模网络抓取数据进行训练,而互联网上英语内容占据主导地位,加之科技企业在商业上优先布局英语市场,使得其他语言在技术发展中被边缘化。
2023 年,研究员阿利娅·巴蒂亚(Alya Bhatia)与民主与技术中心的一位同事发表研究指出,非标准语言在大型科技公司推动的“平滑效应”和商业激励下,正“迷失在翻译中”。报告称,在各家公司争相部署人工智能的过程中,英语被优先支持,而训练数据有限等因素导致其他语言的差距长期未获实质性弥合。
多年来,经济考量进一步放大了这一问题。训练大模型成本高昂,而面向使用人数较少或市场规模有限的语言开发产品,往往缺乏明确的商业回报预期。

近期,这一格局开始出现松动。地方化大型语言模型的兴起,以及大型人工智能公司收紧令牌(token)使用限制,为小型参与者提供了切入空间。萨布里表示,两年前人工智能技术水平尚不如现在,且主流大模型并未开源,如今“已经可以真正从零开始构建自己的人工智能模型”。
不过,现实障碍依然存在。巴蒂亚指出,在计算能力、基础设施和资金方面仍存在“巨大的障碍”,这些因素叠加后,对本地化项目构成持续压力。但她同时认为,近一段时间的进展已经相当明显。
目前出现的并非一个统一成型的全球生态,而是一张由各地本地化模型拼接而成的“碎片化版图”:瑞士的 Apertus、拉丁美洲的 Latam-GPT、尼日利亚的 N-ATLaS、印度尼西亚的 Sahabat-AI、新加坡的 SEA-LION、越南的 GreenMind、泰国的 OpenThaiGPT,以及面向欧洲的 Teuken 7B 等。这些项目为 OpenAI、Anthropic 和阿里巴巴等主导模型提供了替代选项。
其中部分项目仍属草根性质,例如萨布里的 Horus;另一些则获得机构支持。Apertus 由瑞士两所大学与瑞士国家超级计算中心合作开发,后者为项目提供了逾一千万 GPU 小时的算力支持,相当于数千万美元规模的商业计算资源。
多数本地化项目的体量远小于此,但在相对有限的预算下完成训练和部署,正在改变计算资源的使用方式。以 Meta 的 Llama 3.2 为例,该模型经过微调,基于 14,500 对印度法律语言示例进行训练,自四月初以来下载量刚刚超过 1,000 次。尽管受众相对小众,但项目被视为在此前难以通过经济性论证的细分领域内迈出的一步。
早期使用情况显示,主流语言和主流产品之外仍存在实际需求。这一趋势也对大型人工智能公司提出了新的问题。巴蒂亚表示,这些替代方案表明,只要主要厂商愿意借鉴相关经验,就有可能构建更能代表全球多数用户及其语言的系统。
