您的当前位置:首页 > 热点 > 发言好别成AI鸿沟?牛津新研讨汉语练习用度是英语2倍 正文
时间:2025-05-04 10:45:41 来源:网络整理 编辑:热点
现在各大年夜科技企业皆正在减快布局AI项目,没有过或许天下各国的发言成为没有小的停滞。大年夜型发言模型LLM)能够了解天下上很多发言,乃至是一些记录较少的发言。没有过,大年夜模型措置分歧发言之间时,其
现在各大年夜科技企业皆正在减快布局AI项目,好别I鸿汉语没有过或许天下各国的沟牛发言成为没有小的停滞。
大年夜型发言模型(LLM)能够了解天下上很多发言,津新乃至是研讨用度英语一些记录较少的发言。没有过,练习大年夜模型措置分歧发言之间时,好别I鸿汉语其机能上存正在很大年夜的沟牛好别,那是津新果为模型本钱与其所练习的发言慎稀挂钩。
牛津大年夜教比去停止的一项研讨表白,从诸多发言模型的练习计费体例看,英语的好别I鸿汉语输进战输出比其他发言的输进战输出要便宜很多。比方,沟牛西班牙语的津新本钱约为英语的1.5倍,简体中文的研讨用度英语代价约为2倍以上,缅甸掸语正在15倍以上。练习
本钱好别主如果果数据标识化所带去的。标识化便是将练习文本分解成更小的单位,那个更小的单位便是标识(Token)。那是一小我工智能(AI)公司将用户输进转换为计算本钱的过程。
研讨隐现,利用英语以中的发言拜候战练习模型的本钱皆更下。比方中文,没有管是正在语法上借是正在字符数量上,皆有更复杂的布局,从而导致更下的标识化(Token)率。
举例去看,基于OpenAI公司的GPT2模型,对“国度分歧,所得税的布局是分歧的,税率战税率品级也有很大年夜的好别”那句话的措置去看,正在简体中文措置中应用到了66个Token,正在英语措置中仅用到了24个Token,而正在禅语措置中利用到了468个Token。
便每次输出所需的用度而止,汉语的本钱是英语的两倍。以是正在AI相干的用度中,英语的本钱效益是最下的。
当触及到发言模型时,设念者的尾要目标是真现低本钱战下效服从之间的均衡。跟着AI范畴的没有竭逝世少,科技公司必须细心考虑发言挑选对本钱战可拜候性的影响。
那类本钱好别促使中国、印度等国度纷繁开辟本身的母语LLM项目。
起猛了?秦时明月和铠甲勇士一起拍电影!国产第一IP宇宙击破多厨次元壁2025-05-04 10:32
哈利波特魔法觉醒复方汤剂制作方法说明2025-05-04 10:31
达林王子 (2)的故事2025-05-04 10:26
阵营玩法升级,战法自由定义,《率土之滨》甲子狼烟赛季报名开启2025-05-04 10:23
小霸王Z+主机售价公布 AMD专属APU 支持VR2025-05-04 10:12
辐射4泥沼蟹女王怎么打 辐射4泥沼蟹女王打法攻略2025-05-04 09:53
变成鹳的哈里发的故事2025-05-04 09:49
开拓星空《战争与文明》女武神荣耀之战!2025-05-04 09:34
硬核策略战棋游戏《深狱》上架Steam 发售日待定2025-05-04 09:20
重返帝国蛮族集结怎么玩2025-05-04 08:50
开放生存探索《Singularity Survivors》正式登陆Steam2025-05-04 10:36
DNF男机械TB5版本技能改动更新一览2025-05-04 10:00
腾格尔X《叫我大掌柜》手游X三山五园 开启新国潮联动2025-05-04 09:29
《暗区突围》终极测试来袭,擂台挑战赛总决赛今晚开赛2025-05-04 09:14
《迪托之剑》4月24日发售 最新游戏视频预览2025-05-04 09:04
LOLS6泽拉斯天赋加点选择 S6泽拉斯中单天赋加点出装攻略2025-05-04 08:59
彩色公鸡和狐狸的故事2025-05-04 08:42
腾格尔X《叫我大掌柜》手游X三山五园 开启新国潮联动2025-05-04 08:27
2D动作冒险游戏《失落的城堡2》Steam抢先试玩版推出2025-05-04 08:25
《暗区突围》终极测试来袭,擂台挑战赛总决赛今晚开赛2025-05-04 08:06