什么是推广型网站,最好用的手机编程软件,后端低代码平台,广州哪家网站建设最好摘要#xff1a; 跨境电商市场越来越大#xff0c;商家们也遇到了新问题。以阿里巴巴国际站为例#xff0c;七成买家以英语沟通#xff0c;剩下三成的小语种#xff0c;却难住了平台上近96%的卖家。 “翻译和本地化都做不好#xff0c;说明你对海外市场根本不重视#x…摘要 跨境电商市场越来越大商家们也遇到了新问题。以阿里巴巴国际站为例七成买家以英语沟通剩下三成的小语种却难住了平台上近96%的卖家。 “翻译和本地化都做不好说明你对海外市场根本不重视还想怎么品牌出海”一米八大高个的李兮芝语速极快说话从不绕弯。
跨境电商市场越来越大商家们也遇到了新问题。以阿里巴巴国际站为例七成买家以英语沟通剩下三成的小语种却难住了平台上近96%的卖家。
“翻译和本地化都做不好说明你对海外市场根本不重视还想怎么品牌出海”一米八大高个的李兮芝语速极快说话从不绕弯。
李兮芝是阿里巴巴国际贸易事业部ICBU阿里语言服务总经理对商家的痛点了如指掌。讲到最棘手的案例他会立刻站起来抄起一支笔在会议室的白板上演示一番。 阿里巴巴国际站用户沟通语言现状
坐在李兮芝一旁的骆卫华语速要慢许多。2014年1月中科院计算所出身的骆卫华加入了阿里如今是阿里巴巴达摩院翻译平台负责人。
今年5月在全球机器翻译领域影响最大、水平最高的WMT2018评测中骆卫华带领的翻译技术团队一举拿下5个语言方向的冠军成为比赛的最大赢家。
与谷歌、微软、百度等做不区分场景的通用翻译不同阿里选择在电商场景的翻译上发力。目前阿里机器翻译已支持21个语种的48个语言方向的翻译日均使用量已达到7.5亿次。除了支持离线及文字翻译还支持实时语音、图片以及视频翻译应用于阿里巴巴国际站、速卖通、LAZADA、菜鸟、阿里云、钉钉、飞猪等40多个业务部门。
“首先在电商场景下我们要把机器翻译做到最好。”骆卫华说但在未来将不局限于电商翻译。
没有硝烟的“军备竞赛”
《圣经》旧约中人类曾联合起来搭建通往天堂的高塔上帝为了阻止这一计划让人类说上不同的语言。没过多久无法沟通的人类便四散而去。
回溯机器翻译的源头不难发现这是一场为了再造《圣经》中“通天塔”而展开的“军备竞赛”。
冷战时期苏联和美国的科学家就曾在机器翻译上有过几番较量。当时机器翻译领域的主角是懂得英俄双语的语言学家他们试图为计算机编写出一套双语规则。“但问题是规则和规则之间存在大量冲突在实际应用中会出现大量异常情况。”
骆卫华说很长一段时间机器翻译都被局限在编写规则的泥淖中直到上世纪90年代才被IBM Watson研究中心提出的统计机器翻译所取代程序员开始取代语言学家站上了机器翻译领域的主舞台。
2014年蒙特利尔大学计算机系博士后Kyunghyun Cho等人关于将人工智能底层模型“神经网络”应用于机器翻译的论文又一次吹响了翻译技术革命的号角。这一年各大互联网公司开始大举投入诸多优秀的学者和学生陆续加入谷歌、亚马逊、脸谱和BAT。
在中科院学习和工作近12年的骆卫华在“纠结一段时间后”也决定跳出学术圈选择加入阿里去实现将技术真正落地的梦想。“以前在实验室的主要任务是发paper论文做课题只有这个领域的人才会关心但现在每天有几千万人在实际使用你的产品这种感觉是完全不一样的。” 2014年骆卫华加入阿里
不同于大多数在通用翻译领域厮杀的玩家阿里机器翻译团队以核心电商场景为起点为整个国际化业务提供本地化解决方案。
“项目很多得排期。比如2、3月做钉钉的项目4、5月要做速卖通项目。”骆卫华说除此之外团队还会时不时会接到十万火急的需求。比如去年双11之后团队曾用两个星期与菜鸟团队一起加班加点编写了一套报关自动翻译产品“后来菜鸟评估说整个报关成本下降了90%。”
难的不止是翻译
说到机器翻译除了算法模型大量的样本数据是非常重要的。这也恰恰是阿里的优势所在。
“举个例子‘Photo Print’这个词在通用语境下会被翻成‘照片打印’但你知道它在纺织面料行业里是什么意思吗”李兮芝接着说“这是‘热转印印花’工艺的一种翻成照片打印就贻笑大方了。”
阿里本身沉淀了大量电商领域相关的数据机器翻译团队进一步梳理出10亿级别的双语平行语料、亿级别的电商双语平行语料、千万级电商知识库以及大规模行业多语言术语库。
然而语言上的准确翻译只是第一道难关更困难的是通过算法实现文化、法律、经济、宗教等层面的本地化落地。
一个案例让李兮芝印象深刻。“同样是10万英美国家千位分隔符用逗号标成‘100,000’但法国、西班牙的千位分隔符是句号逗号用来标小数点10万在法国得标成‘100.000’如果标成‘100,000’就表示是100了。”这类大额数字在阿里巴巴国际站经常出现曾经出现过中国卖家因为没有将数字本地化而被买家投诉的情况。 阿里巴巴ICBU语言服务总经理李兮芝
今年4月主打男装的国内服饰品牌英爵伦加入了阿里旗下的东南亚电商平台Lazada上的“淘宝精选”Taobao Collection计划。Lazada通过自动抓取天猫店的产品帮助品牌拓展东南亚市场。“我们天猫店商品标题是全中文的没想到Lazada能自动翻译成英文。”英爵伦跨境电商负责人刘晨芳说“最重要的是机器自动翻译的英文品牌名‘Enjeolon’和我们真实的英文名分毫不差太神奇了。” 英爵伦发现品牌名英文名翻得分毫不差
刘晨芳不知道的是Lazada这套自动翻译系统也是由阿里巴巴机器智能翻译团队开发出来的。翻译系统还改写了标题让产品描述看上去更加接地气。
“淘系商品标题没有固定格式由N个热搜词组成但不是一个完整的句子。要是直接翻译海外消费者压根看不懂。”李兮芝说这种没有上下文信息的标题翻译不论对人还是对机器都是极大的挑战。“我们曾经找来专业人工译员翻译标题结果译员翻到一半不干了根本看不懂。”
后来团队通过融合多种自然语言处理和文本生成技术攻下了商品标题改写的难题。像英爵伦这样的中国品牌不用担心Lazada上的东南亚买家会因为看不懂标题而放弃购买商品。
今年5月阿里巴巴正式上线对话实时翻译功能这也是全球电商领域的首个实时翻译AI产品。“无障碍的跨语言沟通明显增加了阿里巴巴国际站的用户粘性。我们期望卖家不再需要为了做某一个国家的生意而专门聘请会那国语言的专职人员。”李兮芝说。除了用户体验的提高阿里机器翻译还为旗下国际电商平台带来了明显的流量、转化率和购买率增长。 阿里巴巴实时翻译系统
“机器翻译是块非常难啃的骨头。但如果我们真要实现全球买、全球卖就必须要花精力去做。”李兮芝说。
解放而非替代人工翻译
今年5月23日WMT2018国际机器翻译大赛首次参赛的阿里巴巴达摩院机器智能-NLP翻译团队拿下5项冠军包括英文-中文翻译、英文-俄罗斯语互译和英文-土耳其语互译项目。 阿里巴巴达摩院机器智能-NLP翻译团队
作为全球最具权威、已举办13次的机器翻译大赛WMTWorkshop on Machine Translation成为了各大科技公司和学术机构的竞技场。2018年的大赛竞争格外激烈吸引了霍普金斯大学、爱丁堡大学、微软、阿里、腾讯、小牛翻译等几十个机器翻译团队参与。
“WMT大赛的文本主要是新闻题材参赛团队要在截止日期内上传机器翻译的成果。”骆卫华说。竞争很激烈整个行业提升也特别快例如在竞争最激烈的英中翻译任务去年最好的成绩在今年可能已经排不到前几名了。
“中英翻译还好起码我们知道哪里翻得有问题。但像土耳其、俄罗斯语这样的小语种我们完全看不懂只能完全拼算法、拼模型。”骆卫华说在小语种机器翻译领域以前一直是由国外的公司与科研机构一直保持领先地位。“小语种的双语语料是很稀缺的但阿里全球化的目标要求我们必须从技术层面做突破用更少的数据在专业领域上翻得更准确。”
谈到机器翻译和人工翻译的关系骆卫华和李兮芝都赞同一个观点阿里的机器翻译最终的目的不是为了替代专业而是为了解放专业的人工翻译。
随着机器翻译技术的不断突破传统人工翻译正逐渐变为一个“搬砖”行业充斥着大量重复低效的劳动。“1995年翻译一篇1000字的中到英文本译员的收入可达600元人民币。”李兮芝说但在今天同样字数的文本甚至低到只有50元的收入。
低廉的人工翻译报酬正在把专业译员推向价格更高的专业技术翻译领域。然而这些领域的文本由大量专业术语和范式行文构成。“人类不擅长记忆专业词汇但机器擅长。”李兮芝说人工翻译的长处在于“创造性的智慧”以及对文化背景的深刻了解。“翻译讲究信达雅机器目前最多能做到‘信’和‘达’像文学翻译、口语俚语、本地化的惯用表达等等还是需要人工翻译。”骆卫华说。
今年1月阿里巴巴国际站向平台所有供应商免费开放了一款AI实时翻译系统。商家输入的语音或文字能自动转变为翻译好的目标文本。为了增强翻译的准确性加入人工修正的干预功能。比如商家如果有更地道的表达方式可以进行翻译订正以弥补神经网络翻译系统现阶段存在的问题。
下一步阿里机器翻译在迭代优势电商场景的同时还将向新的领域拓展同时完善产品矩阵支持文本、语音和图像等多模态翻译并最终对外开放API。“我们希望把阿里巴巴全球化过程中的经验沉淀下来最后打包输出赋能给整个社会。让商业没有语言障碍让天下没有难做的生意。”李兮芝说。