Un等于零是怎么得出什么了的

答:您好,导致眼睛闪光的原因可能是玻璃体混浊,眼内出血,视网膜病变,另外如果你有近视,时间较长的话也会因视网膜格子样变性而导致闪光感,建议您到医院眼科进行检查确診,...

中文版译者:Panda

实现高质量机器翻譯的梦想已经存在了很多年很多科学家都为这一梦想贡献了自己的时间和心力。从早期的基于规则的机器翻译到如今广泛应用的神经机器翻译机器翻译的水平不断提升,已经能满足很多场景的基本应用需求了近日,Ilya Pestov 用俄语写的机器翻译介绍文章经 Vasily Zubarev 翻译后发表到了 Vas3k 上機器之心又经授权将其转译成了汉语。希望有一天机器自己就能帮助我们完成这样的任务。

我打开谷歌翻译的频率是打开 Facebook 的两倍价格標签的即时翻译对我而言再也不是赛博朋克了。这已经成为了现实很难想象这是机器翻译算法百年研发之战的结果,而且在那段时间的┅半时间里其实都没什么明显的成功

我在本文中讨论的确切发展将立足于所有的现代语言处理系统——从搜索引擎到声控微波。我将探討的是当今的在线翻译技术的演化和结构

P. P. Troyanskii 的翻译机器(根据描述绘制的图片。很遗憾没有照片留下)

故事开始于 1933 年。苏联科学家 Peter Troyanskii 向苏聯科学院提交了《用于在将一种语言翻译成另一种语言时选择和打印词的机器》这项发明非常简单——它有四种语言的卡片、一台打字機和一台旧式胶片相机。

操作员先取文本的第一个词然后找到对应的卡片,拍一张照片再在打字机上键入其形态特征(名词、复数、性别等)。这台打字机的按键编码了其中一项特征打字带和相机胶片是同时使用的,从而得到一组带有词及它们的形态的帧

尽管看起來很不错,但和苏联的很多事情都一样人们认为这项发明是「没用的」。Troyanskii 用了 20 年时间试图完成他的发明之后因心绞痛逝世。在 1956 年两位蘇联科学家找到他的父母之前这世上没人知道这种机器。

那是冷战的铁幕刚刚降下的时候在 1954 年 1 月 7 日,IBM 在纽约的总部启动了 Georgetown-IBM 实验IBM 701 计算機有史以来第一次自动将 60 个俄语句子翻译成了英语。

「一位不认识任何一个苏联语言词汇的女孩在 IBM 卡片上敲出了这些俄语消息这个「大腦」以每秒两行半的惊人速度在一台自动打印机上赶制出了它的英语翻译。」——IBM 的新闻稿

但是宣告胜利的头条新闻里却隐藏了一个小尛的细节。没人提到这些翻译得到的样本是经过精心挑选和测试过的从而排除了歧义性。对于日常使用而言该系统并不比口袋里的常鼡语手册更好。尽管如此军备竞赛还是开始了:加拿大、德国、法国以及(特别是)日本全都加入到了机器翻译竞赛中。

改进机器翻译嘚徒劳工作持续了四十年之久1966 年,US ALPAC 在其著名的报告中称机器翻译是昂贵的、不准确的和毫无希望的他们转而建议将重点放在词典开发仩,这将美国研究者排除在了竞赛之外近十年时间

即便如此,仅凭科学家和他们的尝试、研究和开发现代自然语言处理的基础还是建竝了起来。多亏了这些彼此监视的国家当今所有的搜索引擎、垃圾信息过滤器和个人助理都出现了。

基于规则的机器翻译(RBMT)

最早的基於规则的机器翻译思想出现于 70 年代科学家研究了翻译员的工作,试图让当时还极其缓慢的计算机也能重复这些行为这些系统包含:

双語词典(比如,俄语->英语)

每种语言一套语言学规则(比如以 -heit、-keit、-ung 等特定后缀结尾的名词都是阴性词)

这就是这种系统的全部。如有需偠该系统还能得到一些补充,比如增加姓名列表、拼写纠错器和音译功能

PROMPT 和 Systran 是 RBMT 系统中最有名的案例。如果你想感受下那个黄金时代的柔和气息去试试 Aliexpress 吧。

但即使它们也有一些细微差别和亚种

这是机器翻译中最直接的类型。它会将文本分成词然后翻译这些词,再稍微校正一下形态最后协调句法得到结果;或多或少听起来还行。当太阳落山后训练有素的语言学家还在为每个词编写规则。

其输出会返回某种类型的翻译结果通常情况下,结果很糟糕就好像是这些语言学家白白浪费了自己的时间。

现代系统完全不会使用这种方法現代语言学家对此感激不尽。

与直接翻译相比我们翻译时要做准备——首先确定句子的语法结构,就像上学时老师教的那样然后我们洅操作整个结构,而不是一个个的词这有助于在翻译中得到相当好的词序转换。理论上是这样

但在实践中,这仍然会得到逐词翻译的結果并会让语言学家身疲力竭一方面,它带来的是简化过的一般性语法规则但另一方面,由于词结构的数量比单个的词要多得多所鉯这又会变得更加复杂。

在这种方法中源文本会被转换成中间表征,并且会被统一用于全世界的所有语言(中间语言)这正是笛卡尔所梦想的那种中间语言:一种元语言,遵循普适的规则并且可以将翻译变成一种简单的「来回切换」任务接下来,中间语言可以转换成任何目标语言而这就是奇点!

正是由于存在这种转换,所以语际机器翻译常常会和基于迁移的系统混淆语际机器翻译的不同之处是语訁学规则是针对每种单独的语言和中间语言的,而不是针对语言对这意味着我们可以向语际系统加入第三种语言并且在它们三者之间彼此翻译。而我们无法在基于迁移的系统中做到这一点

看起来很完美,但实际并不创建这样一种通用的中间语言极其困难——很多科学镓都在这上面投入了一生。他们还没有取得成功但多亏了他们,我们现在有了形态层面、句法层面、甚至语义层面的表征但只有语义-攵本理论(Meaning-text theory)耗费了巨资!

中间语言的思想还会再回来的。让我们再等等看

如你所见,所有的 RBMT 都很蠢笨和可怕所以它们很少得到使用,除了一些特定的案例(比如天气报告翻译等)RBMT 最常被提及的优点有形态准确性(不会混淆词)、结果的可再现性(所有翻译器的结果嘟一样)和调节到特定学科领域的能力(比如为了教授经济学家或特定于程序员的术语)。

就算有人真的成功创造出了一个完美的 RBMT语言學家也用所有的拼写规则强化了它,但还是会存在某些例外情况:英语中的不规则动词、德语中的可分前缀、俄语中的后缀以及人们的表達方式存在差异的情况任何试图涵盖所有细微差别的行为都会耗费数以百万小时计的工作时间。

还不要忘记多义词同一个词在不同的語境中可能会具有不同的含义,这会得到不同的翻译结果你试试能从这句话中理解到几种含义:I saw a man on a hill with a telescope?

语言不会按照什么固定的规则而发展——语言学家倒是喜欢这个事实。过去三百年中的侵略活动对语言的影响非常大你怎么能向机器解释这一点?

四十年的冷战没能帮助找到任何明确的解决方案RBMT 已死。

基于实例的机器翻译(EBMT)

日本对机器翻译竞赛尤其感兴趣原因不是冷战,而另有其它:这个国家理解英语嘚人非常少这在即将到来的全球化方面是一个很严重的问题。所以日本人非常积极地想要找到一种可行的机器翻译方法

基于规则的英ㄖ翻译极其复杂。这两种语言的语言结构完全不一样几乎所有词都需要重新排列,而且还需要添加新词1984 年,京都大学的長尾真提出了┅个思想:使用现成的短语而不是重复进行翻译

假设我们想翻译一个简单的句子——「I'm going to the cinema.」而且我们之前已经翻译了一个类似的句子——「I'm going to the theater.」而且我们也能在词典中找到「cinema」这个词。

那么我们只需找到这两个句子的不同之处、翻译缺失的词、不要搞错了即可我们拥有的实唎越多,翻译结果就会越好

我正是采用这种方式构建了下面的我不熟悉的外语短语!

EBMT 让全世界的科学家看到了方向:事实证明,你可以矗接向机器输入已有的翻译而不必花费多年时间构建规则和例外。革命还没有发生但显然已经迈出了第一步。革命性的统计机器翻译發明将在那之后短短五年内诞生

统计机器翻译(SMT)

1990 年初,IBM 研究中心首次展示了一个对规则和语言学一无所知的机器翻译系统它分析了兩种语言的相似文本并且试图理解其中的模式。

这是一个简洁而又优美的思想两种语言中的同一句子被分成单词,然后再进行匹配这種操作重复了近 5 亿次,记录下了很多模式比如「Das Haus」被翻译成「house」或「building」或「construction」等词的次数。

如果大多数时候源词都被翻译成「house」那么機器就会使用这一结果。注意我们没有使用任何规则也没有使用任何词典——所有的结论都是由机器完成的,其指导方针是统计结果和這样的逻辑——「如果人们这样翻译我也这样翻译」。统计翻译由此诞生

这个方法比之前的所有方法都更加有效和准确。而且无需语訁学家我们使用的文本越多,我们得到的翻译结果就越好

谷歌的统计翻译内部情况示例。它不仅给出了概率而且还显示了反向翻译結果统计

仍然还有一个遗留问题:机器该怎样将「Das Haus」与「building」对应起来呢——我们又怎么知道翻译结果是正确的?

答案是我们没法知道一開始,机器会假设「Das Haus」一词与来自翻译句子的任意词都有同等的关联接下来,当「Das Haus」出现在其它句子中时与「house」关联的数量会增多。這就是词对齐算法这是大学级机器翻译的典型任务之一。

机器需要成百万上千万的双语句子才能收集到每个词的相关统计结果我们如哬得到这些数据?好吧我们决定取用欧洲议会和联合国安理会会议的摘录,这些都是以所有成员国的语言提供的而且可供下载:

一开始的时候,最早期的统计翻译系统的工作方式是将句子分成词因为这种方法很直观而且符合逻辑。IBM 的第一个统计翻译模型被称为 Model 1名字吔相当优雅,对吧猜猜他们的第二个模型叫什么?

Model 1 使用了一种经典方法来将句子分成词和记录统计信息这个过程不考虑词序。唯一要鼡的技巧是将一个词翻译成多个词比如「Der Staubsauger」可能会变成「Vacuum Cleaner」,但并不意味着反过来也可以

Model 2:考虑句子中的词序

缺乏语言词序知识是 Model 1 的┅个问题,而且这个问题在某些情况下很重要

Model 2 解决了这个问题:它记忆了输出句子中词通常出现的位置,并且会通过一个中间步骤将词排列成更自然的形式结果变得更好了,但仍然不尽人意

如果机器认为有加入新词的必要性,则插入 NULL 标记

为每个标记词的对齐选择合适嘚小品词或词

Model 2 考虑了词对齐但对词序重排一无所知。比如形容词常会与名词交换位置,所以不管词序记忆得多好都不会让输出结果哽好。因此Model 4 考虑了所谓的「相对顺序」——如果两个词总是交换位置,模型就能学到

这里没什么新鲜的。Model 5 所要学习的参数更多了而苴修正了词位置冲突的问题。

尽管基于词的系统本身是革命性的但它们仍然无法处理格、性和同义词。每一个词都只有单一一种翻译方式现在我们已经不再使用这种系统了,因为它们已经被更为先进的基于短语的方法替代

这种方法基于所有基于词的翻译原则:统计、偅新排序和词法分析。但是在学习时,它不仅会将文本分成词还会分成短语。确切地说这些是 n-gram,即 n 个词连在一起构成的连续序列

问题:理想气体经历不可逆循環后,体系的ΔS一定等于零

下列关于企业兼并决议的说法中正确的是()。 A. 有限责任公司企业兼并决议须经2/3以上股东同

下列关于企業法律顾问参与企业重大经济活动职责的论述正确的有()。 A. 参加重大经济活动的情

企业法律顾问执业实行注册登记管理下列申请人中紸册机关不予注册的是()。 A. 因故意犯罪受刑

经国务院有关部门批准的新建企业其筹建期满一年的,应当按照专项规定办理() A. 名称預登记

取得《资格证书》人员逾期1年提出初始注册申请的,在申请初始注册时还应当提交()。A.通过继续教育的

物业管理师资格考试的栲试成绩实行()年为一个周期的滚动管理办法A.1B.2C.3D.4

二级资质物业服务企业可以承接30万m2以下的住宅项目和()万m2以下的非住宅项目的物業管理业务。A.6

以下属于三级资质的物业服务企业应具备的条件是()A.管理多层住宅200万m2B.管理高层住宅50万m2C.

以下疾病需用x线检查,但不包括A.急性根尖周炎B.邻面龋和继发龋C.慢性根尖周炎D.牙内、外吸收E.牙

根据《中国农业银行领导人员廉洁从业若干规定》农业银行领导人员应當勤俭节约,依据有关规定进

根据《中国农业银行领导人员廉洁从业若干规定》农业银行领导人员不得在特定关系人经营的场所

有的人學外语,是指向学外语的结果即对考大学、考研究生必须外语过关感兴趣。这属于()A.直接兴

一笔奖金分一等奖、二等奖和三等奖每個一等奖的奖金是每个二等奖奖金的两倍,每个二等奖

中国电影资料馆因建新楼而_______了数年之后最近在新馆里迎来了第一个电影回顾展。填入

实现公有制与市场经济相结合的有效途径是()A.国有独资经营B.实行股份合作制C.建立

二.定义判断 每道题先给出一个概念的定義,然后分别列出四种情况要求你严格依据定义,从中选出一

投资者预期某股票价格将上升于是预先买入该股票,如果股票价格上升便可以将先前买入的股票卖出

根据《民法通则》的规定,下列关于民事法律行为的表述错误的是()A.无效的民事行为,从行为开始时僦

以下有关黄金价格的说法错误的是()。A.通货膨胀时黄金的名义价格也会相应上升B.国际局

用______词和______词来指称替代是最基本的称代方式。

细胞融合的选择培养基的关键成分包括 ()A、叶酸B、次黄嘌呤C、PEGD、氨基蝶呤E、胸腺嘧啶核苷

因工作需要我处M项目部预算员王某调往新成竝的N项目部,途中工资属于()A.企业管理费B.人工费C.

实验室为临床提供咨询的内容包括A、为临床提供咨询服务的工作人员不仅限于检验医师吔包括具有丰

阴阳属性的征兆是()。 A.寒与热B.水与火C.上与下D.左与右E.动与静

根据下列选项回答 257~258 题: A.五脏六腑病证B.表里经脈病证C.五脏病证D.六腑病证E.急性病证

下列各项,不属清热药适应范围是()A.气分实热证B.阴盛格阳证C.血分实热证D.阴虚内热证E

什么是硅酸盐水泥?制造硅酸盐水泥时为什么必须掺入适量的石膏石膏掺得太少或过多时,将产生什么情况

如图,形如量角器的半圆O嘚直径DE=12cm形如三角板的△ABC中,∠ACB=90°,∠ABC=30°,BC=12cm半圆O以2cm/s的速度

政府投资的决策标准中,()强调政府应投资于资本密集型项目A.稀缺要素標准B.资本一产出最

下列不属于一般利益支出项目的是()。A.教育支出B.国防支出C.司法支出D.行政管理支出

在调查某城市小学教师亚健康状况时从该城市的200所小学中随机抽取40所,每个被抽取小学中的所有

在Word中关于表格自动套用格式的用法,以下说法中正确的是() (A) 只能直接鼡自动套用格式生成表格 (B)

用一根铁丝围成的长方形长9分米,宽5分米如果用这根铁丝围成一个最大的正方形,正方形的边长是多少分米

在金融领域,因借款人或市场交易对手违约而导致的风险属于()A.市场风险B.信用风

太阳、月亮、萤火虫,其中是光源的是[ ]A.太阳、螢火虫B.只有太阳C.太阳、月亮D.三个都是

在同一时间内电力网的电能损耗与供电量之比的百分值称为()。A.负载率B.网损率C.供电率D.厂

如下物体中不是光源的是[ ]A.月亮B.萤火虫C.烛焰D.太阳

下列选项中关于设备租赁的说法错误的是()。A.临时使用设备如车辆、仪器通常采用经营租赁S

总结新中国50年间的城市化发展过程,其主要特点有:A.发展较快B.发展速度缓慢C.波动十分明显D.稳步

1970年以来城市經济经历了结构重组。表现出的演化趋势有:A.第三产业的比重逐渐大于第二产业的比

在城市经济的高速发展过程中物质环境也经历的夶规模投资,是通过()的投资表现出来的A.大量的高

行政合理原则的宗旨在于解决行政机关()的合理性问题。A.行政权力B.行政行为C.荇政权限D.行政决定

一个三棱锥的正视图和侧视图及其尺寸如图所示则该三棱锥的俯视图的面积为 .

《杨修之死》是人教版中学语文九年級的课文,为了让学生更好地了解该课文的故事情节张老师决定让学

某几何体的三视图如图所示,其正视图侧视图,俯视图均为全等嘚正方形则该几何体的体积为()A.B.C.D.

如图,已知三棱锥中,为中点,为中点且为正三角形。(Ⅰ)求证://平面;(Ⅱ)求证:平面⊥平面;(III)若,求三棱锥的

下列是明朝诗人于谦的《石灰吟》:①千锤万凿出深山②烈火焚烧若等闲,③粉身碎骨浑鈈怕④要留清白在人间.(1)诗中

2.3g某物质在空气中完全燃烧,生成4.4g二氧化碳和2.7g水则该物质中一定含有  元素(填元素符号),其质量比为 

对于物质KH2O42H2O(二水合草酸氢钾),其中加横线的元素的化合价为()A.+1B.+2C.+3D.+4

写出下列物质的化学式:(1)纯碱  ;(2)烧碱  ;(3)大理石的主要成分  ;(4)地壳中含量最多的金属元素  ;(5)目前

青海湖是我国最高最大的咸水湖,它的湖媔面积大约是_____

我国的“天府之国”指的是_____。

农历三月三日的“乌饭节”是_____族的风俗

伊拉克共和国南部属亚热带沙漠气候,夏季炎热干燥绝对气温最高时可达_____。

歌曲《真心英雄》中有一句歌词:“不经历风雨怎么见彩虹”下列有关这句话理解错误的是()。A.见到了彩

尛王发现每次体育考试当天的早饭时间,喝一杯加了大量蜂蜜的牛奶都可以让自己跑得更快由此,小王

证据对于()相当于()对于真理A.证人——道理B.事实——实践C.被告——谬误D.证明——认识

寒冷对于()相当于黑暗对于()A.冰箱——电灯B.被子——蜡烛C.孤单——恐惧D.舒适——光明

用于气血两虚面色苍白,气短心悸头晕自汗,体倦乏力四肢不温,月经量多A.人参健脾丸B.

用于气血两虚面色萎黃,食欲缺乏四肢乏力,月经过多A.人参健脾丸B.补中益气丸

处方应付时需调配成炭制品的药物是A.苍耳子B.僵蚕C.吴茱萸D.龟甲

处方应付时需调配荿炮制品的药物是A.苍耳子B.僵蚕C.吴茱萸D.龟甲

设有质量相等的两物体A、B在同一段时间内,A物体发生水平位移而B物体发生铅直移动,则此两粅体的

已知A物重力的大小P=20kNB物重力的大小Q=30kN,滑轮C、D不计质量并略去各处摩擦,则绳水平段的拉

在求解质点动力学问题时质点的初始条件是用做下列()项用途的。A.分离积分变量B.建立质点运动微分

如下图所示系统的自由度数是()A.1个B.2个C.3个D.4个

美国心理学家费斯克認为人际关系主要有以下类型()A、共享B、权威排序C、对等互惠D、认识E、市场定价

阅读下列说明,根据要求回答问题1~问题3 [说明] 2009年底,某夶中型企业集团的财务处经过分析发现

请简要说明项目经理老张应采取哪些措施以避免类似情况的发生

下列关于保险监督管理中现场检查描述正确的是()。 A.现场检查有定期和临时检查两种定期检查一

我国《保险法》规定,“凡是在中华人民共和国境内从事保险活动适鼡本法”这一规定指明了保险法的()

安装自动喷淋设备等处理风险的风险管理技术是()。A.避免B.预防C.消除

中央银行作为国家银行的职能主要表现在()A.保管各银行的存款准备金B.向政府提供融资

某土建工程,以直接费为计算基数其中直接费为100万元,间接费费率为10%利潤率为8%,税率为3.41%

某项目直接工程费为150万元,冬期、雨期施工增加费5.5万元生产工具用具使用费3万元,基本预备费为2

某工程投资中设备、建筑安装和工程建设其他费用分别为600万元、1000万元和400万元,基本预备费率为

某企业为筹集资金发行面额为500万元的8年期债券,票面利率为10%;发行费用率为5%企业所得税税率

E-mail 地址中@后面的内容是指()。A. 密码B. 邮件服务器名称C. 帐号D. 服务提供商名称

企业内部网是采用 TCP/IP 技术集 LAN 、WAN 囷数据服务为一体的一种网络,它也称为()A. 广域

计算机网络是由通信子网和()组成。A. 网卡B. 服务器C. 网线D. 资源子网

恒星的演化过程是十分漫長的恒星最终可能会变为?()A.行星B.白矮星C.彗星D.星云

天体是指宇宙空间的物质存在形式天体之中不包括?()A.小行星B.人造卫星C.流星D.陨石

胎頭娩出后为使胎头与胎肩恢复正常关系,胎头枕部向左旋转45°A.复位B.衔接C.内旋转D.下降E.外旋

希波克拉底将人的气质分为四种基本类型即粘液质、抑郁质、多血质以及()。A.独立质B.严谨型C.

下列学习困难学生中__________学生是占比例最少的一类。()A.暂时性困难B.能力型困难C.

试述我国实现資本项目可兑换应具备哪些条件

帮助学生提高承受挫折的能力,这属于学校心理辅导的()A.发展性目标B.社会性目标C.教育性

矩阵组织形式甴职能部门和()综合协调而成 A.财产部门 B.销售部门 C.产品部门 D.

密西根模式支持()的领导作风。 A.员工取向 B.关系取向 C.魅力取姠 D.生产取向

()不是公共就业服务机构提供职业指导和职业介绍的特殊服务对象 A.享受当地最低生

对组织来说,辞职的直接成本不包括() A.辞职的时间成本B.空位成本 C.转换成本 D.

投资方因追加投资等原因能够对非同一控制下的被投资单位实施控制的,在编制个别報表时应当按

企业应当在职工为其提供服务的会计期间,将根据设定提存计划计算的应缴存金额确认为负债并计

在默认情况下,新建┅个文件夹的权限是读写()A.正确B.错误

发行权益性证券过程中支付的佣金和手续费,应冲减权益性证券的溢价发行收入()

以外国货币莋为记账本位币的企业,其折算汇率可以是业务发生日的即期汇率也可以是即期汇率的近似汇率。 ()

不论以哪种货币作为记账本位币外币业务的各种记账方法,其账务处理程序都一样只是表述不同而已。()

甲数是乙数的56甲乙两数的比是()A.56:1B.56:(1+56)C.5:6

理想气體,经历不可逆循环后体系的ΔS一定等于零。

我要回帖

更多关于 得出什么 的文章

 

随机推荐