如果有一个人工智能英语老师鈈仅能随时给你的英语作文打分,而且还可以给出改进建议是不是很妙?
近日在微信公众号平台上线的一款名为“爱写作”的产品就提供了这样的功能,PingWest品玩和它背后的微软开发团队聊了聊听他们讲了讲这个人工智能老师究竟是如何工作的。
AI 批改英文作文效果几何
艏先我们来通过例子来看看它的具体表现如何。
“爱写作”的功能分为 3 块分别是作文打分、语法纠正和词语替换。
这项服务最早可追溯箌 2018 年微软亚洲研究院开发的英语学习服务“微软小英”,上线作文打分功能2019 年 12 月,微软将其升级之并命名为“爱写作”,首先在网頁端上线
我们以一篇高三英文作文为例,看看“爱写作”的实际效果
通过右边检查结果,可以清晰看到这篇英文作文在高考评分标准下,拿到了 24 分(满分 25 分)有 5 处语法错误,建议替换 12 处
打分模块不仅只呈现一个数字,还给出了所衡量的维度
“爱写作”能根据不哃考试类型来打分,用户在批改前可自行选择众所周知,每个学段考试对应总分是不一样的。比如高考英语作文满分是 25 分六级是 106.5 分,而雅思是 9 分
除了语法纠正,“爱写作”还能通过词语替换来润色作文词语替换是指,机器给出更高级的用词建议由用户决定要不偠替换。
AI 是怎么改英文作文的
在作文打分上,“爱写作”采用了微软亚洲研究院研发的序数回归模型
据微软亚洲研究院文章,作文打汾是一种主观行为要转化为机器打分,需要大量有标注的数据而序数回归模型大大减少了对标注数据量的依赖。
这项技术把“文章与具体分数的匹配”问题变成了一个有序的比较大小的问题。
在训练过程中将已有的标注数据两两配对进行对比,进而形成新的文章与評分再将此数据加入到标注数据集中,使得可用于训练的标注数据量呈指数级增加从而整体提高了评分的准确性。
(作文打分的方向囷维度)
语法纠正方面“爱写作”同样用到了微软原创的模型。
“语法纠正和机器翻译在技术上有一定相似性”微软亚洲研究院资深開发经理夏炎介绍,“不管是用户写的文章还是机器翻译出来的,都要判断这个句子的语法正确性和语言流畅度”
早在 2018 年 8 月,微软亚洲研究院就发表文章介绍了一种用于语法纠正的全新学习和推断机制——“流畅度提升学习与推断”(Fluency Boost Learning and Inference)。
该机制基于自然语言处理领域非常流行的 seq2seq 模型据微软亚洲研究院文章,对于一个用于语法改错任务的 seq2seq 模型其基本的训练数据为,一个原始句子和正确句子所组成嘚改错句对如下图(a) 所示。
从理论上讲只要有大量的训练数据,就能得到一个相对完美的语法改错模型
然而实际上,这种改错句对的數量规模相当有限“我们在做 AI 模型研究时,第一个困难就是训练数据和样本的生成及获取”夏炎说。
因此在训练数据并不充足的情況下,seq2seq 模型泛化能力会受到影响导致哪怕输入的句子稍稍变动一点,模型也可能无法将其完全改正如上图 (b) 所示。
此外对于一个含有哆个语法错误的句子,单次的 seq2seq 推断往往不能完全将其改正在这种情况下,需要用多轮 seq2seq 推断来对一个句子反复修改如上图 (c) 所示。
为了改進 seq2seq 模型的不足微软亚洲研究院提出了“流畅度提升学习与推断”机制。这一机制可细分为两部分分别是“流畅度提升学习”和“流畅喥提升推断”。
“流畅度提升学习”是指在训练模型的过程中让 seq2seq 模型生成多个结果,然后将流畅度不如正确句子的生成句子和正确句孓配对,组成全新的流畅提升句对作为下一轮训练的训练数据。
“中间这些结果都是机器自动生成的有的流畅度很高,有的流畅度很低”夏炎说,“我们可以把流畅度低于最终结果句子都拿过来作为训练样本这样数据收集工作就大大减轻了,是一个很有意义的改进”
“流畅度提升推断”则是利用 seq2seq 模型对句子进行多轮修改,直到句子流畅度不再提升为止
这种多轮修改策略能够率先改掉句子一部分語法错误,从而使句子上下文更加清晰有助于模型修改剩下的错误。
像下图的例子里机器会先把第一句改成第二句,把“is catched”换成了“caught”有一定进步,但还没使得整个句子的语法完全一致因为后面还有“last night”,需要把主语时态“sees”改成“saw”
经过第二次修改后,结果已經没有毛病但机器还会进行第三次修改。改完后句子流畅度已经没有新改变。
“这个时候我们可以认为语法纠正的流程结束了。”夏炎说“这其实也是人在批改一篇文章时常见的场景,先把一些容易发现的错误改掉然后再仔细地读一遍,又发现一些错误需要循環几次。”
词语替换功能则是基于预训练语言模型预训练语言模型是自然语言处理的新范式:使用大规模文本语料库进行预训练,对特萣任务的小数据集微调降低单个自然语言处理任务的难度。
2019 年微软提出了一种新的预训练语言模型 UniLM。在“爱写作”上这个模型可以通过半遮盖原单词的策略,建议更符合表达者预期的替换词语
“对于词语替换场景,直接用业界流行的 BERT 模型其实是不太合适的”夏炎告诉 PingWest 品玩,“这个模型只考虑语法正确性得出的结果不一定符合原词的观点和想法。”
没有遮盖住目标词(keep target word)的 BERT 模型会给出词义高度楿关,但实际不太适合的替换词:“stronger”、“strongly”、“hard”和“much”
完全遮盖住目标词(mask target word)的 BERT 模型,输出了“hot”、“thick”、“sweet”和“much”这些词在語法上都是对的,但跟目标词的意思相比差别还是比较大。
“我们的做法是通过半遮盖策略,把词中一部分信息隐含掉然后让模型詓预测,机器输出了‘tough’、‘powerful’、‘potent’和‘hard’这些词”夏炎解释道,“‘powerful’这个词词义跟原来单词接近,又没有简单把‘strong’变成其他形式如‘stronger’或‘strongly’。”
得到替换词列表后“爱写作”还会进行排序,最终把最适合的单词呈现在最上面
最后,“爱写作”还有微软洎研的新一代 OCR 引擎能检测出图像中的各类文字,同时支持打印体和手写体的复杂文字场景识别
“总而言之,‘爱写作’主要应用了自嘫语言理解技术相较于语音识别和图像处理等感知层面技术,自然语言理解是 AI 在认知层面要解决的最核心问题之一让机器理解人类语訁是非常难的。”夏炎说“在‘爱写作’中,我们用了很多自然语言处理领域内的经典任务并且针对写作这个场景优化模型。”
目前“爱写作”更多是根据用户语法和用词去做打分。夏炎告诉 PingWest 品玩未来会研究一些新算法和模型,让“爱写作”不止能分析用户的语法錯误还可以更深层地理解作文的结构和组织形式。“如果机器能理解用户写作意图就可以帮助他在内容组织上进行优化,这是 AI 辅助写莋的另一个场景”
此外,据微软亚洲研究院文章语法纠正技术还可以被用在英文写作之外的更多场景,比如电子邮件、PPT 演示文稿、翻譯文件等