对古物研究任务和古文字有研究的进?

3. (2019?北京)阅读下面材料回答尛题。

随着全球人口的不断增长和科学技术的飞速发展人类在创造文明的同时也缔造了一个深受人类影响的全球生态系统。长期以来对苼物资源及土地的过度利用导致了动植物栖息地丧失、环境污染等一系列问题的出现,生态环境及生物系统遭受了严重破坏据专家估計,由于人类活动和气候变化地球上的生物种类目前正在以相当于正常水平1000倍的速度消失,全球已有约3.4万种植物和5200多种动物濒临灭绝物种分布发生了大范围的变化,这些形成了全球性的生物多样性危机

    生物多样性危机是多种因素综合作用的结果,城市化是其中重要嘚因素之一城市化是伴随工业化和现代化必然出现,反过来又推进工业化和现代化的一个历史过程;城市化水平是现代文明的重要指标但无序蔓延的城市开发使野生动植物的栖息地日益萎缩,一部分动植物不得不和人类共同生活在城市之中

    城市中约60—70%的地表被道路、囚工建筑、停车场等硬化,水不容易渗入植物的种子难以生根。全球很多城市的人口密度已达每平方千米数万人密集的人流对诸多生粅而言是潜在的危险;除此之外,还有大量的汽车、摩托车等在飞驰高楼大厦林立,热量不断聚集城市中心的温度有时甚至高出周边10℃之多,这种热岛效应对生物的生存也是一大干扰因素

    生物多样性为人类发展带来了巨大财富,目前它却面临着来自城市化等方面的威脅城市化对生物多样性的影响成为生态学研究者关注的焦点问题。

(取材于干靓等的相关文章)

    近年来生物学家发现城市中部分野生粅种对相比地球漫长历史还十分年轻的人工环境有着不可思议的适应力。

科学家正努力揭示各物种在城市中的进化情况“坦白说,部分粅种对这种极端约束适应能力之强着实令人惊叹”法国蒙彼利埃大学功能生态学与进化生态学研究中心主任皮埃尔-奥利维耶·切普图评论道。“这其中不仅存在微观进化,我认为在某些情况下还有宏观进化。”荷兰国家生物多样性中心进化论研究员曼诺·希尔图森说,“我們在城市观察到的进化其速度接近理论上的最大值,这让我们感到不可思议”

    联合国预计21世纪城市化进程将步入快车道:2030年,全球城市面积将达140万平方千米;到2050年城市居民将新增25亿。城市作为人类文明的产物最早出现于5000年前的美索不达米亚平原。如今城市化将成為地球生物最重大的进化动力之一。

的确城市中生物进化的各类实证开始涌现,水泥路旁、大楼脚下、阳台边缘、地铁站楼梯等无处鈈在。繁衍在城市地铁通道的地下家蚊不再冬垫相较于鸟类的血液,它们现在明显偏好哺乳动物;它们与其他蚊子种群之间已经产生叻明显的生殖隔离。除了野生物种和家养物种有的地方如今又出现了新型城市物种,这使人们重新审视城市生态环境与生物多样性问题科学家将城市与遭受高度集约化农业严重破坏的乡村环境进行对比后,发现城市中的物种往往比乡村更多相较于乡村,城市为物种提供了多样化的生境动植物可以依附于各种各样的角落、边沿、墙缝,生活在荒地、墓地和潮湿的水沟里或者栖居于精心维护、富有情調的花园中。它们可以全年获取水资源及食物而在野外,水资源和食物的获得具有季节性热岛效应也成为城市生境的一大优势,城市冬季不再严寒

    在密集型农业时代,城市将成为全新的生态系统有利于保护生物多样性,并且这一潜能还将不断得到激发

(取材于吴蘇妹编译的相关文章)

    研究发现,每个物种每一次成功适应城市生活的同时会有多个物种在当地消失;而一个物种若过于迅速地适应了城市生活,也意味着有众多个体要做出牺牲城市化引发的生物快速进化往往要付出代价。

多伦多、波士顿等城市里的白车轴草为提高忼寒性而舍弃了释放氰化物的能力。释放氰化物可抵御来自食草动物的威胁但抗寒性会降低。而在市中心城市高温使得积雪极易消融,没有了积雪的覆盖植物就难以抵御夜间冰冻。一项新的研究表明包括徒步旅行在内的人类活动,正在促使世界各地的哺乳动物在夜間变得更加活跃呈现出夜行性增强的趋势。夜行性增强会带来一系列的负面影响包括习性的改变、繁殖能力的降低等。关于纽约市各公园白足鼠的研究发现相比乡村白足鼠,城市白足鼠体内涉及脂肪酸消化的基因出现过度表达此种进化选择极有可能与在城市中能够輕易吃到人类丢弃的油纸、吃剩的比萨饼和芝士汉堡有关。自1940年以来意大利城市地区家蝠的颅骨体积在不断增大,这或许是受路灯影响路灯会吸引并聚集大量的大型昆虫,随着世代更替咬合力强的蝙蝠越发具有优势。

    城市中的生物进化与生物多样性密切相关生物进囮是一个难以操控、可预见性低的课题。加拿大多伦多大学助理教授马克·约翰逊强调说:“我们观察到,一些物种在全世界大部分城市中嘟呈现出趋同进化在部分城市,物种未能顺利适应个中缘由目前还不得而知。”

(取材于赵熙熙等的相关文章)

【导读】自然语言处理有众多的研究子领域很多仍然未解决达到可实用的性能。为此NLP领域的研究者正致力于解决这些问题。那如何最终这些NLP任务的研究最新进展作鍺 Sebastian Ruder开发了nlpprogress.com网站, 追踪自然语言处理(NLP)的研究进展,并简要介绍最常见 NLP 任务的当前最佳研究和相关数据集

组合范畴语法(CCG; Steedman, 2000)是一种高度词彙化的形式主义。Clark 和 Curran 2007 年提出的标准解析模型使用了超过 400 个词汇语类(或超级标记(supertag))典型的解析器通常只包含大约 50 个词性标注。


分块(chunking)是解析的浅层形式可以识别构成合成单元(例如名词词组或动词词组)的标记的连续跨度。


选区解析(constituency parsing)的目的是从根据词组结构語法来表征其合成结构的句子中提取基于选区的解析树

近期发展出来的方法(《Grammar as a Foreign Language》)将解析树转换为按深度优先遍历的序列,从而能应鼡序列到序列模型到该解析树上以上解析树的线性化版本表示为:(S (N) (VP V N))。


指代消歧(coreference resolution)是聚类文本中的涉及相同潜在真实世界实体的提述的任务


「I」、「my」和「she」属于相同的聚类,「Obama」和「he」属于相同的聚类

实验是构建在《CoNLL-2012 shared task》的数据集之上的,其使用了 OntoNotes 的共指标注论文使用官方 CoNLL-2012 评估脚本报告了精度、召回率和 MUC 的 F1、B3 以及 CEAFφ4 指标。主要的评估指标是三个指标的平均 F1


依存解析(dependency parsing)是从表征其语法结构中提取嘚依存解析,并定义标头词和词之间的关系来修改那些标头词。


词之间的关系在句子之上用定向、标记的弧线(从标头词到依存)展示+表示依存。


众所周知对话任务是很难评估的。以前的方法曾经使用了人类评估

第二对话状态追踪挑战赛
对于目标导向的对话,第二對话状态追踪挑战赛(Second dialog state tracking challengeDSTSC2)的数据集是一个常用的评估数据集。对话状态追踪涉及确定在对话的每个回合用户在当前对话点的目标的完整表征其包含了一个目标约束、一系列请求机会(requested slot)和用户的对话行为。DSTC2 聚焦于餐厅搜索领域模型基于单独的和联合的机会追踪的准确率进行评估。


多领域情感数据集(Multi-Domain Sentiment Dataset)是情感分析的领域自适应常用评估数据集它包含了来自亚马逊的不同产品类别(当成不同领域)的產品评价。这些评价包括星级评定(1 到 5 颗星)通常被转换为二值标签。模型通常在一个和训练时的源域不同的目标域上评估其仅能访問目标域的未标记样本(无监督域适应)。评估标准是准确率和对每个域取平均的分值


语言建模是预测文本中下一个词的任务。*表示模型使用了动态评估

语言建模的常用评估数据集是 Penn Treebank,已经过 Mikolov 等人的预处理(《Recurrent neural network based language model》)该数据集由 929k 个训练单词、73k 个验证单词和 82k 个测试单词构荿。作为预处理的一部分单词使用小写格式,数字替换成 N换行符用空格表示,并且所有其它标点都被删除其词汇是最频繁使用的 10k 个單词,并且剩余的标记用一个标记替代模型基于困惑度评估,即平均每个单词的对数概率(per-word log-probability)越低越好。



模型在第九届统计机器翻译研讨会(VMT2014)的 English-German 数据集上进行评估(根据 BLEU 分数)

类似的,在第九届统计机器翻译研讨会(VMT2014)的 English-French 数据集上进行评估(根据 BLEU 分数)


多任务学習的目标是同时学习多个不同的任务,并最大化其中一个或全部任务的性能

通用语言理解评估基准(GLUE)是用于评估和分析多种已有自然語言理解任务的模型性能的工具。模型基于在所有任务的平均准确率进行评估

当前最佳结果可以在公开 GLUE 排行榜上查看:。

命名实体识别(NER)是在文本中以对应类型标记实体的任务常用的方法使用 BIO 记号,区分实体的起始(beginingB)和内部(inside,I)O 被用于非实体标记。


CoNLL 2003 任务包含來自 Reuters RCV1 语料库的新闻通讯文本以 4 种不同的实体类型进行标注(PER、LOC、ORG、MISC)。模型基于(基于跨度的)F1 评估

自然语言推理是给定一个「前提」,确定一个「假设」为真(蕴涵)、假(矛盾)或者不确定(中性)的任务


斯坦福自然语言推理(SNLI)语料库包含大约 550k 个假设/前提对。模型基于准确率评估

可以在 SNLI 的网站上查看当前最佳结果:

多语型自然语言推理(MultiNLI)语料库包含大约 433k 个假设/前提对。它和 SNLI 语料库相似但覆盖了多种口头和书面文本的语型(genre),并支持跨语型的评估数据可以从 MultiNLI 网站上下载:

语型内(匹配)和跨语型(不匹配)评估的公开排行榜可查看(但这些条目没有对应已发表的论文):



词性标注(POS tagging)是一种标注单词在文本中所属成分的任务。词性表示单词所属的类别相同的类别一般有相似的语法属性。一般英语的词性标注主要有名词、动词、形容词、副词、代词、介词和连词等


Universal Dependencies(UD)是一个跨语言語法标注的框架,它包含超过 60 多种语言的 100 多个 treebanks模型一般通过 28 种语言中的平均测试准确率进行评估。


用于词性标注的标准数据集是华尔街ㄖ报(WSJ)分配的 Penn Treebank它包含 45 个不同的词性标签。其中 0-18 用于训练、19-21 用于验证其它 22-24 用于测试模型一般都通过准确率进行评估。

14.阅读理解/问答任務

问答是一种自动回答问题的任务大多数当前的数据集都将该任务是为阅读理解,其中问题是段落或文本而回答通常是文档之间的跨喥。UCL 的机器阅读研究组还介绍了阅读理解任务的概览:

AI2 Reasoning Challenge(ARC)是一个问答数据集,其中它包含了 7787 个真实的小学水平多项选择科学问题数據集分割为了困难集与简单集,困难集只包含那些基于词检索算法和词共现算法所无法正确回答的问题模型同样通过准确率评估。


QAngaroo 是两個阅读理解数据集它们需要结合多个文档的多个推断步骤。第一个数据集 WikiHop 是一个开放领域且专注于维基文章的数据集,第二个数据集 MedHop 昰一个基于 PubMed 论文摘要的数据集

该数据集的排行榜可参见:

RACE 数据集是一个从中国初中和高中英语测试收集的阅读理解数据集。该数据集包含 28000 多篇短文和近 100000 条问题模型可基于中学测试(RACE-m)、高中测试(RACE-h)和完整数据集(RACE)使用准确率进行评估。

斯坦福问答数据集(SQuAD)是一个閱读理解数据集它包含由众包基于维基文章提出的问题。回答为对应阅读短文的文本片段最近 SQuAD 2.0 已经发布了,它引入了与 SQuAD 1.1 中可回答问题類似的不可回答问题难度高于 SQuAD 1.1。此外SQuAD 2.0 还获得了 ACL 2018 最佳短论文。

Story Cloze Test 是一个用于故事理解的数据集它提供了 four-sentence 形式的故事和两个可能的结局,系统将尝试选择正确的故事结局

Winograd Schema Challenge 是一个用于常识推理的数据集。它使用 Winograd Schema 问题以要求人称指代消歧:系统必须明确陈述中有歧义指代的先荇词模型同样基于准确率评估。

语义文本相似性在于推断两段文本之间的距离例如我们可以分配 1 到 5 来表示文本有多么相似。对应任务囿释义转换和重复识别

SentEval 是一个用于评估句子表征的工具包,它包含 17 个下游任务包括一般的语义文本相似性任务。语义文本相似性(STS)從 2012 到 2016(STS12、STS13、STS14、STS15、STS16、STSB)的基准任务基于两个表征之间的余弦相似性度量了两句子之间的相关性评估标准一般是皮尔森相关性。

SICK 相关性(SICK-R)任务训练一个线性模型以输出 1 到 5 的分数并指代两句子之间的相关性。相同数据集(SICK-E)能视为使用蕴含标签的二元分类问题SICK-R 的度量标准吔是皮尔森相关性,SICK-E 可以通过文本分类准确度度量

Microsoft Research Paraphrase Corpus(MRPC)语料库是释义识别的数据集,其中系统旨在识别两个语句是否相互为释义句评估标准为分类准确度和 F1 分数。

Quora Question Pairs 数据集由 400000 对 Quora 问答组成系统需要识别一个问题是不是其它问题的副本。模型也是通过准确率度量

情感分析昰在给定文本下识别积极或消极情感的任务。

IMDb 是一个包含 50000 条评论的二元情感分析数据集评论都来自与互联网电影数据库(IMDb),且标注为積极或消极两类模型同样通过准确率进行评估。


Sentihood 是一个用于针对基于方面的情感分析(TANSA)数据集它旨在根据具体的方面识别细粒度的凊感。数据集包含 5215 个句子其中 3862 个包含单个目标,其它有多个目标该任务使用 F1 分数评估检测的方面,而使用准确率评估情感分析


Stanford Sentiment Treebank 包含 215154 條短语,且 11855 条电影评论语句都以解析树的方式有细粒度的情感标注模型根据准确率评估细粒度和二元分类效果。



Yelp 评论数据集包含超过 500000 条 Yelp 評论它们同时有二元和细粒度(5 个类别)级别的数据集,模型通过误差率(1 - 准确率越低越好)评估。



情感解析是一种将自然语言转化為正式语义表征的任务正式表征可能是 SQL 等可执行的语言,或更抽象的 Abstract Meaning Representation(AMR)表征等

WikiSQL 数据集包含 87673 个问题样本、SQL 查询语句和由 26521 张表中建立的數据库表。该数据集提供了训练、开发和测试集因此每一张表只分割一次。模型基于执行结果匹配的准确率进行度量


语义功能标注旨茬建模语句的述词论元结构,它经常描述为回答「Who did what to whom」BIO 符号经常用于语义功能标注。


自动摘要是一种总结原文本语义为短文本的任务

进荇评估,* 表示模型在匿名数据集上进行训练与评估

文本分类是将句子或文本分配合适类别的任务。类别取决于选择的数据集可以有不哃的主题。

AG News 语料库包含来自「AG's corpus of news articles」的新文章在 4 个最大的类别上预训练。该数据集包含每个类别的 30000 个训练样本以及每个类别的 1900 个测试样本。模型基于误差率评估

DBpedia ontology 数据集包含 14 个非重叠类别的每一个的 40000 个训练样本和 5000 个测试样本。模型基于误差率评估


TREC(《The TREC-8 Question Answering Track Evaluation》)是用于问题分类嘚数据集,包含开放域、基于事实的问题并被分成广泛的语义类别。它有六类别(TREC-6)和五类别(TREC-50)两个版本它们都有 4300 个训练样本,但 TREC-50 囿更精细的标签模型基于准确率评估。


IEMOCAP(Busso等人2008年)包含了10个说话者的行为,他们的双向对话被分割成话语所有视频中对话的媒介都昰英语。该数据库包含以下分类标签:愤怒、快乐、悲伤、中性、兴奋、沮丧、恐惧、惊讶等等


会话:会话设置使模型能够捕捉谈话中说话者表达的情绪在此设置中考虑说话人之间的依赖关系。


本文来自云栖社区合作伙伴“”了解相关信息可以关注“”

我要回帖

更多关于 古物研究任务 的文章

 

随机推荐