有没有人做自然语言处理 pdf的童鞋,求交流

查看: 6981|回复: 8
那么现在问题来了,自然语言处理哪家强
精华主题学分
勤奋农民-感谢提供高质量信息和讨论, 积分 510, 距离下一级还需 490 积分
在线时间 小时
注册一亩三分地论坛,查看更多干货!
才可以下载或查看,没有帐号?
新人首次发帖,求加精,求啊
. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
本人研究方向是自然语言处理(NLP),最近也在准备学校,就着手做了这个调查。
看一个学校在一个领域的科研水平,其发表的顶会论文数毫无疑问是个重要的指标(你要真NB怎么会发不出顶会论文呢,这点对于个人来说同样适用)。
所以我统计了NLP领域的两大顶会,ACL与EMNLP近五年来的各大高校的发表论文的数,统计结果如下,与你心中的排名相比如何呢:)
第一列为发表论文数,第二列为学校、组织机构或实验室名
.鐣欏璁哄潧-涓浜-涓夊垎鍦
101&&& & & & Microsoft. 1point 3acres 璁哄潧
88& && & & & Carnegie Mellon University (CMU)
70& && & & & University of Edinburgh
69& && & & & Google
50& && & & & Columbia University. /bbs
47& && & & &
University
47& && & & & Johns Hopkins University
46& && & & & IBM
41& && & & & University of California, Berkeley
39& && & & & Univeristy of Maryland
39& && & & & University of Washington
38& && & & & Massachusetts Institute of Technology (MIT)
37& && & & & Peking University. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
37& && & & & Information Sciences Institute (isi.edu)
36& && & & & Univeristy of illinois at Urbana-Champaign (UIUC) 鏉ユ簮涓浜.涓夊垎鍦拌鍧.
34& && & & & NUS Singapore University
31& && & & & Harbin Institute of Technology (HIT). 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
30& && & & & UNiversity of Stuttgart, German
29& && & & & University of Cambridge
29& && & & & National Institute of Information and Communications Technology (NICT, Japan)
29& && & & & Institute for Infocomm Research (A*STAR), Singapore
27& && & & & University of Texas at Dallas. From 1point 3acres bbs
27& && & & & Institute of Computing Technology Chinese Academy of Sciences
26& && & & & Cornell University. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
26& && & & & Institute of Automation, Chinese Academy of Sciences
25& && & & & University of Pennsylvania
25& && & & & University of Trento (Italy)
25& && & & & Suzhou Univeristy
22& && & & & University of Texas at Austin
22& && & & & Saarland University, German
19& && & & & University of Sheffield
18& && & & & Nippon Telegraph and Telephone, Japan
18& && & & & University of Michigan
17& && & & & UMass Amherst
17& && & & & University of illinois at Chicago (UIC)
17& && & & & Qatar Foundation
16& && & & & Hebrew University, Israel
15& && & & & Dublin City Univeristy (DCU), Ireland
15& && & & & University of Heidelberg, German
15& && & & & University of Toronto
15& && & & & Nara Institute of Science and Technology (NASIT, Japan)
14& && & & & Tsinghua University
14& && & & & Yahoo
14& && & & & Indian Institute of Technology Bombay (IIT Bombay). /bbs
14& && & & & Fondazione Bruno Kessler(Trento, Italy). 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
14& && & & & Macquarie University, Australia
13& && & & & LIMSI, Pairs-Sud University, France
13& && & & & University of Roma
12& && & & & Raytheon BBN Technologies-google 1point3acres
12& && & & & University of Copenhagen
12& && & & & Brown University
12& && & & & University of Oxford.鐣欏璁哄潧-涓浜-涓夊垎鍦
12& && & & & Stony Brook University
12& && & & & University of Melbourne, Australia
12& && & & & University of Sydney
11& && & & & Educational Testing Service (ETS)
11& && & & & Fudan University. from: /bbs
10& && & & & New York University
10& && & & & The Ohio State University.鏈枃鍘熷垱鑷1point3acres璁哄潧
10& && & & & Bar-llan University, Israel. 1point 3acres 璁哄潧
10& && & & & Uppsala University, Sweden
10& && & & & Singapore Management Univeristy (SMU)
9& & & & & & National Institute of Informatics, Japn
9& & & & & & Inria, France
9& & & & & & University of Utah
9& & & & & & National Research Council, Canada
9& & & & & & Northeastern Univeristy, China
9& & & & & & University of Colorado Boulder
8& & & & & & Rwth Aachen Univeristy, German
8& & & & & & University of Geneva, Sweden. From 1point 3acres bbs
8& & & & & & University of Amsterdam, Holland-google 1point3acres
8& & & & & & Kyoto University, Japan
8& & & & & & Baidu
8& & & & & & University of Albert, Canada
.鏈枃鍘熷垱鑷1point3acres璁哄潧
1.统计方法:. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
NLP领域所有的主要会议期刊文章是全部公开的,而且整理的非常清楚:http://www.aclweb.org/anthology/
我在该网站上下载了最近五年的ACL、EMNLP会议的全部论文,提取其中的作者邮箱,然后按邮箱后缀统计出现次数,排序,最后再把后缀翻译成学校名称。
* 有些作者的邮箱后缀不同,但明显都来自于同一学校,他们的计数会被合并,例如:与都会被认为是stanford university发表的论文。.鐣欏璁哄潧-涓浜-涓夊垎鍦
.鐣欏璁哄潧-涓浜-涓夊垎鍦
* 以上操作皆为脚本自动处理辅以人工检查,虽不能说完全精确,但也基本可靠。 鏉ユ簮涓浜.涓夊垎鍦拌鍧.
2.顶会的难度
NLP领域是会议主导,会议的价值很高(感觉上超过了期刊)。
ACL是NLP领域的顶会,中稿率极低(10%上下),含金量据我师兄说中一篇交大博士就基本可以毕业了,东京大学基本也是两篇就能毕业了。.
EMNLP稍容易些,但影响力逐年提升,论文质量也都挺高,我感觉应该算是仅次于ACL的会了吧。
一些碎碎念:
. 鍥磋鎴戜滑@1point 3 acres
* 微软、谷歌、IBM,作为工业界的大佬,这么灌顶会好么~百度要加油啊,招了Andrew Ng都在研究什么……
* 之前读论文时就经常能看到爱丁堡大学的文章,知道它在NLP领域强,没想到这么强……-google 1point3acres
* 国内大学很给力啊,北大,哈工大,中科院计算所,苏州大学平均一年5篇以上,这相当恐怖了
* 苏州大学进步之快令人惊叹。本科做毕设时看了好多国内论文都是苏大的,没想到现在发顶会也这么猛了,ACL今年苏大中了6篇,相当吊。. 1point 3acres 璁哄潧
* 一直觉得CMU在语音方面很强,没想到在NLP上也这么强……膜拜
* 都说哥伦比亚大学cs不是很强,但不亏是有我偶像在的学校,NLP方向还是很给力的说。
* JHU也很给力,不愧是传说中的机器翻译一哥学校。
. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
<p id="rate_809" onmouseover="showTip(this)" tip="很有用的信息!&大米 + 1 升
" class="mtn mbn">
<p id="rate_978" onmouseover="showTip(this)" tip="CMU什么都很厉害...&大米 + 5 升
" class="mtn mbn">
<p id="rate_70" onmouseover="showTip(this)" tip="感谢分享!&大米 + 10 升
" class="mtn mbn">
本帖被以下淘专辑推荐:
& |主题: 9, 订阅: 0
精华主题学分
在线时间 小时
. from: /bbs
一口英伦腔真是帅爆了。。还有最棒的parser。。
很遗憾没有见过本尊……我刚搞学术时被各种论文虐出翔,是Collins无比清晰的tutorial指引我走进NLP的殿堂,让我了解到原来这些看上去很难的东西是可以写的这么清楚的!原来NLP还是很有趣的!永远感谢Collins大神!一辈子的偶像!
精华主题学分
在线时间 小时
为什么我还是不能发帖子!!新人报道都没有权限?天理难容啊!!
精华主题学分
在线时间 小时
哥伦比亚的偶像是michael collins嘛。。
精华主题学分
在线时间 小时
哥伦比亚的偶像是michael collins嘛。。
精华主题学分
在线时间 小时
. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
一口英伦腔真是帅爆了。。还有最棒的parser。。
精华主题学分
在线时间 小时
大赞~太用心啦!
精华主题学分
在线时间 小时
ACL没有10%那么难.....一般AI的顶会都是20%-30%....
精华主题学分
在线时间 小时
呃 , 苏州大学的英文名是 Soochow University
<form method="post" autocomplete="off" id="fastpostform" action="forum.php?mod=post&action=reply&fid=41&tid=106301&extra=&replysubmit=yes&infloat=yes&handlekey=fastpost"
onSubmit="
// TODO Howard 11/3/2015
var sbtn = $('fastpostsubmit');
sbtn.disabled =
sbtn.innerHTML = ' 回复发表中... ';
sbtn.setAttribute('background', sbtn.style.background);
sbtn.setAttribute('bordercolor', sbtn.style.borderColor);
sbtn.style.background = '#C7C7C7';
sbtn.style.borderColor = '#8B8B8B';
var form =
// --product--
var isValid = fastpostvalidate(form, null, 0);
if(!isValid) reoverBtn();
return isV
// --product--
// --testing--
//setTimeout(function() {
// var isValid = fastpostvalidate(form, null, 0);
// if(!isValid) reoverBtn();
//}, 2000);
// --testing--
您需要登录后才可以回帖
回帖并转播
回帖后跳转到最后一页
一亩三分地推荐 /5
地主Warald亲手做你的申请,针对你的背景和目标,考虑申请、学习、就业、移民等系列问题,制定申请策略。
“offer”指全额奖学金,免学费全免+每月工资,Berkeley, CMU, JHU, UIUC, Gatech, UMich, UCLA, Columbia,欢迎观赏。
电子工程、计算机、统计、金数金工、化工等, Stanford, Berkeley, CMU, Cornell, Yale, Columbia, Chicago, Duke, UPenn, UIUC, Brown, UMich, JHU等
有留学、申请、找工、职业规划上的难题?先上论坛提问!
论坛考古也帮不上忙,发帖得到的回答仍然不够?电话找Warald来解答!
WARALD新书上市啦:《你不知道的美国留学》清华大学出版社,各大电商发售
Powered by国内有哪些自然语言处理的牛人或团队? - 知乎1542被浏览99168分享邀请回答mitlab. ,由于鄙人不了解该实验室,恕不详细介绍,知友可自行了解。)科大讯飞:科大讯飞的技术实力不必多说,业内人士都知道。科大讯飞与哈工大有语言认知计算联合实验室(),刘挺担任实验室主任。插播新闻:近日,由斯坦福大学发起的SQuAD挑战赛当中,哈工大与科大讯飞联合实验室(HFL)提交的系统模型夺得全球第一名,这也是中国本土研究机构首次取得该赛事的榜首。SCIR实验室官方网站:此外,顺便再说一句,国内大部分顶级高校的研究生都是三年或两年半,哈工大只要两年哦~两年你买不了吃亏,两年你买不了上当~而且SCIR实验室的老师都超级nice的~欢迎各位来SCIR!希望刘教授收留我 (?﹏?) 评论区有询问实验室招生情况的,这个我也不是特别了解,请向ir实验室的秘书李冰咨询,她的邮箱请去实验室网站上找~8121 条评论分享收藏感谢收起-- 君子慎独,修身律己。飓风过岗,伏草唯存。
快速了解什么是自然语言处理
日19:13:23
摘要:自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学等于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。(本文原创,分享供于学习,转载标明出处:)
【文本处理】
【文本处理】
【文本处理】
【文本处理】
【文本挖掘(1)】
【文本挖掘(2)】
【文本挖掘(3)】
1 计算机对自然语言处理的过程
1.1把需要研究是问题在语言上建立形式化模型,使其可以数学形式表示出来,这个过程称之为"形式化"
1.2把数学模型表示为算法的过程称之为"算法化"
1.3根据算法,计算机进行实现,建立各种自然语言处理系统,这个过程是"程序化"
1.4对系统进行评测和改进最终满足现实需求,这个过程是"实用化"
2 自然语言处理涉及的知识领域
语言学、计算机科学(提供模型表示、算法设计、计算机实现)、数学(数学模型)、心理学(人类言语心理模型和理论)、哲学(提供人类思维和语言的更深层次理论)、统计学(提供样本数据的预测统计技术)、电子工程(信息论基础和语言信号处理技术)、生物学(人类言语行为机制理论)。故其为多边缘的交叉学科
3 自然语言处理涉及的范围
3.1语音的自动合成与识别、机器翻译、自然语言理解、人机对话、信息检索、文本分类、自动文摘等等,总之分为四大方向:
语言学方向
数据处理方向
人工智能和认知科学方向
语言工程方向
3.2也可细分为13个方面
口语输入:语音识别、信号表示、鲁棒的语音识别、语音识别中的隐马尔科夫模型方法、语言模型、说话人识别、口语理解
书面语输入:文献格式识别、光学字符识别(OCR):印刷体识别/手写体识别、手写界面、手写文字分析
语言分析理解:小于句子单位的处理、语法的形式化、针对基于约束的语法编写的词表、计算语义学、句子建模和剖析技术、鲁棒的剖析技术
语言生成:句法生成、深层生成
口语输入技术:合成语音技术、语音合成的文本解释、口语生成
话语分析与对话:对话建模、话语建模口语对话系统
文献自动处理:文献检索、文本解释:信息抽取、文本内容自动归纳、文本写作和编辑的计算机支持、工业和企业中使用的受限语言
多语问题的计算机处理:机器翻译、人助机译、机助人译、多语言信息检索、多语言语音识别、自动语种验证
多模态的计算机处理:空间和时间表示方法、文本与图像处理、口语与手势的模态结合、口语与面部信息的模态结合:面部运动和语音识别
信息传输和信息存储:语音压缩、语音品质的提升
自然语言处理中的数学方法:统计建模和分类的数学理论、数字信号处理技术、剖析算法的数学基础研究、神经网络、有限状态分析技术、语音和语言处理中的最优化技术和搜索技术
语言资源:书面语料库、口语语料库、机器词典与词网的建设、术语编撰和术语数据库、网络数据挖掘和信息提取
自然语言处理系统的评测:面向任务的文本分析评测、机器翻译系统和翻译工具的评测、大覆盖面的自然语言剖析器的评测、语音识别:评估和评测、语音合成评测、系统的可用性和界面的评测、语音通信质量的评测、文字识别系统的评测
&4&自然语言处理的发展的几个特点
基于句法-语义规则的理性主义方法受到质疑,随着语料库建设和语料库语言学 的崛起,大规模真实文本的处理成为自然语言处理的主要战略目标。
自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。
统计数学方法越来越受到重视。
自然语言处理中越来越重视词汇的作用,出现了强烈的"词汇主义"的倾向。
阅读(...) 评论()自然语言处理(NLP)学习笔记(一)
我的图书馆
自然语言处理(NLP)学习笔记(一)
NLP:Natural Language Processing(自然语言处理了),接触和认识它也有快五年了吧,当初是以“应用语言学”的中文系专业名称认识它的,和每一个因之进入中文系的人一样,脑袋中除了迷惑还是迷惑,因为不知道它是做什么的。在这四年多的时间中,从迷惑到认识,再到喜欢,到了现在也可以说对NLP也有了一定的了解,加之这学期要开始学习“自然语言处理高级专题”,结合课程内容,建此系列,写下自己对NLP的认识。
此为第一部分,漫谈NLP相关概念以及相关应用。
自然语言处理(NLP,Natural Language Processing)、计算语言学(CL,Computational Linguistics)、人类语言技术(HLT,Human Language Technology),又或者“应用语言学”、“语言工程(LE)”等等,这些名称都可以用于描述这个与人类语言以及计算机双向相关的领域。其实忽略这些概念细节之间的区别,NLP(或CL,或HLT)所做的事儿说白了就是,研究如何让计算机能够像人一样理解人类世界中的自然语言。
二、人工语言与自然语言
略微有些计算机知识的人应该都知道,计算机在执行人们给他的命令所使用的语言是人们实现规定好了的,比如C、Java、Python等。利用这些人工制定的机器语言,计算机可以很好地执行人们给它的各种指令。但是随着计算机的普及,以及依托网络的信息量的增加,人们需要的是更加智能的、能够在一定程度上理解人们所说的自然语言的计算机。而这种应用是有很大的发展前景的,至于原因,我们下文再说,而且想想iphone4s中Siri的巨大成功您也就明白了。
但是要让计算机理解自然语言,最大的困难就在于自然语言本身所具有的灵活性、无限性以及二义性。而这也是目前计算机所使用的人工语言所避免出现的。
所谓自然语言的灵活性与无限性,其实说白了就是,人们对语言的使用在一定的文法规范下是灵活多变的,这由此导致了某一种特定语言下的句子形式是无限的。比如下面的这四个句子:
1.&主席团 台上 坐
2.&主席团 坐 台上
3.&台上 坐 主席团
4.&台上 主席团 坐
忽略语用上表达差别,这四个句子的意思是完全一样的,说的都是“台上存在着主席团”这么一个事实。但是这四个句子的形式是不完全一样的,虽然它们都是由相同的句子成分(“主席团”、“台上”、“坐”等三个词组)组成的。
这个例子很好的说明了自然语言表达中的灵活性,我们完全可以用不同的形式表达同样的意思。而这一点是在目前计算机所使用的人工语言所不允许的。比如,C语言中我们用来表示从1到100的循环,用for语句的话必须写作“for(i=1;i&101;i++)”的形式,而不允许有其他的for语句形式。之所以在人工语言中限制其灵活性,主要还是为了文法规则形式化的方便。简单点儿说就是,限制灵活性就是让计算机只记得一种形式,而其他形式(即使再好),我也当做不认识进行处理,这样不仅方便于语言创制,也方便计算机的理解。但与之恰恰相反的是,自然语言存在着许多如上四个句子的灵活性运用,而且由于这种灵活性所导致的句子类型的无限性,使得自然语言的形式化变得十分复杂(关于自然语言的形式化,下回再做分解),也使得计算机在理解自然语言时也会头疼得厉害。
而自然语言的二义性,其实说的就是自然语言中广泛存在的歧义现象。比如,语言学中最经典的例子:
杀死猎人的狗
——杀死猎人 的 狗
——杀死 猎人的狗
还有就是下面这个很有意思的例子,句子中的“意思”到底是什么意思呢?
人们以为他对她有“意思”,于是,建议他对她“意思意思”。他说,他没那种“意思”。她则反问,你们是什么“意思”。大伙中有的觉得很有“意思”,有的则认为真没“意思”。
在处理这些句子或词汇时,由于句子和词存在着多种可能的理解方式,计算机在处理这些问题时就要费老鼻子的劲了。
三、NLP应用
上面我们简要说了下自然语言的特点以及由此带来的计算机在处理自然语言时的难点和障碍。虽然目前为止,离自然语言处理所要达到的让计算机完全理解自然语言的终极目标还相距甚远,但是利用NLP相关技术对自然语言进行部分处理也取得了相当不错的成果。
记得小学有本参考书叫做《字词句段篇章》,那时就觉得用这六个字对语言进行划分是多么的恰当与优美。其实,按照语言单位对语言就行划分,就形成了计算机对自然语言进行处理的各个层次。
首先是语音层面,这是自然语言最基本的层面。我们平时接触最多的语言估计就是我们用耳朵所听到的话语声音吧。而以语音为对象的自然语言处理就是诸如语音识别、语音合成等应用。还是说苹果家的Siri,作为一款语音助手类软件,它首先要解决的也就是语音识别的问题,也就是将它所“听”到的语音转化为文字信号的过程(当然还有它最后一步将文字答案转化为语音信号输出的过程)。
除了语音识别,特定的对于汉语,另一项与NLP相关的应用则是汉语的拼音文字转换。说白了,就是汉语拼音输入法。由于汉语中存在众多的多音字词,以及普通话中复杂的四声系统,将汉语拼音转化为正确的汉语词语片段,即使对使用这种语言的人来说也是一件不太容易的事儿,比如说下面这个简单地拼音串:“yishishiweiyiju”,您将之转化为正确的汉字串的时间是多少呢(答案见文末)?估计也是不容易的吧,但是利用目前比较成熟的NLP技术,现在的输入法至少已经可以在很短的时间内正确给出您正确的答案了,比如我打这篇文章所使用的搜狗输入法,您也可以试试您现在正在使用的输入法是否能给出正确的汉子串呢~
说完语音层面,再就是词语层面的应用。这主要涉及到对一个句子(或词组片段)的正确理解。比如说吧,我们上面所提到的对“杀死猎人的狗”的歧义判定问题。这个层面不像上面所介绍的语音,能够产生比较好玩的产品化应用。这个层面所涉及的问题主要是为其他自然语言处理所服务的。还是说“杀死猎人的狗”,我们只有在这个层面对这个句子有了正确的理解了,才能继续下一步更高层次的应用。因此,对于这个层面的NLP应用不做过多介绍,以后我们在技术层面或许会有更多的涉及。
好,现在我们再把对语言的讨论上升一个层次,到篇章层次。这个层次的应用就是更高层次的应用了,这各层次所涉及的语言对象是多个句子组成的语言篇章,而对它们的操作主要是从中抽取出我们所感兴趣的兴趣。因此这个层次上的应用主要有:搜索、信息抽取、文本分类以及文本筛选等。
搜索,这个大家应该都是比较熟悉的,Google、Bing、百度等,都是目前大家所熟知的信息搜索引擎。而这些搜索引擎所使用到的技术都可以归入NLP的范围内。
信息抽取,信息搜索的一种,与搜索不同的是,信息搜索的结果是返回所有可能的结果,而信息抽取是有针对性地返回唯一正确的结果。从唯一性上来说,信息抽取对技术的要求更高,也更难实现。目前信息抽取技术主要应用在对新闻信息的抽取,比如从新闻中抽出“when and where,who did what(时间、地点、人物、事件)”等信息。而现在随着社交网络的发展,我们对某些人的个人信息也会产生兴趣,比如通过某人的个人网站或所发微博,提取他的各种个人信息(联系方式、住址、爱好、习惯等),从而帮助商家分析顾客需求,以及,满足某些人的特殊好奇心等……
文本分类以及文本筛选,这个也是为了帮助人们可以更好地利用信息所做的工作。例如,如果您比较喜欢星座,当然您可以用Google搜索“星座”,也可以直接去新浪或网易等门户网站上的星座频道。而文本分类所帮您做的就是帮您找到所有与星座高度相关的文章。而文本筛选的应用呢,为了社会和谐,你懂的。
馆藏&30470
TA的推荐TA的最新馆藏
喜欢该文的人也喜欢

我要回帖

更多关于 统计自然语言处理 pdf 的文章

 

随机推荐