申论的评分标准到底是按什么来评分的 有人有...

有人提议把豆瓣评分的五星制改成十分制会更科学,这种观点有科学(如数学上的)依据吗?
有人曾说,有的四星是因为离完美差一点,所以四星。但是有些是三星不太忍心,所以四星。另外,豆瓣是否应该允许打零分?打零分跟不评分的对比如何?
按投票排序
从机器学习的角度来看这个问题。机器学习的关键是数据收集,而好的人工数据收集存在一个前提,就是必须准确地定义分级的明确含义,而且需要所有的标注者对不同等级的定义是统一的。通常公司里对training data的标注会专门雇人做,标注者必须事先经过培训,以保证数据的一致性。这耗时也花钱。五星评级的优势在于,这是一种免费得到海量高质量标注的方法。因为不需要对访问网站的用户进行任何训练,无数其他网站已经免费对用户进行了培训,五星评级的含义几乎是非常统一的:五星表示“非常好”,四星代表“挺好的比普遍的强”,三星代表“平均水平吧”,二星代表“有些缺陷”,一星代表“很糟糕”。而机器学习的输出,也就是机器预测的打分(通常是这五个级别的概率,或者是一个0到1之间的数值)也会被转换成五星评级呈现给用户,方便用户理解。十星评分有两个问题:一是不同用户标注十级的误差要比标注五级的误差大得多,因为十星评分远不如五级流行,没有一个所有人认可的含义(想象三星和四星的差别是什么);而且,十级评分需要更多的training data来训练模型,在数据有限的情况下效果不如五级好。在有些情况下,当分级定义比较困难,会使用数目更少的分级,甚至只有两级,“好”和“坏”。这可以极大加快数据收集的速度,凭借数量巨大以量取胜反而能得到更好的效果。
讨论这个问题需要考虑三方面的因素,一、数据层面,即精确与否;二、人的心理因素;三、产品交互。数据层面,有同学提到了层次分析法,这的确是把主观看法转化为客观标准的一种通用的做法。但这个做法更适合做中、小范围的,以决策为目的的研究,不太适合作为网站的一项功能提供给普通用户。层次分析法的精髓是比较,受试者要给出针对客体的两两比较的结果,然后利用层次模型对数据进行处理。这在以研究为目的的项目中是很常见的,但是在实际面对大范围的普通用户时会遇到很多问题。此外,也有很多学者针对分值进行研究,发现利用主成分分析法(PCA)/SVD分解,5分值体系可以有效还原9分值体系的内容,在绝大部分情况下可以还原原始数据的90%以上的信息,3分值体系可以还原70%左右。从人的心理层面来讨论,是个有趣的话题。关于评分这件事,很多研究表明,用户的选择往往并不一致,面对越复杂的分值系统越是如此。一方面,用户针对同一条目的前后评分不一致,分值体系越复杂,不一致的情况越严重;另一方面,在进行两两比较时,还会经常出现A & B, B & C, C & A的情况。人不是纯粹理性的个体,因此,虽然理论上越复杂的评分体系越能精确的还原用户的意图,但实际上复杂评分体系带来的副作用往往会更大。在产品交互层面,要考虑希望这个功能面对怎样的用户。如果是发烧级用户,可能单一的评分维度还不够,比如电影可能要给导演、演员、编剧、摄影、音乐、舞美、道具分别打分才好做评价;图书也经常可以看到原著很好,翻译很烂的评语。要是以此为原则设计评分体系,交互上会比较复杂,相信90%的用户会望而却步。
数学上面,主管比较和判断的相关模型中,最出名也是最常见的就是层次分析法(Analytic Hierarchy Process,简称AHP)。这是一种定性和定量相结合的、系统化、层次化的分析方法。因此模型作用范围更广,被大量用于决策,主观问题客观化的应用中。此方法由T.L.Saaty等人在20世纪70年代提出,在80年代写入书中:《Thinking with models: mathematical models in the physical, biological, and social sciences》。其中比较尺度的划分,Saaty提出了1-9尺度。理由如下:在进行定性的成对比较时,人们头脑中通常有5种明显等级,用1-9尺度可方便的表示如下:尺度a(ij)=1,表示C(i)与C(j)的影响相同。尺度a(ij)=3,表示C(i)比C(j)的影响稍强。尺度a(ij)=5,表示C(i)比C(j)的影响强。尺度a(ij)=7,表示C(i)比C(j)的影响明显的强。尺度a(ij)=9,表示C(i)比C(j)的影响绝对的强。尺度a(ij)=2,4,6,8,表示C(i)与C(j)的影响之比在上述两个相邻等级之间。心理学家认为,进行成对比较的因素太多,将超出人的判断能力,最多大致在7正负2的范围(Saaty未对此结论标记出处)。9个尺度正好在此范围。感谢@lightcatcher 的补充:7正负2的范围来源于短时记忆的广度,也就是说短时记忆的容量是7正负2个模块。另外9分制存在明显的中间值5,中间值是评分准则的安全岛。10分制就不存在安全岛,因为中间值是5.5。Saaty曾用1-3,1-5,……,1-17,……,(d+0.1) - (d+0.9) (d=1,2,3,4),1^p-9^p (p=2,3,4,5)等共27种比较尺度,对在不同距离处判断某光源的亮度等实例构造成对比矩阵,并计算出权向量。把这些权向量与按照光强定律等物理知识得到的、或实际测量的权向量比较发现,1-9尺度不仅在比较简单的尺度中最好,而且结果并不劣于较复杂的尺度。因此,后来的数学建模中,遇到比较判断问题时(尤其是社科统计、情报决策等方向),经常使用1-9尺度表示。生活中会因为计算方便而采用10分制,但10分制弱化了单个分值含义,容易导致两极分化、三足鼎立的现象。而5分制则是对9分制的压缩,易于判断,不失单值意义。缺点就是过于粗糙,不适用于学术研究。但考虑到互联网UGC的简洁快速的特性,可能5分制是最合适的。毕竟9分制的话,很难对每个用户都解释清楚每个分值的意思,这样一样会遇到10分值的两极现象。而5分的话更容易接受,哪怕不解释也不会被大多数人误解。况且感谢@王守崑的提醒,5分制可以在一定条件下还原成9分值并保留绝大部分信息。因此豆瓣使用5分值还很合理的。因为豆瓣统计的是大众评价,因此个体差异在这里就被抹平了,分值反应的是大众特性。如果能像facebook的like按钮或者google的+1计划,根据用户的个人属性,对好友、同类人的评分做加权统计,那就真的能实现针对个体的推荐了,不过这就是推荐算法和数据挖掘的范畴了。以上大部分内容出自高教出版社的《数学模型》:有兴趣的同学请自行翻看。
用10分制还不如允许给半分来得更精准。事实上粒度越细,评价难度就越高。但可以通过层级法来达到精准和细粒度的统一,例如10分制允许给1位小数。那么粒度还是1/100,但由于是10分制,引导了评判者首先确定一个区间,再在区间内进行更高精度的评判,这样就能得到高精准度的评分了。
市场营销上有一类经典的陷阱,就是给消费者太多的选择,逻辑上说,更多的选择意味着更精确的让每类受众找到自己需要的商品,但实践中,消费者往往在选择太多的时候望而却步。这里的情况似乎与此类似。
答数学累了,来抖个机灵。墙裂建议评分范围为[0,1]上的实数,这样将杜绝题主说得问题。
五星是李克特量表。
十分制只会增加选择恐惧症,大多数人不愿意花时间和心思,去给一个电影打6分还是7分。而且,严格来说,100分制其实比10分制更科学。。。
如果非要从研究的科学性来讲,当然不够科学。但是五分制其实是定性与定量研究妥协的大众产物。对于定性而言,最简单不外乎好中差就能说明问题了。但是由于好中差之间的界限太过于模糊,如果按照定量定性转化的原则(中应该代表中间上下浮动50%的结果,差是Bottom25%,好是Top25%),即使排除每个人主观判断的误差,结果也是天然不均衡,很难得出任何有效的结论。而10分(9分)又太复杂了,很多人要么干脆不评分了或者瞎给分。即使是在有奖调查或科学研究中,一般研究员最多只会设计不超过3道10分制的评分题,大部分还是会采用5分(4分)制。大样本调查或互联网调查中,如果有足够多的样本(超过30以上)。5分制转换成10分(9分)制损失的信息量非常少。当然,最主要的是大脑对信息处理的能力问题。普通人处理的极限是(7分制),变成10分制以后,相邻的分数(比如说8/9分,7/8分,3/4分)会让人很纠结,无处判断。假定每个人都很专注,7分最佳。但是对于大众互联网产品来说,5分制是最合适的。基本上能够很清楚地反应用户的倾向性。
如果是五星制支持半星呢?如果同样的数据,在分析上应该没有影响吧,那么是否可以认为它是变相的十星制呢?从操作上来看,支持半星五星制看起来仍然比较友好。 与十星制“没有一个所有人认可的含义”不同,我在使用一个支持半星的五星制评分音乐播放器的时候,总是倾向低分不打(太麻烦),三星和三星以上进行评分(筛选出尚可一听的歌曲),这时候支持半星的五星制体验就明显要优于五星了。对于我来说五星是完美,四星半是接近完美,四星是优秀,三星半是还不错,三星是及格——似乎比粗糙的五星、四星、三星精确了,而且做出这些半星评分也并不别扭。那么,我在想,如果这个换到豆瓣上呢?其实还是不合适的。与听歌不一样,听歌时打分,是一个比较频繁的举动,这时候,如果有一些不想打,肯定是差评的。评分集中在平均分以上水平了。但豆瓣不一样,一首专辑、一本书、一场电影,一次评分,并不是很频繁的举动,而且花费了时间、金钱在上面,如果喜欢,当然要赞一下,分享一下。如果是差评,kao!浪费我时间金钱,给个差评,不踹你一脚对不起人!所以反对所谓十星制,反对豆瓣使用十星制或五星支持半星,但认为五星支持半星在某些场合是一个体验不错的评分机制。
就算有数学依据 同样不能用十分制实际上5分已经有些模糊了人在大体认知的时候只有好 不好 凑合三等所以这五分中的 2分和4分 其实已经很模糊了至于用五分制 是方便计算 + 用2、4做缓冲带显得平滑但凡涉及感官的评分 其实都是看乐子而且有用大众价值观磨平个人价值观的弊端这个时候评分+评论就显得很重要了
参与评分的用户,一种是感性的希望表达个人喜恶,对于他们5分都多,“顶”“踩”就够了;另外一种则希望将个人观点进行尽可能的量化。具体采取什么方案主要看产品的用户结构。比如电影网站用户是第二种用例,而视频网站的用户第一种用例居多。5分制可能是一种兼顾两种用例的折中方案,所以也最常见。
虽然十分更精确一些,但是让用户伤脑筋,毕竟用户是在无偿的评论。五分用户体验较好,可以通过大量的不准确的数据分析出相对准确的结果,毕竟互联网的用户很大,而且大部分用户都没有足够的耐心。
10分选择太多了。10分有10个选择,5分只有5个。
仅从数学上来讲,是的。位数越多就越精准,不用解释吧?但是豆瓣的评分并不能仅从数学上来考虑,因为你不可能要求用户区分86分和87分的区别,这样做只会降低评分的质量。至于五分制和十分制哪个好,我觉得可以有一个折中的办法,既能保证十分制的精确,又能像五分制那样,不为难非专业的电影爱好者。就是像迅雷那样,用1~5星评分,并且可以点半星,每颗星2分。这样的十分制,评价者只需要从5个档次中选一个。
这个简单点儿看,就是一个度量尺度的问题。
一般人的分辨能力在7左右,也就是如果人们关注的焦点超过7个,则可能出现混乱,无法分辨;比较常用的尺度比如1-3,1-5,1-7,1-9 等等,就如上文的同学提到的,satty的研究和实践工作已经证实了1-9的科学性;但在产品上结合人们的实际分辨能力,更多地选择了1-5和1-7
五星制适合快速定位,差(1~2)、中(3)、优(4~5)分明,易于直接给出意见;十星制虽然表述精确,但范围大了让人在给分的时候很犹豫挣扎,一般好、比较好、相当好并不是那么容易判定的
难道只有我一个人觉得变成二元的最好么。。。喜欢或者不喜欢,然后再根据大家喜欢的程度用某种算法算出一个综合评分。。。我的iTunes上评分基本只有5星和1星这两种。。。
那么多强烈要求加入半星制的同学,用时光的十分制的单数值代表半星不就行了?我就是这样做滴~10分=5星9分=4星半8分=4星7分=3星半以此类推……而且,时光的电影管理功能强大之完爆豆瓣且很少人会熟练地用我会乱说?
从信息论的角度,是更科学。2种解释:
量化区间减小,可以降低量化误差。
提高采样率,可以对提高信息的分辨率。
而为此付出的代价可以忽略不计。公务员考试申论评分标准_百度知道
公务员考试申论评分标准
也就是说我们要具体举一个例子才好讲,不然评分标准就空泛了。采分点就是论点,论点不是你得分的重点,重点在你论点后面的论述。通常论点只能得1分左右,后面的论述能够再得2到3分,也就是说,你这一个小点是由三分或者由五分构成的,属于论点得分数是一分,后面的三到四分是属于论述的分数。所以我们真正的分数大的比例不是由我们句号前面的论点得到的,也就是说我们不能单纯地停留在我知道这个事情,我单纯地论述这个事情就可以,后面的语言一定要充实规范起来,这样才能得到相应的分数。所以不要停留在表面上,我看看就行,我心里知道了,一定还要写。从现在开始,前面的我们没有办法去约束了,过去的已经过去了,从现在开始一定要专心写。 还有在很多评分标准当中有一句话,我希望大家能够用它来激励你写作的欲望,这句话是说,假如你的论述不是很到位,就是你的论点写的不是很到位,也可能你提出的具体的措施,比如执行不到位的具体措施,我们要加强监督,这句话你写的很规范,但是后面的论述非常充分,或者某一方面写得特别出色,非常有文采这样一层意思时,那么你的总评分会向上浮动2到3分。这2到3分就意味着你可能比别人超出2到3分,也就意味着别人可能因为这个分数而被挡在了笔试或者面试名额之外,而你可能顺利地因为这2到3分通过我们的笔试,进而走到最后。
也就是说,我们读、思考、练笔都是非常重要、非常有意义的。评分标准当中,还有很多很细节的一些东西,也是希望我们考试的时候需要注意的。比如评分标准当中提到,要求你自拟题目,而你没有自拟题目,你为什么没有自拟题目,每年的考试试卷当中都有这样的情况出现。一大篇写完之后,阅卷老师发现,为什么没有题目,那是因为很多人在写作之前不构思,先写再按题目,最后慌乱之中忘掉自己漏掉题目,很多人都是这样,自己没有办法先赋予它一个好的标题,我暂且不写,我先去写后面的内文,边想边写,边写边想,文章越写越慢,越写越不知所云,标题就忘了,我们失去这一分二分标题的题目就有点不值得,所以强调标题在前,标题一定是你中心的所在。还有这里要强调的,因为平时有很多考生朋友自发地或者在我的要求之下,将他们每日一练的习作提交到我的电脑上面来。
来自团队:
其他类似问题
为您推荐:
其他2条回答
您好,中公教育为您服务。1.阅读理解能力作为五大能力之首,考生的阅读理解能力应达到如下要求:第一,准确理解。即能够理解给定资料的内容、含义及各部分的关系。在省级卷中:2014年(省级)第二题,要求“谈谈‘预先失败’这一概念在‘给定资料4’中的含义”。而2013年国家公务员考试(省级)给定资料6,则要求考生准确理解“岁月失语,惟石能言”的深刻含义。在市级卷中:2014年国家公务员考试(市级)给定资料6提到了一句话“幸福始终充满着缺陷”,而题目五则要求考生集合对资料的思考和这句话的领悟写一篇文章,这就要求考生准确理解这句话的含义,否则,所写的文章难免偏离作答要求。第二,二次概括。即在完成题目中要点基本概括后,再次对要点分类归纳,以此准确领悟命题人题目设置的意图。2014年(市级)第一题要求考生“对F市所做工作进行分类总结”,本题作答范围为给定资料3,资料中包含的要点繁杂,这就需要我们首先根据要点内容,加以概括,继而按照工作的不同进行分类总结。随着申论考试的不断前进,阅读理解能力的难度也在与日俱增,考生如果不能掌握二次概括的能力,势必难以准确理解材料内涵,造成作答疏漏。2.综合分析能力综合分析能力是省级职务测查的重点,考生应该做到如下两点:第一,观点鲜明。即按照题干要求,综合给定资料中命题人的意图,准确提炼观点且观点鲜明。如2014年(省级)第二题:“谈谈‘预先失败’这一概念在‘给定资料4’中的含义”,要求考生能够精准作答出“人们过于依赖媒介如专家的意见,弱化甚至丧失自主选择能力的心理状况”这一含义。第二,理据结合。理,就是理论和政策,考生应能够恰当地运用党中央、国务院的重大理论和政策,对给定资料的现象进行分析、推理和判断。国考是对政府工作人员的选拔,为此,不同级别的行政单位在人才选拔中的标准不一。国家公务员省级职位的能力要求中,明确写出了综合分析能力,直接表现出省级职位对考生分析具体情况,准确作出判断的能力要求。因此,考生在应对分析题时,要恰当运用给定资料提供的各种案例、数据,来准确做出判断。3.贯彻执行能力贯彻执行能力贴近实际,近几年市级卷对这一能力愈加重视,通常以应用文写作为载体考查该能力,且考查比重有增无减。在国家公务员考试大纲中,市级职位明确提出贯彻执行的能力要求,众所周知,市级职位面向一线基层工作非常具体,而且更重视对上级政策的贯彻执行。为此,2014年国家公务员考试(市级)第三题,要求考生根据给定资料中提到的案例设计一份调查问卷。其实,当前我国政府为保证决策科学、民主,经常采用网络问政、电视问政等方式了解民意,调查问卷由此出现在公务员日常工作中。面对日趋灵活的考查形式,我们建议考生在练习应用文写作时,不应仅局限于掌握公文的写作规范及格式,还应结合当前政府转型升级后不断涌现的新型文种,熟练掌握各种应用文写作结构、格式。4.解决问题能力省级:国家公务员录用考试以选拔政府工作人员为目标,而省级公务员的能力要求中明确提出要考查提出和解决问题的能力。这是由于省级岗位面对的工作更为宏观,所以要求各位考生从纷繁复杂的资料中抽丝剥茧,发现其中蕴含的问题,继而提出解决问题的方法。在面对考试时,考生一定要注意“提出”和“解决”是两个截然不同的概念,我们一定要将“提出问题——分析问题——解决问题”的逻辑思路与具体题型相结合。近年来,很多考生在作答文章论述题时,很喜欢采用“解决问题型”结构,这就要求我们一定要提出问题,继而结合材料分析,最后适当练习实际提出解决措施。而作答提出对策题时,则要根据题目要求,隐去分析内容,概况问题提出对策。市级:解决问题能力几乎是申论必考能力,虽然2014年国家公务员考试(市级卷)并未出现提出对策题,但是并不能排除2015年出题的可能,因此考生还是应提高警惕,掌握如下要求:第一,角度正确。解决问题时,考生要明确自身立场,一般题干未明确说明时,均应以“政府角度”作答,即思考作为政府工作人员,会如何着手解决问题。如果题干明确限定身份,考生便可按照题目要求转换身份,提出解决方案。第二,对策具体。申论考试切忌使用对策模板,或提出“假、大、空”一类令阅卷者深恶痛绝的对策,一定要保证对策的具体可行、切合实际。提醒各位考生,解决问题的能力并非只在提出对策题中考查,作答综合分析题与文章论述题时,我们同样要秉持“提出问题——分析问题——解决问题”的思路,明确提出到底应该怎么办。5.文字表达能力文字表达能力最能体现考生的文案工作能力,考生务必重视该能力的训练。第一,简洁流畅。由于申论考试严格的字数要求,考生必须保证用语简洁,这不仅能节省作答字数,也可以向阅卷者展现考生自身的逻辑思维能力及语言把控能力。申论文章写作题均会出现“语言畅达”或“语言流畅”的要求,因此考生要恰当选用关联词语,保证作答语句通畅。第二,规范生动。规范指考生应避免使用口语、网络用语,而应使用书面语、机关常用语、惯用语,以求达到大纲要求。在规范的基础上,考生应使用恰当的修辞手法及名言警句,为作答增添文采的同时获得阅卷者青睐。中公教育网站第一时间公布各类公考类信息,建议及时关注,祝考试成功!&如有疑问,欢迎向中公教育企业知道提问。
您好, 中政行测 和 中政申论 备考平台为您解答!中政申论专家很高兴为你解答,申论中要求不超过400字就是要小于等于400字,超过会扣分,只有在400字左右,就有上下10%的浮动,2013年的国家公务员申论考试对于字数控制很严格,比如说,要求150个字,答题的格子就只有150个,所以要求考生能够有很好的总结提炼内容的能力。行测备考网站推荐:(专业的行测在线题库,免费的海量试题)申论备考网站推荐:(可获取老师的专业批改和点评)如仍有疑问,欢迎向"中政行测在线备考平台"和"中政申论在线备考平台"提问,我们会及时解答。
公务员考试申论的相关知识
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁申论评分标准_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
评价文档:
申论评分标准
阅读已结束,如果下载本文需要使用
想免费下载本文?
你可能喜欢请教申论75分以上的高手这次有栽在申论上了,只有66分,基本算垫底了。 想问下那些75分以上的申论高手,你们这次的大作文怎么写的?政论还是策论?是按部就班的模式化作文还是有个性_百度作业帮
请教申论75分以上的高手这次有栽在申论上了,只有66分,基本算垫底了。 想问下那些75分以上的申论高手,你们这次的大作文怎么写的?政论还是策论?是按部就班的模式化作文还是有个性
请教申论75分以上的高手这次有栽在申论上了,只有66分,基本算垫底了。 想问下那些75分以上的申论高手,你们这次的大作文怎么写的?政论还是策论?是按部就班的模式化作文还是有个性元素?申论得分跟字的好坏有关系吗?前面两道大题是以精简为主吗?
一般情况下,申论得66分已经是高分了。
百度“传奇姐”,此人申论向来第一!
保持中性就可以了。跟字的好坏是有关系的。您还未登陆,请登录后操作!
关于申论的问题,我是出离愤怒了.
试卷阅卷,我可没有对不起一个弟弟妹妹,,,看到其他兄弟只有三四十分,那么也许出来的不是全部吧,只是一二题成绩,统计结果还没出来吧,,,如果26日,成绩依然如此,我想大家一起申诉,,,,,,
一、不公平,有些人可以早些查到成绩。
二、不合理,申论成绩不该普遍那么低。
三、不公开,判卷的标准不向社会公布。
四、不公正,整个招考的过程不够严密。
说实话,我也搞不清楚分数是否统计完整,但是看到很多考友都在痛呼自己的申论分数太低,与实际不相符和。我也觉得有点蹊跷。小妹在此大胆一问,有没有专业人士可以解释,公务员的分数线到底是如何划出来的,是根据考生的分数情况吗?也就是说,先有线再有分,还是先有分,再画线呢?我想,如果这个问题解决了,大家应该不必在争论现在查到的分数是否准确了。
公布答案又有什么关系?
想不通
还有不知为什么考试答案不公布? 技术原因?
是怕答案经不起推敲吧??!!!!还是怕人家看完以后因判卷不公找他?
不会没有参考答案的,如果申论没有一个参考答案,那还了得。
人事部的人说了半天也没说出来考生错在哪?光说没&好好审题&。难以服众,是不能说,还是不敢说?
第二题倒扣也最多是那三十分都不给,那剩下的七十分呢?大家心里就没疑问吗?参考答案到底是什么样的?大家分别找高分的同学问问,他们的答案和判卷老师的思路接近,大家不好奇老师们到底想让我们答嘛?有空在网上贴一下,大家&奇文&共观赏嘛。
你怎么这样,抄我答案啊????
公务员也都是像你这样的不正当竞争者弄的垃圾了!!!
楼主,不要相信他!!我的帖子在他前面,我已经向新浪投诉他了!!!!!!!!!!!
维护平等竞争的大环境!
你怎么这样,抄我答案啊????
公务员也都是像你这样的不正当竞争者弄的垃圾了!!!
楼主,不要相信他!!我的帖子在他前面,我已经向新浪投诉他了!!!!!!!!!!!
维护平等竞争的大环境!
楼主,不要信他1!!!!!
你怎么这样,抄我答案啊????
公务员也都是像你这样的不正当竞争者弄的垃圾了!!!
您的举报已经提交成功,我们将尽快处理,谢谢!
大家还关注

我要回帖

更多关于 申论的评分标准 的文章

 

随机推荐