腾讯云安全加速真的能让我的网络安全和云安全速度飞起来、安全性能提高N倍吗?

扫一扫,访问微社区
查看: 41647|回复: 51
云币1869 威望5488 最后登录积分5488注册时间帖子
资深攻城师[LV4], 积分 5488, 距离下一级还需 9512 积分
云币1869 威望5488
腾讯云安全认证介绍
什么是腾讯云安全认证?
腾讯云安全认证是腾讯云提供的免费安全认证服务,通过申请审核的用户将获得权威的腾讯云认证展示,让您的业务获得腾讯亿万用户的认可。
1)免费安全服务:腾讯云提供多项免费安全保障,全方位为您的业务保驾护航。具体如下:
DDoS防护:专业的DDoS防护服务,让您远离DDoS攻击影响。
DNS劫持检测:提供域名在Local DNS上的解析监控,及时发现域名指向异常。
后门木马检测:通过专业的分析模型,帮您及早发现网站后门木马。
暴力破解告警:全方位的登录防护,防止您的服务器被暴力破解。
异地登录提醒:全方位的登录防护,及时帮您发现异地登录行为。
服务器登录流水查询:提供详细的登录流水,及时发现异常登录行为。
漏洞扫描:查漏洞防黑客,为您的网站提供最贴心的保护。
组件状态查询:轻松掌握安全加固组件的运行状态,及时修复异常组件。
网站安全防护(WAF):精准实时的Web安全防护服务,为你的云服务保驾护航。
2)权威认证展示:您的网站/应用将在腾讯各渠道获得专属腾讯云认证展示,让您的业务获得腾讯亿万用户的认可。具体如下:
QQ对话框安全链接认证展示:
网站认证展示:
注:目前腾讯云安全认证为公测阶段,仅开放上述认证展示,其他安全认证展示暂时不开放申请,后续敬请关注平台公告。
1)托管腾讯云:注册腾讯云成为腾讯云用户(如已有腾讯云账户无需重复注册),业务托管至腾讯云服务器,安装安全加固组件,并开启使用所有的云安全服务。
2)完成备案:若您的域名没有办理备案,请在腾讯云进行备案。
3)页面申请:当您完成上述步骤后,请您到
页面进行申请。
4)认证成功:认证成功后,腾讯云将在认证管理页面展示认证结果,您认证的站点将会获得腾讯云安全认证展示。
1)目前暂不支持香港地域申请
2)目前暂不支持中文域名申请
3)目前暂不支持短网址、秒赞等类型网站申请
1)托管腾讯云:您的业务需全部托管至腾讯云服务器,安装安全加固组件,并开启使用所有的云安全服务。
2)完成工信部备案:您的业务需已获得工信部ICP备案。
3)业务内容合法:您的业务内容需在法律许可范围内,无政治敏感、色情、赌博、违法违规等不合法内容和记录。
4)无安全风险:您的网站/应用无重大安全隐患,无用户隐私泄漏、木马病毒,钓鱼欺诈等安全风险。
!!常见问题
1)认证的审核时长是多久?
答:审核周期在3个工作日内。如果满足认证条件的,最快可以在当天通过认证!
2)审核结果以何种方式反馈给申请人?
答:审核结果将会通过站内信、腾讯云注册邮箱和腾讯云注册手机短信这3个渠道通知申请人,并在
页面进行展示。
3)如果申请人对审核结果有异议该如何处理?
答:请先根据wiki指引进行自助修复,如果无法修复请直接联系客服说明相关原因。
4)为什么要托管腾讯云服务器才能获得认证?
答:为保证您的业务的安全不受攻击,需托管腾讯云服务器且启用所有云安全服务,腾讯云将提供多项安全保障为您保驾护航。
5)通过认证后,我能获得哪些认证展示?
答:目前腾讯云安全认证为公测阶段,通过认证后将会获得QQ对话框安全链接认证展示、网站认证展示,其他安全认证展示暂时不开放申请,后续敬请关注平台公告。
6)通过备案授权码备案成功的用户,在申请认证时需要注意什么?
答:如果您是通过备案授权码备案成功的用户,申请认证时腾讯云QQ号一项,需要填写给您提供授权码的QQ号码。其他信息填写您自己的即可。
7)站点没有指向机器,如何修复?
答:在域名注册机构的域名管理(解析)面板添加A记录,指向腾讯云机器。
8)站点没有指向腾讯云机器,如何修复?
答:在域名注册机构的域名管理(解析)面板修改A记录,指向腾讯云机器。
9)域名没有在腾讯云备案,如何修复?
答:在腾讯云进行域名备案。
10)云安全服务没有开通,如何修复?
答:在 管理中心&云安全&设置 页面中开启相应的云安全服务。如下图所示:
11)服务器的安全加固组件异常,如何修复?
答:在 管理中心&云安全&安全服务详情&安全加固组件&组件状态查询 页面查询安全加固组件状态,如果未发现异常,则在
页面点击重新认证即可;如果发现异常,则详见。
12)帐号存在恶意违规记录,如何修复?
答:请于90天后重新申请安全认证。云安全违规事件的等级划分以及修复方案请参见:。
13)站点存在web漏洞,如何修复?
答:在 管理中心&云安全&安全服务详情&漏洞防护&漏洞扫描&漏洞详情 页面,根据相关指引进行漏洞修复。如下图所示:
14)站点存在恶意内容被腾讯电脑管家拦截,如何修复?
答:请联系
协助解决。
15)帐号存在被腾讯电脑管家拦截记录,如何修复?
答:请于90天后重新申请安全认证。
16)一级域名存在被腾讯电脑管家拦截记录,如何修复?
答:请于90天后重新申请安全认证。
, , , , , , , , ,
有 69 人觉得本主题有帮助
云币196 威望76 最后登录积分76注册时间帖子
小白[LV1], 积分 76, 距离下一级还需 224 积分
云币196 威望76
好东西啊!我其他网的想转到腾讯了,只是备案转入太麻烦了,希望程序能简化,方便我们其他网的转入!
云币1869 威望5488 最后登录积分5488注册时间帖子
资深攻城师[LV4], 积分 5488, 距离下一级还需 9512 积分
云币1869 威望5488
特维尔渔具-批发 发表于
好东西啊!我其他网的想转到腾讯了,只是备案转入太麻烦了,希望程序能简化,方便我们其他网的转入! ...
目前腾讯云备案转入非常便捷,详情您可以咨询下企业QQ备案客服。备案成功之后,立即拥有认证图标哦~~~
云币41 威望9 最后登录积分27注册时间帖子
小白[LV1], 积分 27, 距离下一级还需 273 积分
云币41 威望9
个人用户能申请认证吗?我也想转入!
云币1869 威望5488 最后登录积分5488注册时间帖子
资深攻城师[LV4], 积分 5488, 距离下一级还需 9512 积分
云币1869 威望5488
ewivan 发表于
个人用户能申请认证吗?我也想转入!
云币16273 威望20870 最后登录积分20870注册时间帖子
云币16273 威望20870
是用的腾讯云服务器,但是用了别家的免费CDN加速, 导致申请时候提示不属于腾讯云机器!
云币1869 威望5488 最后登录积分5488注册时间帖子
资深攻城师[LV4], 积分 5488, 距离下一级还需 9512 积分
云币1869 威望5488
maybe 发表于
是用的腾讯云服务器,但是用了别家的免费CDN加速, 导致申请时候提示不属于腾讯云机器! ...
是的 云安全认证不支持使用CDN的 如需申请 请您撤销CDN之后在重新提交申请哈
云币16273 威望20870 最后登录积分20870注册时间帖子
云币16273 威望20870
您好!申请已经成功了,但是在QQ聊天窗口发送网址还是问号状态,只有加http才显示通过认证
云币16273 威望20870 最后登录积分20870注册时间帖子
云币16273 威望20870
请问用腾讯云自家的CDN也无法通过认证吗?
云币1869 威望5488 最后登录积分5488注册时间帖子
资深攻城师[LV4], 积分 5488, 距离下一级还需 9512 积分
云币1869 威望5488
maybe 发表于
您好!申请已经成功了,但是在QQ聊天窗口发送网址还是问号状态,只有加http才显示通过认证 ...
通过了之后 在QQ聊天窗口是有安全认证的图标的 建议先升级到最新版本的QQ看下 如果还是没有 请联系我们的企业QQ售后客服 帮您查看下问题出在哪儿
云币1869 威望5488 最后登录积分5488注册时间帖子
资深攻城师[LV4], 积分 5488, 距离下一级还需 9512 积分
云币1869 威望5488
maybe 发表于
请问用腾讯云自家的CDN也无法通过认证吗?
云安全认证不支持接入CDN的
&好帖: 5 有道理: 5 顶: 5 支持: 5 这是一个非常不好的决策,为什么不能支持Cdn认证呢?
我们同样是花钱购买腾讯的CDN加速的啊,
网站稍微做得好一点的,有哪个不用CDN加速啊,不 &
云币5 威望1 最后登录积分10注册时间帖子
小白[LV1], 积分 10, 距离下一级还需 290 积分
云币5 威望1
如果网站有几个二级域名,但是都指向一个腾讯云ip,是不是在qq上发的时候,这几个二级域名也显示认证标志?
云币41 威望9 最后登录积分27注册时间帖子
小白[LV1], 积分 27, 距离下一级还需 273 积分
云币41 威望9
denniszyang 发表于
哈哈,连同域名注册,备案,认证,全部通过啦,腾讯云,太强大了,赞一个!
云币47 威望23 最后登录积分54注册时间帖子
小白[LV1], 积分 54, 距离下一级还需 246 积分
云币47 威望23
会的是举手之劳,不懂的就是费脑徒劳。没文化真可怕,哈哈当然种菜种地他们也不会,各有所长
云币58 威望22 最后登录积分61注册时间帖子
小白[LV1], 积分 61, 距离下一级还需 239 积分
云币58 威望22
备案真是麻烦事啊。
云币147 威望33 最后登录积分329注册时间帖子
程序猿[LV2], 积分 329, 距离下一级还需 871 积分
云币147 威望33
能支持中文域名就好了,现在只能看看
云币50 威望28 最后登录积分67注册时间帖子
小白[LV1], 积分 67, 距离下一级还需 233 积分
云币50 威望28
首先,我用腾讯云,就是为了绿勾勾,我的帐号无缘无故被拦截,问了几波客服,拖了一个礼拜,都说可能是误报,最后一个客服给我的答案是,需要等90天之后重新申请,我就怪了,误报等90天,我没错,凭什么无缘无故让我等90天?能退钱吗?我换阿里云,至少不用解决这些问题。上面说腾讯云走下坡路还真没错,从机制到服务。
云币9 威望1 最后登录积分14注册时间帖子
小白[LV1], 积分 14, 距离下一级还需 286 积分
云币9 威望1
为什么我在discuz买的腾讯云主机无法申请安全认证。请解答一下。
云币2937 威望2076 最后登录积分2076注册时间帖子
攻城师[LV3], 积分 2076, 距离下一级还需 2924 积分
云币2937 威望2076
就是认证的主营业务为什么无法选择啊!
云币147 威望33 最后登录积分329注册时间帖子
程序猿[LV2], 积分 329, 距离下一级还需 871 积分
云币147 威望33
元归□ 发表于
能支持中文域名就好了,现在只能看看
我只想要个中文域名认证而已,解码的网址能认证也行啊
Powered by(window.slotbydup=window.slotbydup || []).push({
id: '2491531',
container: s,
size: '150,90',
display: 'inlay-fix'
腾讯云不让访问网站 有一些网站他不让访问,比如说一些私服。是不是腾讯这几天又弄什么东西监视我们的电脑了。没有升级qq之前还能访问
全部答案(共1个回答)
存在安全隐患
比如数字证书过期 或者敏感网站 可能打不开
因为它是腃讯系统软件及网页
还是用IE7吧
可能是系统垃圾文件太多导致的,主要是上网产生的垃圾文件,清理下就好了。
打开一个网页,点击“工具”菜单/Internet选项/在“常规”标签下点...
利用的是系统里面的hosts文件
Step1:进入Windows目录(Win9x)或者Winnt/System32/Drivers/Etc(Win2K),找到这...
还可以用QQ联系
弹出网页解决办法:
1.点击"开始-运行-输入msconfig",选择"启动",把里面后缀为url、html、htm的网址文件都勾掉。
2.弹出对话框。打开注册...
答: 水痘结痂怎么加速脱落?
答: 网络和软件都很不错的 还可以根据你自己的情况来选择 如果你英语和高数不错的话 可以学软件 如果都不是很理想的话 可以选择网络啊 我认为网络还是不错的 网络工程师...
答: 找到对方的IP,输入IE地址里就行了!
每家运营商的DNS都不同,而且各省的也不同。你可以问问你的网络提供商,他们会告诉你的。(也可以通过分别访问域名和IP来检查DNS是否正常,访问域名不行,而访问IP可以,则说明DNS设置不对)
另外,如果ADSL-电脑没问题,一般ADSL-路由器也没问题的。而且采用ADSL拨号的话,DNS可以不设置的,拨号成功后会自动取得DNS服务器。
问题可能出在路由器设置上。进去检查一下吧。看看上网方式,上网用户名密码是否正确。
(有个问题要注意一下,有些地方的运营商会限制使用路由器或者限制接入数量,一般是采取绑定网卡MAC地址的方式,如果路由器设置都正常,试试路由器的MAC地址克隆功能,把电脑网卡的MAC复制过去)
B.20世纪上半叶,人类经历了两次世界大战,大量的青壮年人口死于战争;而20世纪下半叶,世界基本处于和平发展时期。
“癌症的发病率”我认为这句话指的是:癌症患者占总人数口的比例。
而B选项说是死亡人数多,即总体人数下降了,但“癌症的发病率”是根据总体人总来衡量的,所以B项不能削弱上述论证
嫌麻烦就把你洗衣机的型号或断皮带,拿到维修点去买1个,自己装上就可以了(要有个小扳手把螺丝放松,装上皮带,拉紧再紧固螺丝)。
要有经营场所,办理工商登记(办理卫生许可),如果觉得有必要还要到税务局买定额发票,不过奶茶店一般人家消费是不会要发票的巴,要买设备,要联系供应商备一些原料,就好啦,没啥难的,不过要赚钱的话就得选好开店地段。
办理手续的程序(申领个体执照):
1、前往工商所申请办理
2、根据工商所通知(申请办理当场就会给你个小纸条)前往办理名称预核
3、拿到名称预核通知书,办理卫生许可证(前往所在地卫生监督所办理)
4、拿着名称预核通知书和卫生许可证前往工商所核发营业执照。
考虑是由于天气比较干燥和身体上火导致的,建议不要吃香辣和煎炸的食物,多喝水,多吃点水果,不能吃牛肉和海鱼。可以服用(穿心莲片,维生素b2和b6)。也可以服用一些中药,如清热解毒的。
确实没有偿还能力的,应当与贷款机构进行协商,宽展还款期间或者分期归还; 如果贷款机构起诉到法院胜诉之后,在履行期未履行法院判决,会申请法院强制执行; 法院在受理强制执行时,会依法查询贷款人名下的房产、车辆、证券和存款;贷款人名下没有可供执行的财产而又拒绝履行法院的生效判决,则有逾期还款等负面信息记录在个人的信用报告中并被限制高消费及出入境,甚至有可能会被司法拘留。
第一步:教育引导
不同年龄阶段的孩子“吮指癖”的原因不尽相同,但于力认为,如果没有什么异常的症状,应该以教育引导为首要方式,并注意经常帮孩子洗手,以防细菌入侵引起胃肠道感染。
第二步:转移注意力
比起严厉指责、打骂,转移注意力是一种明智的做法。比如,多让孩子进行动手游戏,让他双手都不得闲,或者用其他的玩具吸引他,还可以多带孩子出去游玩,让他在五彩缤纷的世界里获得知识,增长见识,逐渐忘记原来的坏习惯。对于小婴儿,还可以做个小布手套,或者用纱布缠住手指,直接防止他吃手。但是,不主张给孩子手指上“涂味”,比如黄连水、辣椒水等,以免影响孩子的胃口,黄连有清热解毒的功效,吃多了还可导致腹泻、呕吐。
合肥政务区网络广告推广网络推广哪家公司比较好 一套能在互联网上跑业务的系统,被网络营销专家赞为目前最 有效的网络推广方式!
1、搜索引擎营销:分两种SEO和PPC,即搜索引擎优化,是通过对网站结构、高质量的网站主题内容、丰富而有价值的相关性外部链接进行优化而使网站为用户及搜索引擎更加友好,以获得在搜索引擎上的优势排名为网站引入流量。
良工拥有十多位资深制冷维修工程师,十二年生产与制造经验,技术力量雄厚,配有先进的测试仪器,建有系列低温测试设备,备有充足的零部件,包括大量品牌的压缩机,冷凝器,蒸发器,水泵,膨胀阀等备品库,能为客户提供迅捷,优质的工业冷水机及模温机维修和保养。
楼主,龙德教育就挺好的,你可以去试试,我们家孩子一直在龙德教育补习的,我觉得还不错。
成人可以学爵士舞。不过对柔软度的拒绝比较大。  不论跳什么舞,如果要跳得美,身体的柔软度必须要好,否则无法充分发挥出理应的线条美感,爵士舞也不值得注意。在展开暖身的弯曲动作必须注意,不适合在身体肌肉未几乎和暖前用弹振形式来做弯曲,否则更容易弄巧反拙,骨折肌肉。用静态方式弯曲较安全,不过也较必须耐性。柔软度的锻炼动作之幅度更不该超过疼痛的地步,肌肉有向上的感觉即可,动作(角度)保持的时间可由10馀秒至30-40秒平均,时间愈长对肌肉及关节附近的联结的组织之负荷也愈高。
正在加载...
Copyright &
Corporation, All Rights Reserved
确定举报此问题
举报原因(必选):
广告或垃圾信息
激进时政或意识形态话题
不雅词句或人身攻击
侵犯他人隐私
其它违法和不良信息
报告,这不是个问题
报告原因(必选):
这不是个问题
这个问题分类似乎错了
这个不是我熟悉的地区登录以解锁更多InfoQ新功能
获取更新并接收通知
给您喜爱的内容点赞
关注您喜爱的编辑与同行
966,690 六月 独立访问用户
语言 & 开发
架构 & 设计
文化 & 方法
您目前处于:
互联网文本内容安全:腾讯云天御AI对抗实践
互联网文本内容安全:腾讯云天御AI对抗实践
0&他的粉丝
日. 估计阅读时间:
,帮助企业降本增效?让我们深度了解几个成功的案例。
相关厂商内容
相关赞助商
不良不雅评论,违规违法交易严重影响主营业务的健康发展 。面对此类问题,企业主该如何解决呢?
一种方法是投入人力加大审核力度,此种方式的特点如下:
垃圾评论占比较小,人力逐条审核容易漏审
UGC评论数据规模巨大,每日多达数十亿、百亿等,人力成本太高
审核人员的招聘成本,管理成本较高
另外一种方式是招聘专业的AI工程师自建识别模型,此种方式特点如下:
AI工程师非常昂贵
内容安全一般不属于主营业务,投入较少
识别模型的效果受限于样本规模和样本质量,在数据标注上需要持续投入
最后一种途径是购买保险:将内容安全问题交给专业的公司来解决,从而实现&四两拨千斤&。
三、现有解决方案
当前识别此类垃圾内容的主流方法有:关键词过滤模式、关键词文法过滤模式、在打标数据上训练垃圾识别模型的机器学习模式,或融合关键词与机器学习的混合模式,其特点分析如下:
基于关键词过滤模式:该模式的优点是立竿见影生效快,但是由于分词歧义问题导致误杀,对未登录的case泛化能力弱,词库的维护成本高
基于关键词文法的过滤模式:由于考虑了关键词的上下文,此种方式相比关键词过滤拥有了一定的消歧义能力,但是关键词文法需要人工总结归纳,再加上上下文不易枚举,使得人力成本成倍上升,于此同时随着变种不断涌现,从变种中挖掘拦截文法,人力成本不可控
静态机器学习模型或融合了关键词文法过滤的混合模式:由于模型是静态的,上线之后,应对不了变种问题,使得模型很快失灵
新变种不断涌现,会快速绕过当前垃圾识别方法,使得当前的方法&失灵&,各公司不得不投入大量人力研究变种,归纳拦截策略或标注新样本,于此同时每个业务平台上的垃圾内容存在较大差异,同一垃圾类型,客户的尺度也存在较大差别。在节约人力成本的条件下,如何解决此类对抗性的问题,并做到客户级的个性化定制,成为困扰业界一大难题。腾讯云天御分别从:
Active learning方式挖掘高质量语料,降低人工审核量
打造数据闭环降低研发运维投入
KV分布式存储实现GB级模型秒级更新
T+1滚动式升级模型对抗变种
等四大维度搭建内容安全完整解决方案。
四、腾讯云天御的方案
4.1 UGC分类
天御把UGC评论文本类型分为6大类:
违法违规:UGC中含有违法违规词汇,或法律禁止网上交易的内容
广告:为第三方导流的合法广告,其尺度因平台业务类型而异
低俗不文明:骂人,爆粗口等
4.2 UGC特点及天御应对策略
图1. 天御应对策略
图1可以看出互联网UGC主要特点如下:
规模巨大,天御通过研发可弹性部署的高并发算法引擎来应对每日上百亿的垃圾评论拦截请求
对抗性:新变种很容易绕过当前防控策略,腾讯云天御通过异常识别(基于Active Learning)为垃圾识别挖掘变种语料,大大节约人工审核量;垃圾识别会每隔一段时间拉取异常识别历史记录(已被人工审核),训练出最新的垃圾识别模型,为异常识别和垃圾识别构建一个数据环路,使得模型随着垃圾内容的变异而升级,有效解决了对抗性问题,大大降低研发投入;再将每一个客户的模型表格化,每一行追加上客户信息,实现不同客户之间的模型隔离,模型按行分布式存储使得在秒级实现多模型自动批量上线,大大降低系统维护成本。
防控尺度因业务类型而异,天御会针对每一种业务类型针对性的训练模型,从而实现模型的个性化定制
4.3 天御UGC过滤系统架构
图2. 天御系统架构
从图2看出腾讯云天御UGC过滤垃圾评论的系统架构主要分为四层:
底层数据层
核心能力层
拒绝类型&拒绝策略层
其中核心能力层包括4大模块:
1. 异常识别,目的是从各种异常类型中发掘最新变种,异常识别所做的工作见图3:
图3. 异常识别
图3中异常类型主要分为内容异常和行为异常,常见的内容异常主要包括变种和行话/暗语,而行为异常表现为同一个人在不同地方发布相同内容,或同一内容被不同人转发等。异常识别的手段主要是通过统计分析发现变种词汇,变种表达等;有些变种是在内容里相间插入特殊符号,其语言构成和正常文本有区别,可通过机器学习的方式来发掘此类变种;对于可疑的内容一般通过人工辅助+策略注入来确定是否为变种。
2. 打标平台,提供数据打标、算法效果每日抽检等等。主要功能分为:
a) 多人协同:目的是为了提升打标效率,会把一份数据分割成多分由多人完成打标
b) 抽样策略,由于UGC评论规模巨大,不论是抽取样本还是每日抽检算法效果,需要不同的抽样策略,最终实现少量样本覆盖全部case
c) 审核策略,分为单人初审、多人投票式的盲审,客户拦截效果评估等等,此块保证数据的打标质量
3. 模型平台,含模型训练和模型上线,具体包括:
a) partition策略,不同的客户、不同的业务场景,其防控尺度均不相同,需要针对性训练,模型平台会一次性训练多达上千个模型。partition策略起着分割数据,标识模型的作用
b) 特征工程:含有特征提取、特征选择,特征变换等,特征变换如各类账号,数字,表情符号归一化操作等等
c) 模型训练
d) KV分布式化,其作用是提升上线效率,支撑弹性部署,降低人工干预度
e) 评估策略,其作用是评估模型效果,判断模型是否可以上线,主要的手段是封闭测试
f) 更新策略,模型支持T+N滚动式更新,具体流程详见下图
图4. 模型平台及流程
图4中&更新策略N&代表一个定时任务,N的值代表相隔多少天更新一次,T表示模型训练语料集是T天的沉淀数据。在模型训练时,一个Trainer表示一个Reducer任务,其结果是产出一个模型,Merger是将所有模型分布式KV存储的操作,并在K中注入模型ID信息【partition+feature】,V是分类标签和标签权重信息的列表。
4. 垃圾识别,其工作如下图所示:
图5. 垃圾识别
从图5可见,依据影响业务健康度的程度和客户不同类型的拒绝策略,总体上将同一类垃圾类型划分为2类或3类:
白:正常内容
灰:疑似[可选]
黑:恶意内容
在垃圾内容识别上腾讯云天御采用关键词文法过滤+模型动态更新的文本分类方法实现的垃圾识别系统,支持单条关键词文法上的个性化配置。
垃圾广告、违规违法交易中一般含有各类联系方式,是否含有联系方式成为垃圾识别最显著的特征。联系方式常见的有:
4.4 文本分类算法选型:FastText
FastText是Facebook开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法。FastText 方法包含三部分:模型架构、层次 Softmax 和 N-gram 特征。
4.4.1 FastText模型架构
图6. FastText模型架构
FastText 模型输入一个词的序列(一段文本或者一句话),输出这个词序列属于不同类别的概率。
序列中的词和词组组成特征向量,特征向量通过线性变换映射到中间层,中间层再映射到标签。
FastText 在预测标签时使用了非线性激活函数,但在中间层不使用非线性激活函数。
FastText 模型架构和 Word2Vec 中的 CBOW 模型很类似。不同之处在于,fastText 预测标签,而 CBOW 模型预测中间词,见下图所示:
图7. FastText模型结构
4.4.2 FastText层次Softmax
图8. FastText 层次softmax
对于有大量类别的数据集,fastText使用了一个分层分类器(而非扁平式架构)。不同的类别被整合进树形结构中(想象下二叉树而非 list)。在某些文本分类任务中类别很多,计算线性分类器的复杂度高。为了改善运行时间,FastText 模型使用了层次 Softmax 技巧。层次 Softmax 技巧建立在哈弗曼编码的基础上,对标签进行编码,能够极大地缩小模型预测目标的数量。
考虑到线性以及多种类别的对数模型,这大大减少了训练复杂性和测试文本分类器的时间。FastText 也利用了类别(class)不均衡这个事实(一些类别出现次数比其他的更多),通过使用 Huffman 算法建立用于表征类别的树形结构。因此,频繁出现类别的树形结构的深度要比不频繁出现类别的树形结构的深度要小,这也使得进一步的计算效率更高。
4.4.3 FastText N-gram特征
常用的特征是词袋模型。但词袋模型不能考虑词之间的顺序,因此 FastText 还加入了 N-gram 特征。 &我爱 她& 这句话中的词袋模型特征是 &我&,&爱&, &她&。这些特征和句子 &她 爱 我& 的特征是一样的。如果加入 2-Ngram,第一句话的特征还有 &我-爱& 和 &爱-她&,这两句话 &我 爱她& 和 &她 爱 我& 就能区别开来了。当然,为了提高效率,我们需要过滤掉低频的 N-gram。
在 fastText 中一个低维度向量与每个单词都相关。隐藏表征在不同类别所有分类器中进行共享,使得文本信息在不同类别中能够共同使用。这类表征被称为词袋(bag of words)(此处忽视词序)。在 fastText中也使用向量表征单词 n-gram来将局部词序考虑在内,这对很多文本分类问题来说十分重要。
举例来说:fastText能够学会&男孩&、&女孩&、&男人&、&女人&指代的是特定的性别,并且能够将这些数值存在相关文档中。然后,当某个程序在提出一个用户请求(假设是&我女友现在在儿?&),它能够马上在fastText生成的文档中进行查找并且理解用户想要问的是有关女性的问题。
4.4.5 FastText词向量优势
1. 适合大型数据+高效的训练速度:能够训练模型&在使用标准多核CPU的情况下10分钟内处理超过10亿个词汇&,特别是与深度模型对比,fastText能将训练时间由数天缩短到几秒钟。使用一个标准多核 CPU,得到了在10分钟内训练完超过10亿词汇量模型的结果。此外,FastText还能在五分钟内将50万个句子分成超过30万个类别。
2. 支持多语言表达:利用其语言形态结构,fastText能够被设计用来支持包括英语、德语、西班牙语、法语以及捷克语等多种语言。它还使用了一种简单高效的纳入子字信息的方式,在用于像捷克语这样词态丰富的语言时,这种方式表现得非常好,这也证明了精心设计的字符 n-gram 特征是丰富词汇表征的重要来源。FastText的性能要比时下流行的word2vec工具明显好上不少,也比其他目前最先进的词态词汇表征要好。
图9. FastText与其他方法对比
3. FastText专注于文本分类,在许多标准问题上实现当下最好的表现(例如文本倾向性分析或标签预测)。FastText与基于深度学习方法对比:
4. 比word2vec更考虑了相似性,比如 fastText 的词嵌入学习能够考虑 english-born 和 british-born 之间有相同的后缀,但 word2vec 却不能
4.5 数据闭环
图10. 天御数据闭环
腾讯云天御在垃圾识别、异常识别和人工审核构建一个数据闭环:
人工审核沉淀的数据为垃圾识别提供训练语料,由于每天都有数据被打标,为垃圾识别T+1滚动式更新模型创造了条件
每日抽检被识别为黑的部分,作为统计算法效果的审核样本,于此同时将不能识别的最新变种交给异常识别来发掘
审核平台的审核抽样策略挖掘最能反映总体的小量样本,覆盖尽可能多的case,大大降低人工审核量
五、总结&思考
5.1 系统指标
图11. 系统指标
封闭测试准确率、召回率、准确度用来衡量样本的打标质量
测试集上的准确率和召回率用来衡量模型的质量
抽样准确率用来衡量算法线上效果
进审量、人效、审核平均延时直接决定着人力审核成本
盲审抽样率、盲审一致率体现数据打标人员对数据标注的标准理解深度
5.2 天御的表现
图12. 天御的表现
文本内容对甲方来说:
非主营业务,对此块的重视程度不够
业务价值不易衡量,员工投入其中其职业发展受限
业务数据规模巨大,投入产出不划算
预算偏少,不雅、不良评论、违法违规容易触及法律红线,严重影响主营业务
综上,未来内容安全一条便宜省心的趋势,选择行业成熟的解决方案,可以实现业务健康发展的同时,确保内容安全。
5月23日-24日,2018腾讯云+未来峰会将在广州举行。24日上午举行的安全分论坛,将齐聚来自腾讯集团多个安全团队的顶尖专家( TK(于旸)、 Killer(董志强) 等)以及业内重磅合作伙伴;将首次揭晓腾讯在企业安全领域的云管端全景布局;更有抗量子、加密算法与安全相结合的前沿技术分享。报名移步腾讯云官网~
Author Contacted
此内容所在的主题为
语言 & 开发
448 他的粉丝
架构 & 设计
1013 他的粉丝
18 他的粉丝
215 他的粉丝
138 他的粉丝
1 他的粉丝
0 他的粉丝
告诉我们您的想法
允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p
当有人回复此评论时请E-mail通知我
允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p
当有人回复此评论时请E-mail通知我
允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p
当有人回复此评论时请E-mail通知我
赞助商链接
InfoQ每周精要
订阅InfoQ每周精要,加入拥有25万多名资深开发者的庞大技术社区。
架构 & 设计
文化 & 方法
InfoQ.com及所有内容,版权所有 ©
C4Media Inc. InfoQ.com 服务器由 提供, 我们最信赖的ISP伙伴。
极客邦控股(北京)有限公司
找回密码....
InfoQ账号使用的E-mail
关注你最喜爱的话题和作者
快速浏览网站内你所感兴趣话题的精选内容。
内容自由定制
选择想要阅读的主题和喜爱的作者定制自己的新闻源。
设置通知机制以获取内容更新对您而言是否重要
注意:如果要修改您的邮箱,我们将会发送确认邮件到您原来的邮箱。
使用现有的公司名称
修改公司名称为:
公司性质:
使用现有的公司性质
修改公司性质为:
使用现有的公司规模
修改公司规模为:
使用现在的国家
使用现在的省份
Subscribe to our newsletter?
Subscribe to our industry email notices?
通过订阅此邮件,我们可能会根据您以往感兴趣的主题向您发送内容。关于更多详情,请参阅我们的。
我们发现您在使用ad blocker。
我们理解您使用ad blocker的初衷,但为了保证InfoQ能够继续以免费方式为您服务,我们需要您的支持。InfoQ绝不会在未经您许可的情况下将您的数据提供给第三方。我们仅将其用于向读者发送相关广告内容。请您将InfoQ添加至白名单,感谢您的理解与支持。

我要回帖

更多关于 网络安全和云安全 的文章

 

随机推荐