Web日志挖掘分析的方法
日志文件的格式及其包含的信息
①2006-10-1700:00:00②202.200.44.43③218.77.130.2480④GET⑤/favicon.ico
⑥Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+zh-CN;+rv:1.8.0.3)+Gecko/20060426
+Firefox/1.5.0.3。
①访问时间;②用户IP地址;③访问的URL,端口;④请求方法(“GET”、“POST”等);
⑤访问模式;⑥agent,即用户使用的操作系统类型和浏览器软件。
日志的简单分析
1、注意那些被频繁访问的资源
2、注意那些你网站上不存在资源的请求。常见的扫描式攻击还包括传递恶意参数等:
3、观察搜索引擎蜘蛛的来访情况
4、观察访客行为
应敌之策:
1、封杀某个IP
2、封杀某个浏览器类型(Agent)
3、封杀某个来源(Referer)
4、防盗链
5、文件重命名
作用:
1.对访问时间进行统计,可以得到服务器在某些时间段的访问情况。
2.对IP进