一次数据分析的全过程

来源:网络 责任编辑:栏目编辑 发表时间:2013-07-01 19:40 点击:

 

源数据就是个日志文本信息

2008/1/11               02:14:33:181           181          00001c68                SeqID       418370    ToBack()=TRUE       Len=154  MsgID=x00000202                

2008/1/11               02:14:33:181           181          00001c68                SeqID       418370    ToFront()=TRUE      Len=260  MsgID=x08000202                BEIP=192.168.1.162                BEPort=22049

2008/1/11               03:05:42:330           330          00004110                SeqID       418370    ToBack()=TRUE       Len=154  MsgID=x00000202                

2008/1/11               03:05:42:346           346          00004110                SeqID       418370    ToFront()=TRUE      Len=261  MsgID=x08000202                BEIP=192.168.1.163                BEPort=22049

 

要的结果是统计一下,各时段对应的超时毫秒的数量

 

理论上也不复杂,能找出数据规律,进行分组统计而已,但问题在于:

首先统计是上下文相关的,即通过上下文的数据相计算才能获取到相应的指标

其次如何判断上下文的场景,根据几组字段判断都有问题,即得不到唯一的标示

原来想着应该是轻而易举的事情,先把数据导入oracle吧

有日期有时间,需要把文本的日期时间处理成oracle的date类型,可偏偏date类型不支持毫秒运算,第一个问题出来了,依赖于日志中已有的毫秒进行上下文计算又有一定的问题。

先统计了再说吧

select b.hours,

case when overlap<10 then '<10ms'

     when overlap<20 then '10-20'

     when overlap<30 then '20-30'

     when overlap<40 then '30-40'

     when overlap<50 then '40-50'

     when overlap<60 then '50-60'     

     when overlap<70 then '60-70'

     when overlap<80 then '70-80'

     when overlap<90 then '80-90' 

     else '>90ms'

end tt,

count(*)

from

(

select a.f,a.d from

    相关新闻>>

      发表评论
      请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
      用户名: 验证码:点击我更换图片
      最新评论 更多>>

      推荐热点

      • Request.ServerVariables 参数大全
      • 执行全文索引时出现权限不足的解决方法
      • 导入excel文件处理流程节点的解决方案
      • 查看sql修改痕迹(SQL Change Tracking on Table)
      • MongoDB安装为Windows服务方法与注意事项
      • App数据层设计及云存储使用指南
      • PostgreSQL启动过程中的那些事三:加载GUC参数
      • 写给MongoDB开发者的50条建议Tip1
      • Percolator与分布式事务思考(二)
      网站首页 - 友情链接 - 网站地图 - TAG标签 - RSS订阅 - 内容搜索
      Copyright © 2008-2015 计算机技术学习交流网. 版权所有

      豫ICP备11007008号-1