这是命令 clfmerge,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
clfmerge - 基于时间戳合并通用日志格式的网络日志
概要
合并 [ - 帮助 | -H] [-b 尺寸] [-d] [文件 姓名]
商品描述
这个 合并 程序旨在避免使用排序来合并多个网络日志文件。 网络
大型站点的日志由多个文件组成,大小超过 100M
机器。 对于此类文件,使用 gnusort 之类的程序进行合并是不切实际的
文件,因为数据并不总是完全有序(所以 gnusort 的合并选项
效果不佳),但它的顺序不是随机的(因此进行完整排序将是一个
浪费)。 此外,正在排序的日期字段也不是特别容易指定
对于 gnusort (我已经看到它完成了,但它很乱)。
该程序旨在简单快速地对多个大型日志文件进行排序,而无需
用于临时存储空间或内存中过大的缓冲区(内存占用为
一般只有几兆)。
产品详情
它将在命令行上取一些(从 0 到 n)的文件名,它将打开它们
用于从它们中读取和读取 CLF 格式的网络日志数据。 没有出现的行
采用 CLF 格式(注意,它们没有被完全解析,只有最少的解析来确定日期
执行)将被拒绝并显示在标准错误上。
如果指定了零个文件,则不会有错误,它只会静默输出
没什么,这是用于使用 发现 命令来查找日志文件,哪些不能
可以指望找到任何日志文件,它可以节省在您的 shell 脚本中进行额外检查。
如果指定了一个文件,那么数据将被读入一个 1000 行的缓冲区,它将被
按日期顺序从缓冲区中删除(并显示在标准输出上)。 这是为了
处理在连接时间输入日期但将它们写入的 Web 服务器的情况
完成时的日志,从而生成无序的日志文件(Netscape web
服务器这样做 - 我没有检查其他网络服务器做什么)。
如果指定了多个文件,则将从每个文件中读取一行,该文件
有最早的时间戳将被读取,直到它返回一个晚于一个的时间戳
的其他文件。 然后将读取具有较早时间戳的文件。 和
多个文件的缓冲区大小为 1000 行或 100 * 文件数(以
更大)。 当缓冲区变满时,第一行将被删除并显示在
标准输出。
配置
-b 缓冲区大小
指定要使用的缓冲区大小,如果指定为 0 则表示禁用
数据的滑动窗口排序,提高了速度。
-d 将域名重整设置为开启。 这意味着如果一行以名称开头
所请求的网站的名称将从一开始就被删除
线和 的GET / 将更改为 的GET http://www.company.com/ 这使得
像 Webalizer 这样的程序可以为大型托管站点生成良好的图表。 还有它
将使域名为小写。
退出 状态
0 没有错误
1 参数错误
2 无法打开指定的文件之一
3 无法写入输出
使用 onworks.net 服务在线使用 clfmerge