本文共 6865 字,大约阅读时间需要 22 分钟。
为了简化文件日志的采集过程,Logtail 提供了按行采集的极简模式:通过换行符来切分日志,每行作为一条日志。极简模式具有高效、配置简单等优势,但它将整条日志的内容作为整体,而不会对单条日志的内容进行额外解析,在有些场景下无法满足需求。为此,我们还提供了其他解析方式,例如:分隔符模式、完整正则模式、JSON 模式等。
本文将介绍如何使用完整正则模式来实现对日志的解析,并且介绍一些使用此模式时的最佳实践。
完整正则模式是通过正则表达式实现的日志解析。正则表达式是用于匹配字符串中字符组合的模式,通俗来讲,我们可以通过它来表达我们要什么样的日志。正则表达式具有多个规范,包括 Posix、Perl 等,Logtail 的完整正则模式所支持的语法符合 Perl 正则(PCRE)规范(本文后续内容中所涉及的正则表达式都会采用该规范编写)。
如上图所示,相比极简模式,完整正则模式增加了以下几个功能:
采集多行日志
提取字段
指定日志时间
接下来,我们将通过实际的操作去帮助您更好地理解如何使用完整正则模式的这三个功能。
建议您可以先行到开通日志服务,创建必要的 project 和 logstore,这样您可以跟着本文的后续内容一起操作,加深您对完整正则模式的各个选项的理解。
我们为每个用户都提供了每月的,简单的试用不会给您带来花费,不必担心~
在您首次完成新的 project 和 logstore 的创建后,您将会进入到数据向导页面,如下图所示:
如果您不小心退出了这个页面(或者非首次创建),也可以通过如下的步骤进入:
进入数据向导页面后,请滑动到页面的最下端,在自定义数据中选择文本文件,如下图所示:
在点击进入的页面中,选择完整正则模式,您会看到如下的界面:
至此,我们的准备工作已经完成,接下来我们将依次为您介绍完整正则模式的三个功能。
一般来说,日志文件都是单行日志,比如 Nginx 日志、Apache 日志等,示例如下:
127.0.0.1 - - [10/Sep/2018:12:36:49 +0800] "GET /index.html HTTP/1.1" 200 612 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"127.0.0.1 - - [10/Sep/2018:12:36:50 +0800] "GET /favicon.ico HTTP/1.1" 404 571 "http://127.0.0.1:8080/index.html" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"
但同样也存在着多行日志的情况,比如使用日志库所打印的 Java 的异常堆栈日志等,示例如下:
[2018-10-01T10:30:01,000] [INFO] java.lang.Exception: exception happened at TestPrintStackTrace.f(TestPrintStackTrace.java:3) at TestPrintStackTrace.g(TestPrintStackTrace.java:7) at TestPrintStackTrace.main(TestPrintStackTrace.java:16)[2018-10-01T10:30:31,000] [INFO] java.lang.Exception: another exception happened at TestPrintStackTrace.f(TestPrintStackTrace.java:3) at TestPrintStackTrace.g(TestPrintStackTrace.java:7) at TestPrintStackTrace.main(TestPrintStackTrace.java:16)
完整正则模式同时支持对以上两种日志的解析,接下来我们来看看如何进行配置。
当切换到完整正则模式时,默认使用的是单行配置,您只需要将您的实际日志粘贴到日志样例文本框中即可,如下图所示:
对于多行日志的配置,首先您要关闭单行模式,然后设置行首正则表达式。Logtail 引入行首正则表达式来区分两条多行日志之间该如何被切分,所以正确地设置行首正则表达式是切分您的多行日志的关键。
以先前提及的 Java 异常堆栈日志为例,每条日志的开头都会有时间和日志等级,而日志的后续内容中一般没有类似的内容,因此,我们可以根据这一点来设置我们的行首正则表达式(同样地,您需要在日志样例中粘贴您的实际日志,最好两条以上)。
为了简化您的操作,我们为您提供了自动生成正则表达式的功能,您可以在粘贴日志后,点击自动生成,如下图所示:
上图示例中有几点值得我们注意:
自动生成的行首正则表达式 (\[\d+-\d+-\w+:\d+:\d+,\d+]\s\[\w+]\s.*)
正确包含了时间和日志等级两部分:
\[\d+-\d+-\w+:\d+:\d+,\d+]
表示时间部分。[\w+]\s
表示日志等级部分以及其之后的空白符。\s
表示它们之间的空白符。.*
是固定内容,一定要填写。自动生成行首正则表达式的功能很方便,但有时候它所生成的内容并不一定能够满足您的需求,您可以点击手动输入正则表达式,在自动生成的基础上,进行修改。当您进入手动输入正则表达式的状态时,页面上将出现一个验证按钮,通过它您可以验证当前输入的行首正则表达式能够从日志样例中匹配出多少行日志,方便您就地进行调试。
如下图所示,我们对自动生成的行首正则的第二部分(日志等级)进行了错误修改(去掉了 + 号),然后再点击验证就会发现日志的匹配数目变为了 0。
在设置了单行或者多行及其行首正则表达式后,我们能够将原始文件中的内容切分为一条条的日志。如果每条日志都符合某个模式且能够使用相同的正则表达式来进行匹配时,我们就可以将每条日志中的局部内容提取出来,将日志转换为由键值对组成。
上述的这个过程我们称之为提取字段,在默认情况下,完整正则模式也只会将每条日志作为一个整体发送到服务端。为了开启此功能,您需要在页面上打开提取字段选项,如下图所示:
同样地,为了方便您的使用,您也可以使用自动生成的方式来为各个字段生成对应的正则表达式。在您打开了提取字段的选项后,日志样例文本框将变成一个可选择的区域,您可以在上面选中要提取的内容,随后点击弹出的正则按钮为选中的部分生成正则表达式。动图示例如下:
接下来我们使用自动生成来为先前的单行和多行示例提取字段。
如上图所示:
()
包裹的部分就是匹配对应字段的值时所使用的子模式。回想一下,我们之前也提到了提取字段是利用了正则表达式的括号语法实现的。如上图所示,整个生成的过程基本类似,但需要注意一下最后一个字段(message)。在生成时,因为我们希望最后一个字段包含剩余的所有内容,我们跨越了多行去选择日志内容。该字段对应的正则(仅括号内)为 ([^:]+:\s\w+\s\w+\s[^:]+:\S+\s[^:]+:\S+\s\S+)
。事实上,这个正则是错误的(下文中我们会对此进行验证):
这也体现了自动生成正则表达式的局限性,对此,您可以通过手动输入正则表达式来进行一些修改,比如将最后一项直接修改为 ([\S\s]+)
这样一个正则表达式即可将剩余的内容都包括到该字段中(包括换行)。
在日志服务中,每条日志都必须包括该日志发生的时间戳信息。默认情况下,Logtail 会使用该日志的采集时间作为它的日志时间(即启用使用系统时间选项),但经过字段提取后,如果您的字段中有表示日志时间信息的字段,您可以将该字段的名字指定为 time,然后为其配置时间格式,进而 Logtail 会将该字段的值解析为时间戳,然后关联给对应的日志。
Logtail 的时间格式解析使用的是 ,具体可参考文档。
此功能于单行/多行日志没有区别,这里我们就统一介绍下操作过程:
类似地,我们也提供了自动生成的功能来简化您的使用,当然,您还是可以通过手动输入来进行自定义的修改。我们示例中的单行和多行日志所生成的时间格式分别如下:
至此,我们已经对完整正则模式的三个功能(单行/多行日志采集、提取字段、指定日志时间)进行了依此的介绍,并给出了在控制台操作它们的示例。
如果您希望对您所在日志服务控制台所设置的正则表达式进行调试,您可以直接在界面上使用验证按钮所提供的功能来进行检查:
进一步地,如果您希望进行更多的验证乃至调试正则表达式,您可以利用诸如 、 之类的在线工具,将控制台为您自动生成的正则表达式拷贝粘贴到这些工具上,然后填充您的实际日志来进行检查、调试。
在之前的提取字段的示例中,我们有提到过自动生成功能为多行日志的 message 字段生成了不合适的正则。在此,我们以 Regex101 为例,对该正则进行一下检查:
\[([^]]+)]\s\[(\w+)]\s([^:]+:\s\w+\s\w+\s[^:]+:\S+\s[^:]+:\S+\s\S+).*
。在界面的右侧,您还可以看到该正则的含义。匹配,但是 at 之后的内容并没有被包含到 message 字段中(注意颜色,橘色和蓝色),这也就是我们之前所说的这个正则表达式是错误的原因之一。
匹配失败。
类似地,您也可以按照如上的方法来对您的正则表达式进行调试、修改,最终应用于控制台。
完整正则模式要求日志必须采用统一的格式,但有些时候日志中可能会包含多种格式的日志,如何来处理这种情况呢?
[2018-10-01T10:30:31,000] [WARNING] java.lang.Exception: another exception happened at TestPrintStackTrace.f(TestPrintStackTrace.java:3) at TestPrintStackTrace.g(TestPrintStackTrace.java:7) at TestPrintStackTrace.main(TestPrintStackTrace.java:16)[2018-10-01T10:30:32,000] [INFO] info something[2018-10-01T10:30:33,000] [DEBUG] key:value key2:value2
以上面的 Java 日志为例,作为一个程序日志,它一般既包含正常信息,也会包含一些错误信息(比如异常栈等):
对此,有两种方案可以考虑:
如果您非常地关注采集的性能,那您可以多花一些功夫在提高正则表达式的性能上。这里有一些建议可供您参考:
.*
来匹配字段,这个表达式包含了很大的搜索空间,很容易就发生了误匹配或者导致匹配性能下降。比如您要提取的字段只由字母组成,那么使用 [A-Za-z]
即可。+
, *
。比如您使用 \d
来匹配 IP 地址,那么相比 \d+
,\d{1,3}
可能会具有更高的性价比。日志服务的时间戳只支持到秒,所以时间格式只需配置到秒,无需配置毫秒、微秒等信息。
只需time字段中前面能解析出时间的部分即可,后面无需配置常见日志格式配置示例如下:自定义1 2017-12-11 15:05:07%Y-%m-%d %H:%M:%S自定义2 [2017-12-11 15:05:07.012][%Y-%m-%d %H:%M:%SRFC822 02 Jan 06 15:04 MST%d %b %y %H:%MRFC822Z 02 Jan 06 15:04 -0700%d %b %y %H:%MRFC850 Monday, 02-Jan-06 15:04:05 MST%A, %d-%b-%y %H:%M:%SRFC1123 Mon, 02 Jan 2006 15:04:05 MST%A, %d-%b-%y %H:%M:%SRFC3339 2006-01-02T15:04:05Z07:00%Y-%m-%dT%H:%M:%SRFC3339Nano 2006-01-02T15:04:05.999999999Z07:00%Y-%m-%dT%H:%M:%S
转载地址:http://eakwo.baihongyu.com/