grep 基础

1 min read Sep 19, 2013

grep 基础

Table of Content

grep 基本概念

grep: global search regular expression and print out the line.

作用

文本过滤器,用于文本搜索,用指定“模式”逐行匹配。

模式

由正则表达式字符及文本字符所编写的过滤条件

正则表达式

由一类特殊字符和文本字符所编写的模式,其有些字符不表示字符字面意义,而表示控制或通配的功能

比较记忆

grep egrep desc
. . 匹配任意单个字符
[] [] 匹配指定范围内任意单个字符
[^] [^] 匹配指定范围外任意单个字符
* * 匹配其前面的字符任意次
\? ? 匹配其前面的字符0次或1次
\+ + 匹配其前面的字符1次或多次
\{m\} {m} 匹配其前面的字符m次
\{m,n\} {m,n} 匹配其前面的字符至少m次, 至多n次
\{0,n\} {0,n} 匹配其前面的字符至多n次
\{m,\} {m,} 匹配其前面的字符至少m次
^ ^ 行首锚定
$ $ 行尾锚定
^$ ^$ 空行
^[[:space:]]*$ ^[[:space:]]*$ 空行, 或包含空白字符的行
\< \< 词首锚定
\> \> 词尾锚定
\<PATTERN\> \<PATTERN\> 匹配完整单词
\(\) () 分组, 捆绑作整理处理
a\|b a|b a或b

基本正则表达式:BRE

扩展正则表达式:ERE

grep -E = egrep

grep 语法

grep [OPTIONS] PATTERN [FILE…]

OPTIONS

Option Desc
--color=auto 对匹配到的文本着色后高亮显示;
-i ignorecase,忽略字符的大小写;
-o 仅显示匹配到的字符串本身;
-v, --invert-match 显示不能被模式匹配到的行;
-E 支持使用扩展的正则表达式元字符;
-q, --quiet, --silent 静默模式,即不输出任何信息;
-A #:after, 后#行
-B #:before 前#行
-C #:context 前后各#行

grep 基本正则表达式原字符

字符匹配

Code Desc
. 匹配任意单个字符;
[] 匹配指定范围内的任意单个字符;
[^] 匹配指定范围外的任意单个字符;
[:digit:], [:lower:], [:upper:], [:alpha:], [:alnum:], [:punct:], [:space:]

次数匹配

用在要指定其出现的次数的字符的后面,用于限制其前面字符出现的次数;默认工作于贪婪模式;

Code Desc
* 匹配其前面的字符任意次;0,1,多次;
.* 匹配任意长度的任意字符
\? 匹配其前面的字符0次或1次;即其前面的字符是可有可无的;
\+ 匹配其前面的字符1次或多次;即其面的字符要出现至少1次;
\{m\} 匹配其前面的字符m次;
\{m,n\} 匹配其前面的字符至少m次,至多n次;
\{0,n\} 至多n次
\{m,\} 至少m次

位置锚定

Code Desc
^ 行首锚定;用于模式的最左侧;
$ 行尾锚定;用于模式的最右侧;
^PATTERN$ 用于PATTERN来匹配整行;
^$ 空白行;
^[[:space:]]*$ 空行或包含空白字符的行;
\<, \b 词首锚定,用于单词模式的左侧;
\>, \b 词尾锚定,用于单词模式的右侧;
\<PATTERN\> 匹配完整单词;

单词:非特殊字符组成的连续字符 (字符串) 都称为单词;

分组及引用

Code Desc
\(\) 将一个或多个字符捆绑在一起,当作一个整体进行处理;

分组括号中的模式匹配 到的内容会被正则表达式引擎自动记录于内部的变量中,这些变量为:

Code Desc
\1 模式从左侧起,第一个左括号以及与之匹配的右括号之间的模式所匹配到的字符;
\2 模式从左侧起,第二个左括号以及与之匹配的右括号之间的模式所匹配到的字符;
...

后向引用:引用前面的分组括号中的模式所匹配到的字符;

扩展正则表达式的元字符

字符匹配

Code Desc
. 任意单个字符
[] 指定范围内的任意单个字符
[^] 指定范围外的任意单个字符

次数匹配

Code Desc
* 任意次,0,1或多次;
? 0次或1次,其前的字符是可有可无的;
+ 其前字符至少1次;
{m} 其前的字符m次;
{m,n} 至少m次,至多n次;

位置锚定

Code Desc
^ 行首锚定;
$ 行尾锚定;
\<, \b 词首锚定;
\>, \b 词尾锚定;

分组及引用

Code Desc
() 分组;括号内的模式匹配到的字符会被记录于正则表达式引擎的内部变量中;
\1, \2 ... 后向引用
a|b a或者b;
Picsew | Ezra