24.7 Pattern Matching (reguläre Ausdrücke)
 
Jeder, der mit einer UNIX/Linux-Maschine zu tun hat, kennt wohl die regulären Ausdrücke. Reguläre Ausdrücke sind auch eine Form der Suche nach Zeichenketten, nur erheblich komfortabler und komplexer.
Der Begriff »regulärer Ausdruck« stammt vom Sprachwissenschaftler Noam Chomsky und wird in der Informatik verwendet. Es gibt zwar mehrere Varianten von regulären Ausdrücken, doch haben alle dasselbe Ziel.
Bei einem regulären Ausdruck geht es darum, Muster aus Buchstaben zu beschreiben, und dies zusammen mit Wiederholungen, Alternativen und Abkürzungen für Zeichenklassifizierungen wie Ziffern oder Buchstaben. Das bekannteste Beispiel, womit sogar MS-DOS klar kommt und jeder kennen dürfte, ist die »Wildcard« (*):
dir t*.txt
oder unter UNIX:
ls -l t*.txt
So werden alle Textdateien ausgegeben, die mit »t« beginnen und mit ».txt« enden:
text.txt
test.txt
total.txt
Reguläre Ausdrücke sind keine Funktionen, sondern es handelt sich um eine echte Sprache mit formaler Grammatik, bei der jeder Ausdruck eine präzise Bedeutung hat.
Hierzu folgen einige Funktionen in der Praxis. Wobei diejenigen, die mit den regulären Ausdrücken überhaupt nicht vertraut sind, einen kleinen Einblick erhalten, und Anwender, die reguläre Ausdrücke schon häufiger verwendet haben, sehen werden, wie reguläre Ausdrücke in C geschrieben werden können.
Es sei darauf hingewiesen, dass es sich dabei nicht um eine umfassende Anleitung zu regulären Ausdrücken handelt, vielmehr wird ein kurzer Überblick gegeben.
Das Programm, welches erstellt werden soll, liest Zeile für Zeile aus einer Datei aus. Es folgt die erste Funktion, die das Pattern Matching einleitet:
int pmatch(char *ausdruck, char *text) {
#ifdef __unix__
if(ausdruck[0] == '^')
#elif __WIN32__
if(ausdruck[0] == '#')
#endif
return match(ausdruck+1, text);
else {
for( ; *text != '\0'; *text++)
if(match(ausdruck, text))
return 1;
}
return 0;
}
Zuerst wird überprüft, ob der zu matchende Ausdruck am Anfang einer Zeile vorkommt. Dies ist gegeben, wenn der Ausdruck mit dem Zeichen '^' beginnt. Beispielsweise geben Sie als Suchstring folgenden Ausdruck an:
^hallo
Somit müssen die ersten fünf Zeichen einer Zeile in text mit der Zeichenfolge "hallo" übereinstimmen. Beispiele:
hallo welt wie gehts (Gefunden, da am Anfang der Zeile)
hallo welt wie gehts (Missmatch -> nicht gefunden)
Im Fall des Zeichens '^' muss der zu matchende Ausdruck inkrementiert werden, damit dieses Zeichen nicht mit verglichen wird. Bei Nichtverwendung des Zeichens '^' wird die Matching-Funktion ganz normal – Zeichen für Zeichen – aufgerufen.
Hinweis Damit sich dieses Beispiel auch unter MS-DOS/Win32 realisieren lässt, verwenden Sie bitte statt dem Zeichen '^' das Zeichen '#'. Daher auch die bedingte Kompilierung in der Funktion.
|
Jetzt die Matching-Funktion match():
int match(char *ausdruck, char *text) {
if(ausdruck[0] == '\0')
return 1;
if(ausdruck[1] == '*')
return wildcard(ausdruck[0], ausdruck+2, text);
if(ausdruck[0] == '$' && ausdruck[1] == '\0')
return *text == '\0';
if(*text != '\0' && (ausdruck[0]== '.'||
ausdruck[0] == *text) )
return match(ausdruck+1, text+1);
return 0;
}
Zuerst wird getestet, ob das Ende des Patterns schon gekommen ist ('\0'). Danach wird überprüft, ob eine Wildcard (*) angegeben ist. Falls ja, wird die entsprechende Funktion aufgerufen, worauf in Kürze eingegangen wird. Das Zeichen '$' bedeutet beim Matching Zeilenende. Als Beispiel folgende Zeile:
match und$ *.txt
Damit werden alle Ausdrücke gefunden, bei denen die Zeile mit »und« endet. Einige Beispiele:
Ein Text, der mit und endet und /*Gefunden*/
Der Text endet nicht mit und und. /*Missmatch*/
qwert asdf qwert asdf qwert und /*Gefunden*/
und was jetzt /*Missmatch*/
Um zu überprüfen, dass nicht nach dem Zeichen '$' gesucht wird, sondern dass es auch wirklich das gewünschte »und« am Ende der Zeile ist (in diesem Fall) ist, wird gleich darauf getestet, ob das nächste Zeichen des Ausdrucks das Endzeichen '\0' ist. Die nächste Überprüfung
if(*text != '\0' &&(ausdruck[0] == '.' || ausdruck[0] == *text))
testet, ob nicht schon das Ende gekommen ist, und das nächste Zeichen ein beliebiges sein darf (.) oder das Zeichen im Ausdruck mit demjenigen im Text übereinstimmt. Der Punkt steht somit für ein beliebiges Zeichen abgesehen vom Zeichenende. Falls diese Bedingung zutrifft, wird die Funktion rekursiv erneut mit den nächsten Zeichen aufgerufen. Der rekursive Aufruf erfolgt so lange, bis eine der Bedingungen in dieser Funktion einen return-Wert (0 == keine Übereinstimmung oder 1 == Übereinstimmung gefunden) zurückliefert.
Jetzt die (primitive) Wildcard-Funktion:
int wildcard(int c, char *ausdruck, char *text) {
for( ;*text != '\0' && (*text == c || c == '.'); *text++)
if(match(ausdruck, text))
return 1;
return 0;
}
Zugegeben, dies ist eine schwache Wildcard-Funktion; aber sie funktioniert. Was bedeutet aber dieses Sternchen beim Pattern Matching? Der Stern zeigt an, dass das letzte Zeichen (oder der Inhalt) mindestens einmal oder mehrmals vorkommen kann, aber nicht muss. Zum Abschluss noch das vollständige Listing:
/* regular_expression.c */
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#define BUF 4096
int pmatch(char *, char *);
int match(char *, char *);
int wildcard(int, char *, char *);
int my_grep(char *, FILE *, char *);
int pmatch(char *ausdruck, char *text) {
if(ausdruck[0] == '^')
return match(ausdruck+1, text);
for( ; *text != '\0'; *text++)
if(match(ausdruck, text))
return 1;
return 0;
}
int match(char *ausdruck, char *text) {
if(ausdruck[0] == '\0')
return 1;
#ifdef __unix__
if(ausdruck[1] == '*')
#elif __WIN32__
if(ausdruck[1] == '~')
#endif
return wildcard(ausdruck[0], ausdruck+2, text);
if(ausdruck[0] == '$' && ausdruck[1] == '\0')
return *text == '\0';
if(*text != '\0' && ( ausdruck[0] == '.' ||
ausdruck[0] == *text))
return match(ausdruck+1, text+1);
return 0;
}
int wildcard(int c, char *ausdruck, char *text) {
for( ;*text != '\0' && (*text == c || c == '.'); *text++)
if(match(ausdruck, text))
return 1;
return 0;
}
int my_grep(char *ausdruck, FILE *f, char *name) {
int n, nmatch=0;
int line=0;
char buffer[BUF];
while(fgets(buffer, sizeof(buffer), f) != NULL) {
line++;
n = strlen(buffer);
if(n > 0 && buffer[n-1] == '\n')
buffer[n-1] = '\0';
if(pmatch(ausdruck, buffer)) {
nmatch++;
if(name != NULL)
printf("%d. ",line);
}
}
if(nmatch!=0)
printf("Zeile in der Datei %s (insg.%d)\n\n",name,nmatch);
return nmatch;
}
int main(int argc, char **argv) {
int i, nmatch=0;
FILE *f;
if(argc <= 2) {
fprintf(stderr, "Verwendung des Programms : "
"%s pattern quelle\n\n",*argv);
return EXIT_FAILURE;
}
else {
for(i = 2; i < argc; i++) {
f = fopen(argv[i], "r");
if(NULL == f) {
fprintf(stderr, "Konnte %s nicht "
"öffnen\n",argv[i]);
continue;
}
if(my_grep(argv[1],f, argv[i]) > 0)
nmatch++;
fclose(f);
}
}
printf("%d Dateien mit passenden Pattern %s gefunden\n",
nmatch, argv[1] );
return EXIT_SUCCESS;
}
Hier noch ein paar Matching-Beispiele zum Programm (der Programmname sei match und der Name der Datei test.txt). Folgende Textdatei soll gematcht werden:
ist
ist
ist.
Tabelle 24.2
Einige Matching-Beispiele
Matching
|
Gefunden in Zeile
|
match ^ist test.txt
|
1
|
match ^ist$ test.txt
|
1
|
match ist$ test.txt
|
1, 2
|
match ist test.txt
|
1, 2, 3
|
match .ist test.txt
|
2, 3
|
match ist. test.txt
|
3
|
match .s. test.txt
|
1, 2, 3
|
match .s.$ test.txt
|
1, 2
|
match ^...$ test.txt
|
1
|
match i*. test.txt
|
1, 2, 3
|
match ^i*. test.txt
|
1
|
Sie sehen schon, was für einen gewaltigen Funktionsumfang Sie mit wenigen Zeilen Code auf die Beine stellen können. Dabei stellt das Programm und das bisher vorgestellte Pattern Matching nur einen Bruchteil dessen dar, wozu Pattern Matching wirklich in der Lage ist. Weitere Pattern-Matching-Zeichen und ihre Bedeutungen finden Sie bei den weiterführenden Links und Literaturempfehlungen im Anhang.
Sollten Sie also für Ihr Programm reguläre Ausdrücke benötigen, können Sie eigene Funktionen schreiben oder auf entsprechende Funktionen der Headerdatei <regex.h> zugreifen. Allerdings entsprechen diese Funktionen dem POSIX-Standard und sind vorwiegend in der UNIX-Welt zu Hause. MS-Windows-Anwender können diese Bibliothek aber zum Beispiel mit dem gcc-Compiler unter der Cygwin-Umgebung auch verwenden.
|