Galileo Computing :: C von A bis Z – 24.7 Pattern Matching (reguläre Ausdrücke)

C von A bis Z von Jürgen Wolf
Das umfassende Handbuch für Linux, Unix und Windows
– 2., aktualisierte und erweiterte Auflage 2006

C von A bis Z
1.116 S., mit CD, Referenzkarte, 39,90 Euro
Galileo Computing
ISBN 3-89842-643-2

Kapitel 24 Algorithmen
	24.1 Was sind Algorithmen?
	24.2 Wie setze ich Algorithmen ein?
	24.3 Sortieralgorithmen
		24.3.1 Selektion Sort – Sortieren durch Auswählen
		24.3.2 Insertion Sort
		24.3.3 Bubble Sort
		24.3.4 Shellsort
		24.3.5 Quicksort
		24.3.6 qsort()
		24.3.7 Zusammenfassung der Sortieralgorithmen
	24.4 Suchalgorithmen – Grundlage zur Suche
		24.4.1 Lineare Suche
		24.4.2 Binäre Suche
		24.4.3 Binäre (Such-)Bäume
		24.4.4 Elemente im binären Baum einordnen
		24.4.5 Binäre Bäume travesieren
		24.4.6 Löschen eines Elements im binären Baum
		24.4.7 Ein binärer Suchbaum in der Praxis
		24.4.8 Binäre Suchbäume mit Eltern-Zeiger und Threads
		24.4.9 Ausgeglichene Binärbäume
		24.4.10 Algorithmen für ausgeglichene Bäume – eine Übersicht
	24.5 Hashing (Zerhacken)
		24.5.1 Wann wird Hashing verwendet?
		24.5.2 Was ist für das Hashing erforderlich?
		24.5.3 Hash-Funktion
		24.5.4 Hashing mit direkter Adressierung
		24.5.5 Vergleich von Hashing mit binären Bäumen
	24.6 String-Matching
		24.6.1 Brute-Force-Algorithmus
		24.6.2 Der Algorithmus von Knuth/Morris/Pratt (KMP)
		24.6.3 Weitere String-Matching-Algorithmen
	24.7 Pattern Matching (reguläre Ausdrücke)
	24.8 Backtracking
		24.8.1 Der Weg durch den Irrgarten
		24.8.2 Das 8-Dame-Problem

24.7 Pattern Matching (reguläre Ausdrücke)

Jeder, der mit einer UNIX/Linux-Maschine zu tun hat, kennt wohl die regulären Ausdrücke. Reguläre Ausdrücke sind auch eine Form der Suche nach Zeichenketten, nur erheblich komfortabler und komplexer.

Der Begriff »regulärer Ausdruck« stammt vom Sprachwissenschaftler Noam Chomsky und wird in der Informatik verwendet. Es gibt zwar mehrere Varianten von regulären Ausdrücken, doch haben alle dasselbe Ziel.

Bei einem regulären Ausdruck geht es darum, Muster aus Buchstaben zu beschreiben, und dies zusammen mit Wiederholungen, Alternativen und Abkürzungen für Zeichenklassifizierungen wie Ziffern oder Buchstaben. Das bekannteste Beispiel, womit sogar MS-DOS klar kommt und jeder kennen dürfte, ist die »Wildcard« (*):

dir t*.txt

oder unter UNIX:

ls -l t*.txt

So werden alle Textdateien ausgegeben, die mit »t« beginnen und mit ».txt« enden:

text.txt
test.txt
total.txt

Reguläre Ausdrücke sind keine Funktionen, sondern es handelt sich um eine echte Sprache mit formaler Grammatik, bei der jeder Ausdruck eine präzise Bedeutung hat.

Hierzu folgen einige Funktionen in der Praxis. Wobei diejenigen, die mit den regulären Ausdrücken überhaupt nicht vertraut sind, einen kleinen Einblick erhalten, und Anwender, die reguläre Ausdrücke schon häufiger verwendet haben, sehen werden, wie reguläre Ausdrücke in C geschrieben werden können.

Es sei darauf hingewiesen, dass es sich dabei nicht um eine umfassende Anleitung zu regulären Ausdrücken handelt, vielmehr wird ein kurzer Überblick gegeben.

Das Programm, welches erstellt werden soll, liest Zeile für Zeile aus einer Datei aus. Es folgt die erste Funktion, die das Pattern Matching einleitet:

int pmatch(char *ausdruck, char *text) {
#ifdef __unix__
   if(ausdruck[0] == '^')
#elif __WIN32__
   if(ausdruck[0] == '#')
#endif
      return match(ausdruck+1, text);
   else {
      for( ; *text != '\0'; *text++)
         if(match(ausdruck, text))
            return 1;
   }
   return 0;
}

Zuerst wird überprüft, ob der zu matchende Ausdruck am Anfang einer Zeile vorkommt. Dies ist gegeben, wenn der Ausdruck mit dem Zeichen '^' beginnt. Beispielsweise geben Sie als Suchstring folgenden Ausdruck an:

^hallo

Somit müssen die ersten fünf Zeichen einer Zeile in text mit der Zeichenfolge "hallo" übereinstimmen. Beispiele:

hallo welt wie gehts   (Gefunden, da am Anfang der Zeile)
  hallo welt wie gehts (Missmatch -> nicht gefunden)

Im Fall des Zeichens '^' muss der zu matchende Ausdruck inkrementiert werden, damit dieses Zeichen nicht mit verglichen wird. Bei Nichtverwendung des Zeichens '^' wird die Matching-Funktion ganz normal – Zeichen für Zeichen – aufgerufen.

Hinweis Damit sich dieses Beispiel auch unter MS-DOS/Win32 realisieren lässt, verwenden Sie bitte statt dem Zeichen '^' das Zeichen '#'. Daher auch die bedingte Kompilierung in der Funktion.

Jetzt die Matching-Funktion match():

int match(char *ausdruck, char *text) {
   if(ausdruck[0] == '\0')
      return 1;
   if(ausdruck[1] == '*')
      return wildcard(ausdruck[0], ausdruck+2, text);
   if(ausdruck[0] == '$' && ausdruck[1] == '\0')
      return *text == '\0';
   if(*text != '\0' && (ausdruck[0]== '.'||
     ausdruck[0] == *text) )
      return match(ausdruck+1, text+1);
   return 0;
}

Zuerst wird getestet, ob das Ende des Patterns schon gekommen ist ('\0'). Danach wird überprüft, ob eine Wildcard (*) angegeben ist. Falls ja, wird die entsprechende Funktion aufgerufen, worauf in Kürze eingegangen wird. Das Zeichen '$' bedeutet beim Matching Zeilenende. Als Beispiel folgende Zeile:

match und$ *.txt

Damit werden alle Ausdrücke gefunden, bei denen die Zeile mit »und« endet. Einige Beispiele:

Ein Text, der mit und endet und            /*Gefunden*/
Der Text endet nicht mit und und.          /*Missmatch*/
qwert asdf qwert asdf qwert  und           /*Gefunden*/
und was jetzt                              /*Missmatch*/

Um zu überprüfen, dass nicht nach dem Zeichen '$' gesucht wird, sondern dass es auch wirklich das gewünschte »und« am Ende der Zeile ist (in diesem Fall) ist, wird gleich darauf getestet, ob das nächste Zeichen des Ausdrucks das Endzeichen '\0' ist. Die nächste Überprüfung

if(*text != '\0' &&(ausdruck[0] == '.' ||  ausdruck[0] == *text))

testet, ob nicht schon das Ende gekommen ist, und das nächste Zeichen ein beliebiges sein darf (.) oder das Zeichen im Ausdruck mit demjenigen im Text übereinstimmt. Der Punkt steht somit für ein beliebiges Zeichen abgesehen vom Zeichenende. Falls diese Bedingung zutrifft, wird die Funktion rekursiv erneut mit den nächsten Zeichen aufgerufen. Der rekursive Aufruf erfolgt so lange, bis eine der Bedingungen in dieser Funktion einen return-Wert (0 == keine Übereinstimmung oder 1 == Übereinstimmung gefunden) zurückliefert.

Jetzt die (primitive) Wildcard-Funktion:

int wildcard(int c, char *ausdruck, char *text) {
   for( ;*text != '\0' && (*text == c || c == '.'); *text++)
      if(match(ausdruck, text))
         return 1;
   return 0;
}

Zugegeben, dies ist eine schwache Wildcard-Funktion; aber sie funktioniert. Was bedeutet aber dieses Sternchen beim Pattern Matching? Der Stern zeigt an, dass das letzte Zeichen (oder der Inhalt) mindestens einmal oder mehrmals vorkommen kann, aber nicht muss. Zum Abschluss noch das vollständige Listing:

/* regular_expression.c */
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#define BUF 4096
int pmatch(char *, char *);
int match(char *, char *);
int wildcard(int, char *, char *);
int my_grep(char *, FILE *, char *);
int pmatch(char *ausdruck, char *text) {
   if(ausdruck[0] == '^')
      return match(ausdruck+1, text);
   for( ; *text != '\0'; *text++)
      if(match(ausdruck, text))
         return 1;
   return 0;
}
int match(char *ausdruck, char *text) {
   if(ausdruck[0] == '\0')
      return 1;
#ifdef __unix__
   if(ausdruck[1] == '*')
#elif __WIN32__
   if(ausdruck[1] == '~')
#endif
      return wildcard(ausdruck[0], ausdruck+2, text);
   if(ausdruck[0] == '$' && ausdruck[1] == '\0')
      return *text == '\0';
   if(*text != '\0' && ( ausdruck[0] == '.' ||
     ausdruck[0] == *text))
      return match(ausdruck+1, text+1);
   return 0;
}
int wildcard(int c, char *ausdruck, char *text) {
   for( ;*text != '\0' && (*text == c || c == '.'); *text++)
      if(match(ausdruck, text))
         return 1;
   return 0;
}
int my_grep(char *ausdruck, FILE *f, char *name) {
   int n, nmatch=0;
   int line=0;
   char buffer[BUF];
   while(fgets(buffer, sizeof(buffer), f) != NULL) {
      line++;
      n = strlen(buffer);
      if(n > 0 && buffer[n-1] == '\n')
         buffer[n-1] = '\0';
      if(pmatch(ausdruck, buffer)) {
         nmatch++;
         if(name != NULL)
            printf("%d. ",line);
      }
   }
   if(nmatch!=0)
      printf("Zeile in der Datei %s (insg.%d)\n\n",name,nmatch);
   return nmatch;
}
int main(int argc, char **argv) {
   int i, nmatch=0;
   FILE *f;
   if(argc <= 2) {
      fprintf(stderr, "Verwendung des Programms : "
         "%s pattern quelle\n\n",*argv);
      return EXIT_FAILURE;
   }
   else {
      for(i = 2; i < argc; i++) {
         f = fopen(argv[i], "r");
         if(NULL == f) {
            fprintf(stderr, "Konnte %s nicht "
               "öffnen\n",argv[i]);
            continue;
         }
         if(my_grep(argv[1],f, argv[i]) > 0)
            nmatch++;
         fclose(f);
      }
   }
   printf("%d Dateien mit passenden Pattern %s gefunden\n",
      nmatch, argv[1] );
   return EXIT_SUCCESS;
}

Hier noch ein paar Matching-Beispiele zum Programm (der Programmname sei match und der Name der Datei test.txt). Folgende Textdatei soll gematcht werden:

ist
 ist
  ist.

**Tabelle 24.2** Einige Matching-Beispiele
Matching	Gefunden in Zeile
match ^ist test.txt	1
match ^ist$ test.txt	1
match ist$ test.txt	1, 2
match ist test.txt	1, 2, 3
match .ist test.txt	2, 3
match ist. test.txt	3
match .s. test.txt	1, 2, 3
match .s.$ test.txt	1, 2
match ^...$ test.txt	1
match i*. test.txt	1, 2, 3
match ^i*. test.txt	1

Sie sehen schon, was für einen gewaltigen Funktionsumfang Sie mit wenigen Zeilen Code auf die Beine stellen können. Dabei stellt das Programm und das bisher vorgestellte Pattern Matching nur einen Bruchteil dessen dar, wozu Pattern Matching wirklich in der Lage ist. Weitere Pattern-Matching-Zeichen und ihre Bedeutungen finden Sie bei den weiterführenden Links und Literaturempfehlungen im Anhang.

Sollten Sie also für Ihr Programm reguläre Ausdrücke benötigen, können Sie eigene Funktionen schreiben oder auf entsprechende Funktionen der Headerdatei <regex.h> zugreifen. Allerdings entsprechen diese Funktionen dem POSIX-Standard und sind vorwiegend in der UNIX-Welt zu Hause. MS-Windows-Anwender können diese Bibliothek aber zum Beispiel mit dem gcc-Compiler unter der Cygwin-Umgebung auch verwenden.

<< zurück

<top>

vor >>