Galileo Computing < openbook > Galileo Computing - Professionelle Bücher. Auch für Einsteiger.
Professionelle Bücher. Auch für Einsteiger.

 << zurück
C von A bis Z von Jürgen Wolf
Das umfassende Handbuch für Linux, Unix und Windows
– 2., aktualisierte und erweiterte Auflage 2006
Buch: C von A bis Z

C von A bis Z
1.116 S., mit CD, Referenzkarte, 39,90 Euro
Galileo Computing
ISBN 3-89842-643-2
gp Kapitel 24 Algorithmen
  gp 24.1 Was sind Algorithmen?
  gp 24.2 Wie setze ich Algorithmen ein?
  gp 24.3 Sortieralgorithmen
    gp 24.3.1 Selektion Sort – Sortieren durch Auswählen
    gp 24.3.2 Insertion Sort
    gp 24.3.3 Bubble Sort
    gp 24.3.4 Shellsort
    gp 24.3.5 Quicksort
    gp 24.3.6 qsort()
    gp 24.3.7 Zusammenfassung der Sortieralgorithmen
  gp 24.4 Suchalgorithmen – Grundlage zur Suche
    gp 24.4.1 Lineare Suche
    gp 24.4.2 Binäre Suche
    gp 24.4.3 Binäre (Such-)Bäume
    gp 24.4.4 Elemente im binären Baum einordnen
    gp 24.4.5 Binäre Bäume travesieren
    gp 24.4.6 Löschen eines Elements im binären Baum
    gp 24.4.7 Ein binärer Suchbaum in der Praxis
    gp 24.4.8 Binäre Suchbäume mit Eltern-Zeiger und Threads
    gp 24.4.9 Ausgeglichene Binärbäume
    gp 24.4.10 Algorithmen für ausgeglichene Bäume – eine Übersicht
  gp 24.5 Hashing (Zerhacken)
    gp 24.5.1 Wann wird Hashing verwendet?
    gp 24.5.2 Was ist für das Hashing erforderlich?
    gp 24.5.3 Hash-Funktion
    gp 24.5.4 Hashing mit direkter Adressierung
    gp 24.5.5 Vergleich von Hashing mit binären Bäumen
  gp 24.6 String-Matching
    gp 24.6.1 Brute-Force-Algorithmus
    gp 24.6.2 Der Algorithmus von Knuth/Morris/Pratt (KMP)
    gp 24.6.3 Weitere String-Matching-Algorithmen
  gp 24.7 Pattern Matching (reguläre Ausdrücke)
  gp 24.8 Backtracking
    gp 24.8.1 Der Weg durch den Irrgarten
    gp 24.8.2 Das 8-Dame-Problem


Galileo Computing - Zum Seitenanfang

24.7 Pattern Matching (reguläre Ausdrücke)  toptop

Jeder, der mit einer UNIX/Linux-Maschine zu tun hat, kennt wohl die regulären Ausdrücke. Reguläre Ausdrücke sind auch eine Form der Suche nach Zeichenketten, nur erheblich komfortabler und komplexer.

Der Begriff »regulärer Ausdruck« stammt vom Sprachwissenschaftler Noam Chomsky und wird in der Informatik verwendet. Es gibt zwar mehrere Varianten von regulären Ausdrücken, doch haben alle dasselbe Ziel.

Bei einem regulären Ausdruck geht es darum, Muster aus Buchstaben zu beschreiben, und dies zusammen mit Wiederholungen, Alternativen und Abkürzungen für Zeichenklassifizierungen wie Ziffern oder Buchstaben. Das bekannteste Beispiel, womit sogar MS-DOS klar kommt und jeder kennen dürfte, ist die »Wildcard« (*):

dir t*.txt

oder unter UNIX:

ls -l t*.txt

So werden alle Textdateien ausgegeben, die mit »t« beginnen und mit ».txt« enden:

text.txt
test.txt
total.txt

Reguläre Ausdrücke sind keine Funktionen, sondern es handelt sich um eine echte Sprache mit formaler Grammatik, bei der jeder Ausdruck eine präzise Bedeutung hat.

Hierzu folgen einige Funktionen in der Praxis. Wobei diejenigen, die mit den regulären Ausdrücken überhaupt nicht vertraut sind, einen kleinen Einblick erhalten, und Anwender, die reguläre Ausdrücke schon häufiger verwendet haben, sehen werden, wie reguläre Ausdrücke in C geschrieben werden können.

Es sei darauf hingewiesen, dass es sich dabei nicht um eine umfassende Anleitung zu regulären Ausdrücken handelt, vielmehr wird ein kurzer Überblick gegeben.

Das Programm, welches erstellt werden soll, liest Zeile für Zeile aus einer Datei aus. Es folgt die erste Funktion, die das Pattern Matching einleitet:

int pmatch(char *ausdruck, char *text) {
#ifdef __unix__
   if(ausdruck[0] == '^')
#elif __WIN32__
   if(ausdruck[0] == '#')
#endif
      return match(ausdruck+1, text);
   else {
      for( ; *text != '\0'; *text++)
         if(match(ausdruck, text))
            return 1;
   }
   return 0;
}

Zuerst wird überprüft, ob der zu matchende Ausdruck am Anfang einer Zeile vorkommt. Dies ist gegeben, wenn der Ausdruck mit dem Zeichen '^' beginnt. Beispielsweise geben Sie als Suchstring folgenden Ausdruck an:

^hallo

Somit müssen die ersten fünf Zeichen einer Zeile in text mit der Zeichenfolge "hallo" übereinstimmen. Beispiele:

hallo welt wie gehts   (Gefunden, da am Anfang der Zeile)
  hallo welt wie gehts (Missmatch -> nicht gefunden)

Im Fall des Zeichens '^' muss der zu matchende Ausdruck inkrementiert werden, damit dieses Zeichen nicht mit verglichen wird. Bei Nichtverwendung des Zeichens '^' wird die Matching-Funktion ganz normal – Zeichen für Zeichen – aufgerufen.


Hinweis   Damit sich dieses Beispiel auch unter MS-DOS/Win32 realisieren lässt, verwenden Sie bitte statt dem Zeichen '^' das Zeichen '#'. Daher auch die bedingte Kompilierung in der Funktion.


Jetzt die Matching-Funktion match():

int match(char *ausdruck, char *text) {
   if(ausdruck[0] == '\0')
      return 1;
   if(ausdruck[1] == '*')
      return wildcard(ausdruck[0], ausdruck+2, text);
   if(ausdruck[0] == '$' && ausdruck[1] == '\0')
      return *text == '\0';
   if(*text != '\0' && (ausdruck[0]== '.'||
     ausdruck[0] == *text) )
      return match(ausdruck+1, text+1);
   return 0;
}

Zuerst wird getestet, ob das Ende des Patterns schon gekommen ist ('\0'). Danach wird überprüft, ob eine Wildcard (*) angegeben ist. Falls ja, wird die entsprechende Funktion aufgerufen, worauf in Kürze eingegangen wird. Das Zeichen '$' bedeutet beim Matching Zeilenende. Als Beispiel folgende Zeile:

match und$ *.txt

Damit werden alle Ausdrücke gefunden, bei denen die Zeile mit »und« endet. Einige Beispiele:

Ein Text, der mit und endet und            /*Gefunden*/
Der Text endet nicht mit und und.          /*Missmatch*/
qwert asdf qwert asdf qwert  und           /*Gefunden*/
und was jetzt                              /*Missmatch*/

Um zu überprüfen, dass nicht nach dem Zeichen '$' gesucht wird, sondern dass es auch wirklich das gewünschte »und« am Ende der Zeile ist (in diesem Fall) ist, wird gleich darauf getestet, ob das nächste Zeichen des Ausdrucks das Endzeichen '\0' ist. Die nächste Überprüfung

if(*text != '\0' &&(ausdruck[0] == '.' ||  ausdruck[0] == *text))

testet, ob nicht schon das Ende gekommen ist, und das nächste Zeichen ein beliebiges sein darf (.) oder das Zeichen im Ausdruck mit demjenigen im Text übereinstimmt. Der Punkt steht somit für ein beliebiges Zeichen abgesehen vom Zeichenende. Falls diese Bedingung zutrifft, wird die Funktion rekursiv erneut mit den nächsten Zeichen aufgerufen. Der rekursive Aufruf erfolgt so lange, bis eine der Bedingungen in dieser Funktion einen return-Wert (0 == keine Übereinstimmung oder 1 == Übereinstimmung gefunden) zurückliefert.

Jetzt die (primitive) Wildcard-Funktion:

int wildcard(int c, char *ausdruck, char *text) {
   for( ;*text != '\0' && (*text == c || c == '.'); *text++)
      if(match(ausdruck, text))
         return 1;
   return 0;
}

Zugegeben, dies ist eine schwache Wildcard-Funktion; aber sie funktioniert. Was bedeutet aber dieses Sternchen beim Pattern Matching? Der Stern zeigt an, dass das letzte Zeichen (oder der Inhalt) mindestens einmal oder mehrmals vorkommen kann, aber nicht muss. Zum Abschluss noch das vollständige Listing:

/* regular_expression.c */
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#define BUF 4096
int pmatch(char *, char *);
int match(char *, char *);
int wildcard(int, char *, char *);
int my_grep(char *, FILE *, char *);
int pmatch(char *ausdruck, char *text) {
   if(ausdruck[0] == '^')
      return match(ausdruck+1, text);
   for( ; *text != '\0'; *text++)
      if(match(ausdruck, text))
         return 1;
   return 0;
}
int match(char *ausdruck, char *text) {
   if(ausdruck[0] == '\0')
      return 1;
#ifdef __unix__
   if(ausdruck[1] == '*')
#elif __WIN32__
   if(ausdruck[1] == '~')
#endif
      return wildcard(ausdruck[0], ausdruck+2, text);
   if(ausdruck[0] == '$' && ausdruck[1] == '\0')
      return *text == '\0';
   if(*text != '\0' && ( ausdruck[0] == '.' ||
     ausdruck[0] == *text))
      return match(ausdruck+1, text+1);
   return 0;
}
int wildcard(int c, char *ausdruck, char *text) {
   for( ;*text != '\0' && (*text == c || c == '.'); *text++)
      if(match(ausdruck, text))
         return 1;
   return 0;
}
int my_grep(char *ausdruck, FILE *f, char *name) {
   int n, nmatch=0;
   int line=0;
   char buffer[BUF];
   while(fgets(buffer, sizeof(buffer), f) != NULL) {
      line++;
      n = strlen(buffer);
      if(n > 0 && buffer[n-1] == '\n')
         buffer[n-1] = '\0';
      if(pmatch(ausdruck, buffer)) {
         nmatch++;
         if(name != NULL)
            printf("%d. ",line);
      }
   }
   if(nmatch!=0)
      printf("Zeile in der Datei %s (insg.%d)\n\n",name,nmatch);
   return nmatch;
}
int main(int argc, char **argv) {
   int i, nmatch=0;
   FILE *f;
   if(argc <= 2) {
      fprintf(stderr, "Verwendung des Programms : "
         "%s pattern quelle\n\n",*argv);
      return EXIT_FAILURE;
   }
   else {
      for(i = 2; i < argc; i++) {
         f = fopen(argv[i], "r");
         if(NULL == f) {
            fprintf(stderr, "Konnte %s nicht "
               "öffnen\n",argv[i]);
            continue;
         }
         if(my_grep(argv[1],f, argv[i]) > 0)
            nmatch++;
         fclose(f);
      }
   }
   printf("%d Dateien mit passenden Pattern %s gefunden\n",
      nmatch, argv[1] );
   return EXIT_SUCCESS;
}

Hier noch ein paar Matching-Beispiele zum Programm (der Programmname sei match und der Name der Datei test.txt). Folgende Textdatei soll gematcht werden:

ist
 ist
  ist.

Tabelle 24.2   Einige Matching-Beispiele

Matching Gefunden in Zeile
match ^ist test.txt 1
match ^ist$ test.txt 1
match ist$ test.txt 1, 2
match ist test.txt 1, 2, 3
match .ist test.txt 2, 3
match ist. test.txt 3
match .s. test.txt 1, 2, 3
match .s.$ test.txt 1, 2
match ^...$ test.txt 1
match i*. test.txt 1, 2, 3
match ^i*. test.txt 1

Sie sehen schon, was für einen gewaltigen Funktionsumfang Sie mit wenigen Zeilen Code auf die Beine stellen können. Dabei stellt das Programm und das bisher vorgestellte Pattern Matching nur einen Bruchteil dessen dar, wozu Pattern Matching wirklich in der Lage ist. Weitere Pattern-Matching-Zeichen und ihre Bedeutungen finden Sie bei den weiterführenden Links und Literaturempfehlungen im Anhang.

Sollten Sie also für Ihr Programm reguläre Ausdrücke benötigen, können Sie eigene Funktionen schreiben oder auf entsprechende Funktionen der Headerdatei <regex.h> zugreifen. Allerdings entsprechen diese Funktionen dem POSIX-Standard und sind vorwiegend in der UNIX-Welt zu Hause. MS-Windows-Anwender können diese Bibliothek aber zum Beispiel mit dem gcc-Compiler unter der Cygwin-Umgebung auch verwenden.

 << zurück
  
  Zum Katalog
Zum Katalog: C von A bis Z
C von A bis Z
bestellen
 Ihre Meinung?
Wie hat Ihnen das <openbook> gefallen?
Ihre Meinung

 Buchtipps
Zum Katalog: Shell-Programmierung






 Shell-Programmierung


Zum Katalog: Linux-UNIX-Programmierung






 Linux-UNIX-Programmierung


Zum Katalog: C/C++






 C/C++


Zum Katalog: UML 2.0






 UML 2.0


Zum Katalog: Reguläre Ausdrücke






 Reguläre Ausdrücke


Zum Katalog: Linux






 Linux


 Shopping
Versandkostenfrei bestellen in Deutschland und Österreich
InfoInfo





Copyright © Galileo Press 2006
Für Ihren privaten Gebrauch dürfen Sie die Online-Version natürlich ausdrucken. Ansonsten unterliegt das <openbook> denselben Bestimmungen, wie die gebundene Ausgabe: Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Alle Rechte vorbehalten einschließlich der Vervielfältigung, Übersetzung, Mikroverfilmung sowie Einspeicherung und Verarbeitung in elektronischen Systemen.


[Galileo Computing]

Galileo Press, Rheinwerkallee 4, 53227 Bonn, Tel.: 0228.42150.0, Fax 0228.42150.77, info@galileo-press.de