Regular Expression Learning Verfahren
Autoren
Mehr zum Buch
In einem Data Warehouse ist schlechte Datenqualität ein häufig auftretendes Problem. Die Erstellung einer Regel zur Überprüfung von Merkmalsausprägungen ist auch unter Verwendung von Expertenwissen aufgrund der Komplexität zeitaufwendig und fehleranfällig, gerade dann, wenn diese Regel möglichst exakt sein soll. Solche Regeln werden üblicherweise durch reguläre Ausdrucke dargestellt. In dieser Arbeit werden Regular Expression Learning Verfahren betrachtet und evaluiert, sowie ein Vorgehen konzipiert, um einen regulären Ausdruck anhand von Beispieldaten automatisch erstellen zu lassen. Der reguläre Ausdruck hat den Anspruch durch das Training mit den Beispieldaten die jeweilige Struktur eines Merkmals approximiert zu beschreiben, um Vorhersagen bezüglich der Zugehörigkeit für unbekannte Merkmalsausprägungen der jeweiligen Merkmale zu treffen. Abschließend werden die Evaluationsergebnisse zusammengefasst und es erfolgt eine Empfehlung für eine Vorgehensweise mittels einer Konzeption und Modifikation zweier vorgestellten Algorithmen. Zusätzlich erfolgt eine prototypischen Umsetzung dieser Konzeption für einen Algorithmus, sowie exemplarischer Tests anhand dieses Prototyps.