Statistisches Matching mit Fuzzy Logic - Theorie und Anwendungen in Sozial- und Wirtschaftswissenschaften

Verfasst von Patrick Noll am 21. März 2009 - 12:26
Druckversion

Publication Type:

Report

Quelle:

Wirtschaftsinformatik, Universität Marburg (2008)

Zusammenfassung:

 

In dieser Arbeit wurde eine Methode des statistischen Matchings mit Fuzzy Logik zu entwickelt, um Nachteile traditioneller Ansätze des statistischen Matchings auf Grundlage der Distanzen zwischen den Ausgangsdaten auszugleichen. In Anlehnung an den feststehenden Begriff „statistisches Matching“ wird die hier entwickelte Methode „statistisches Fuzzy-Matching“ genannt. Die Vorteile des statistischen Fuzzy-Matchings gegenüber traditionellen Matchingmethoden entstehen durch die Verwendung der in der Theorie der unscharfen Mengen (Fuzzy Sets) verwendeten linguistischen Variablen mit ihren zugehörigen linguistischen Termen.   Beim statistischen Matching werden Ähnlichkeiten zwischen Datensätzen bestimmt. Traditionell werden dabei die Distanzen zwischen den Ausprägungen bestimmter Variablen (der sog. Matchingvariablen) betrachtet, die den zu vergleichenden Datensätzen gemein sind. Generelles Ziel des statistischen Matchings ist es, Datensätze als sog. statistische Zwillinge zu identifizieren, die sich hinsichtlich der Matchingvariablen möglichst wenig voneinander unterscheiden. Der Nutzen des statistischen Matchings liegt darin, weitere Informationen über einen bestimmten Datensatz (resp. Ein bestimmtes Individuum) zu erlangen, indem relevante Attribute seines statistischen Zwillings hinzugefügt werden.   Beim statistischen Fuzzy-Matching werden die Ausgangsdaten der Datensätze fuzzyfiziert, um ihnen Zugehörigkeitsgrade zu linguistischen Termen der linguistischen Variablen zuweisen zu können. Dazu werden die Matchingvariablen in linguistische Variablen umgewandelt und linguistische Terme mit Zugehörigkeitsfunktionen festgelegt. Zur Verknüpfung der verschiedenen linguistischen Terme aller zum statistischen Fuzzy-Matching verwendeten linguistischen (Matching-) Variablen wird eine sog. Regelbasis erstellt. Jede Regel der Regelbasis stellt eine mögliche Verknüpfung jeweils eines linguistischen Terms jeder linguistischen Variablen dar. Als logische Konnektoren können die „und“-Verknüpfung, die „oder“-Verknüpfung oder kompensatorische Operatoren verwendet werden. Kern des statistischen Fuzzy-Matchings ist die Ermittlung der Distanzen zwischen Datensätzen auf Basis ihrer Zugehörigkeitsgrade zur Regelbasis. Jedem Datensatz wird ein Zugehörigkeitsgrad zu jeder einzelnen Regel zugewiesen, die gemeinsam den Vektor der Zugehörigkeitsgrade zur Regelbasis bilden. In Abhängigkeit von der Art der Verknüpfung können zur Bestimmung der Zugehörigkeitsgrade beliebige t-Normen, s-Normen oder Linearkombinationen aus t- und s-Normen verwendet werden. Aufbauend auf den Vektoren der Zugehörigkeitsgrade wird schließlich das statistische Fuzzy-Matching vollzogen und die statistischen Zwillinge identifiziert.   Zusätzlich zur programmtechnischen Umsetzung wurde die Leistungsfähigkeit des statistischen Fuzzy-Matchings an zwei praktischen Anwendungen getestet und mit traditionellen Distanzmethoden verglichen. Im ersten Anwendungsbeispiel wurde auf Grundlage der ALLBUS 2006 (Allgemeine Bevölkerungsumfrage der Sozialwissenschaften) der Frage nachgegangen, ob Arbeitslosigkeit zu einer negativen Einstellung zur deutschen Vereinigung führt. Mit Hilfe des statistischen Fuzzy-Matchings wurde die Heterogenität von Vergleichsgruppen beseitigt, indem nicht alle Arbeitslosen und alle Erwerbstätigen einander gegenübergestellt wurden, sondern die mittels des statistischen Fuzzy-Matchings gefundenen statistischen Zwillinge aus Arbeitslosen und Erwerbstätigen. Es konnte gezeigt werden, dass sich mit Hilfe des statistischen Fuzzy-Matchings die Qualität statistischer Analysen verbessert, indem die Ergebnisse der Analysen heterogener Vergleichsgruppen durch das Aufheben der Heterogenität teilweise bestätigt, korrigiert oder widerlegt wurden.   Im Rahmen des zweiten Anwendungsbeispiels wurden zwei Online-Umfragen zu unterschiedlichen Themen des Web 2.0 miteinander verknüpft. Jedem Datensatz einer Umfrage zur Nutzung sozialer Online-Netzwerke wurden Attribute seines statistischen Zwillings aus einer Umfrage zu Weblogs hinzugefügt. Dies ermöglichte sowohl Aussagen über das Verhalten von Nutzern sozialer Online-Netzwerke als Blogger als auch Aussagen über die Einstellungen von Bloggern und Blog-Lesern gegenüber sozialen Online-Netzwerken. Es konnte bspw. gezeigt werden, dass sich Nutzer von StudiVZ und Xing nicht nur in Online-Netzwerken signifikant unterschiedlich verhalten,sondern auch als Autoren von Weblogs.  

Kontakt: nollp _at_ staff.uni-marburg.de