1
Konzeption und Realisierung eines Text-Analysesystems zur Automatisierung der Bewerberauswahl von diesem Datenformat jede beliebige Anwendung adaptieren zu können. Das Wissen zur Extraktion von Lebenslaufdaten soll nicht in der Programmierung verankert sein, sondern durch ein Repository verwaltet werden, mit dem weiteres Wissen eingegeben werden kann. Im Rahmen der Analyse bestehender Verfahren zur Extraktion von Informationen aus linguistischen Texten wurden eine ganze Reihe von Verfahren gefunden, die sowohl ausgehend von einem konkreten Bild des Gesuchten Informationen extrahieren, als auch Verfahren die nach dem Ähnlichkeitsprinzip Daten klassifizieren, um so neue Zusammenhänge zu entdecken. Im Rahmen der Lebenslaufextraktion weiß man jedoch sehr konkret, wonach man sucht, so dass sich in diesem Zusammenhang die Art der Adhoc-Verfahren anbietet. Konkreter gesagt wurde auf das Mittel der Pattern, oder auch bekannt als reguläre Ausdrücke, zurückgegriffen. Auf dieser Grundlage wurde mit „CV- Extractor“, auf Basis von C# und XML, eine Umgebung geschaffen, mit deren Hilfe Daten aus Lebensläufen unter Verwendung von Pattern extrahiert werden können. In einer weiteren Teilkomponente von „CV-Extractor“ können die zugrunde gelegte Pattern auch bearbeitet werden, um die Zuverlässigkeit zu erhöhen. Das Ergebnis dieser Entwicklung zeigte, dass es viele Algorithmen zur Extraktion von linguistischen Texten gibt, es aber noch keinen Algorithmus gibt, der in jeder Situation verwendet werden kann. Konkreter gesagt gibt es heute sogar noch keinen Algorithmus, der auf einem Teilgebiet perfekt arbeitet. Hieraus kann der Rückschluss gezogen werden, dass die Entwicklung des „CV-Extractors“ ein wichtiger Schritt in die richtige Richtung ist, dieses Tool jedoch nur die manuelle Arbeit durch IT erleichtern, nicht aber ersetzen kann. Im Zeitalter des Internets und des Informationsaustauschs ist die Beschaffung von Informationen denkbar einfach geworden. Durch diesen Trend ist es daher heute üblich, Bewerbungen digital zu versenden. Durch diese enorme Zeit- und Kostenersparnis steigt die Zahl der Bewerber auf freie Stellen ständig an. Dies stellt Unternehmen vor die Herausforderung, aus dieser Datenmenge dennoch den auf eine Stelle passenden richtigen Bewerber zu finden. Das Unternehmen fecher hat diesen Trend längst erkannt und bietet mit dem Tool „hunter“ den Personalentscheidern eine IT basierte Unterstützung an. Nach der manuellen Eingabe der Bewerberdaten und einem Wunschprofil kann „hunter“ aus den zugrunde gelegten Bewerberdaten passende Kandidaten automatisiert heraussuchen. Leider erfolgt die Dateneingabe in „hunter“ auf manuellem Wege und stellt somit einen hohen Aufwand dar. Aus diesem Grund ist es wenig verwunderlich, dass die Forderung nach einer automatisierten Datenerfassung von Bewerberdaten in das Tool „hunter“ besteht. Diese Arbeit setzt sich mit genau dieser Problematik auseinander und untersucht verschiedene Verfahren zur automatisierten Textextraktion auf semantischer Basis, um so geeignete Verfahren und Technologien zu finden, um Bewerberdaten aus Dokumenten automatisiert zu erkennen. Konkreter gesagt sollen Lebensläufe in beliebigen Variationen durch eine Softwarekomponente „CV-Extractor“ eingelesen und erkannt werden. Das Ergebnis dieses Extraktionsprozesses soll eine einheitliche Datenstruktur sein, die alle Lebensläufe auf standardisierte Weise beschreibt um die so gewonnen Daten maschinenlesbar zu machen. Damit „CV-Extractor“ auch als eigenständige Softwarekomponente existieren kann, werden die Ergebnisse Autor: B.Sc. Aboulkacime Chebak Referent: Prof. Dr. Christoph Wentzel Korreferent: Prof. Dr. Stephan Karczewski

Konzeption und Realisierung eines Text- Analysesystems zur Automatisierung der Bewerberauswahl von diesem Datenformat jede beliebige Anwendung adaptieren

Embed Size (px)

Citation preview

Page 1: Konzeption und Realisierung eines Text- Analysesystems zur Automatisierung der Bewerberauswahl von diesem Datenformat jede beliebige Anwendung adaptieren

Konzeption und Realisierung eines Text-Analysesystems zur Automatisierung der Bewerberauswahl

von diesem Datenformat jede beliebige Anwendung adaptieren zu können. Das Wissen zur Extraktion von Lebenslaufdaten soll nicht in der Programmierung verankert sein, sondern durch ein Repository verwaltet werden, mit dem weiteres Wissen eingegeben werden kann.

Im Rahmen der Analyse bestehender Verfahren zur Extraktion von Informationen aus linguistischen Texten wurden eine ganze Reihe von Verfahren gefunden, die sowohl ausgehend von einem konkreten Bild des Gesuchten Informationen extrahieren, als auch Verfahren die nach dem Ähnlichkeitsprinzip Daten klassifizieren, um so neue Zusammenhänge zu entdecken. Im Rahmen der Lebenslaufextraktion weiß man jedoch sehr konkret, wonach man sucht, so dass sich in diesem Zusammenhang die Art der Adhoc-Verfahren anbietet. Konkreter gesagt wurde auf das Mittel der Pattern, oder auch bekannt als reguläre Ausdrücke, zurückgegriffen. Auf dieser Grundlage wurde mit „CV-Extractor“, auf Basis von C# und XML, eine Umgebung geschaffen, mit deren Hilfe Daten aus Lebensläufen unter Verwendung von Pattern extrahiert werden können. In einer weiteren Teilkomponente von „CV-Extractor“ können die zugrunde gelegte Pattern auch bearbeitet werden, um die Zuverlässigkeit zu erhöhen.

Das Ergebnis dieser Entwicklung zeigte, dass es viele Algorithmen zur Extraktion von linguistischen Texten gibt, es aber noch keinen Algorithmus gibt, der in jeder Situation verwendet werden kann. Konkreter gesagt gibt es heute sogar noch keinen Algorithmus, der auf einem Teilgebiet perfekt arbeitet. Hieraus kann der Rückschluss gezogen werden, dass die Entwicklung des „CV-Extractors“ ein wichtiger Schritt in die richtige Richtung ist, dieses Tool jedoch nur die manuelle Arbeit durch IT erleichtern, nicht aber ersetzen kann.

Im Zeitalter des Internets und des Informationsaustauschs ist die Beschaffung von Informationen denkbar einfach geworden. Durch diesen Trend ist es daher heute üblich, Bewerbungen digital zu versenden. Durch diese enorme Zeit- und Kostenersparnis steigt die Zahl der Bewerber auf freie Stellen ständig an. Dies stellt Unternehmen vor die Herausforderung, aus dieser Datenmenge dennoch den auf eine Stelle passenden richtigen Bewerber zu finden. Das Unternehmen fecher hat diesen Trend längst erkannt und bietet mit dem Tool „hunter“ den Personalentscheidern eine IT basierte Unterstützung an. Nach der manuellen Eingabe der Bewerberdaten und einem Wunschprofil kann „hunter“ aus den zugrunde gelegten Bewerberdaten passende Kandidaten automatisiert heraussuchen. Leider erfolgt die Dateneingabe in „hunter“ auf manuellem Wege und stellt somit einen hohen Aufwand dar.

Aus diesem Grund ist es wenig verwunderlich, dass die Forderung nach einer automatisierten Datenerfassung von Bewerberdaten in das Tool „hunter“ besteht. Diese Arbeit setzt sich mit genau dieser Problematik auseinander und untersucht verschiedene Verfahren zur automatisierten Textextraktion auf semantischer Basis, um so geeignete Verfahren und Technologien zu finden, um Bewerberdaten aus Dokumenten automatisiert zu erkennen. Konkreter gesagt sollen Lebensläufe in beliebigen Variationen durch eine Softwarekomponente „CV-Extractor“ eingelesen und erkannt werden. Das Ergebnis dieses Extraktionsprozesses soll eine einheitliche Datenstruktur sein, die alle Lebensläufe auf standardisierte Weise beschreibt um die so gewonnen Daten maschinenlesbar zu machen. Damit „CV-Extractor“ auch als eigenständige Softwarekomponente existieren kann, werden die Ergebnisse in XML gespeichert, um auf Basis

Autor: B.Sc. Aboulkacime Chebak

Referent: Prof. Dr. Christoph Wentzel

Korreferent: Prof. Dr. Stephan Karczewski