Knowledge Discovery Erzeugung künstlicher Telekommunikationsdaten (Teil II) Markus Höchstötter...

Preview:

Citation preview

Knowledge DiscoveryErzeugung künstlicher Telekommunikationsdaten

(Teil II)

Markus Höchstötter

Michael Wenzelburger

Agenda

Problemstellung Lösungsansatz Implementierung Performance Feedback

Problemstellung

Generierung von TelKo Daten Input:

Verteilung, Parameter Wahrscheinlichkeitsmodell

Output: TelKo Mikrodaten (Gespräche) Beginn, Dauer, Tarifzone

Problemstellung

TelKo Datenstruktur Gesprächsdauer/ Belegungsdauer Einfallsabstand

ln-Normalverteilung durch Transformation

2exp

2

1)(

2uxfy

) ln(

) ln( ) ln(

x

m

Q

x xu

ProblemstellungGesprächsdauerdichte

0 1 2 3 4 5 6 7 8

Gesprächsdauer in Minuten

Rel

ativ

e H

äufig

keit

Agenda

Problemstellung Lösungsansatz Implementierung Performance Feedback

Lösungsansatz

Erzeugung von einzelnen Kunden

Erzeugung von einzelnen Gesprächsdaten für jeden Kunden mit Zeitstrahlmodell

Erzeugung von Kunden

Kundengruppen unterteilt nach Telfonierverhalten

Ziehung der kundenspezifi-schen Parameter mit ZV aus Kundengruppen

Erzeugung von Gesprächsdaten Generierung für einzelnen

Kunden Beginn bei Null Fortlaufende Ziehung von

Gesprächsdauer und Zwischengesprächsabstand

Ermittlung der Tarifstruktur vor jeder Ziehung

Zeitenstrahl

t=0

}Zwischenzeit 1

t1

Gespräch 1

t2

Ziehung:•Tarifzone (Ort, Nah, Fern)•Gesprächsdauer

} Abhängig vom

Startzeitpunkt

t3

}Zwischenzeit 2

...

Agenda

Problemstellung Lösungsansatz Implementierung Performance Feedback

Implementierung

Eingabe Ziehung Generierung Ausgabe

Eingabe

Festlegung der Rahmen-bedingungen Klassen Tarifzonen Anschlussarten Zeitfenster WoEnde / Werktag Dirac

Eingabe

Einlesen der Verteilungs-parameter SHV: diskrete Verteilung Mittelwert/Streuung für Gesprächs-

dauer und Einfallabstand Prozentsatz der gleichverteilten

Gesprächsdauern

Ziehung

Diskretes Ziehen: Kundenklasse Anschlussart Tarifzone

Gleichverteilte Z-Zahl zwischen 0 und 1

Ziehung

Beispiel:

Zufallszahlen:

Tarifzone Ort Nah FernP(x) absolut 22 15 18P(x) relativ 0,4 0,27 0,33P(x) kumuliert 0,4 0,67 1

0,44 => Nah

0,76 => Fern

0,54 => Nah

0,01 => Ort

Ziehung

Stetiges Ziehen: Gesprächdauer Zwischenankunftszeit

Normalverteilte Z-Zahl Transformation

)*exp( )1,0( NLN xx

Ziehung

Beispiel: µ = 2, = 1.5 Z-Zahl xN(0,1) = -0.7

Transformation

xLN = exp(1.5*(-0.7) +2) = 2.59

Generierung

Bestimmung des Kunden Klasse Anschlussart

Alternierende Ziehung von ZAK und Gesprächsdauer

Generierung

ZAK durch Ziehung einer ZZ und deren Transformation

Dirac Tarifzone in abh der akt Zeit

und Klasse Gesprächslänge unter

Berücksichtigung von Zeitfensterüberlauf

Augabe

Kunde Kunden ID Klasse Anschluss

Gespräch Kunden ID Tarifzone Beginn Dauer

Agenda

Problemstellung Lösungsansatz Implementierung Performance Feedback

Performance

Abbildungsgenauigkeit Bandbreite Datenvolumen

Abbildungsgenauigkeit

Gesprächsdauer 100 Kunden 8 * 86400 sec = 8 Tage kein Dirac

soll ist AbweichungMue 1 1,09 9%Sigma 1 0,82 18%Mue 2 1,97 2%Sigma 1 1,12 12%Mue 5 4,99 0%Sigma 1 0,99 1%Mue 3 2,95 2%Sigma 1 1,08 8%Mue 7 7,07 1%Sigma 1 1,25 25%

5. Versuch

1. Versuch

2. Versuch

3. Versuch

4. Versuch

Abbildungsgenauigkeit

Tarifzonen 100 Kunden 8 * 86400 sec = 8 Tage

soll ist AbweichungOrt 60% 59,8% 0,4%Nah 15% 15,2% 1,3%R50 10% 10,4% 3,7%R200 10% 9,7% 2,7%DE 5% 4,9% 1,5%Summe 100% 100,0% 0,0%

Abbildungsgenauigkeit

Klassen 10000 Kunden 3 Anschlussarten 2 Klassen

soll ist AbweichungAnzahl 3000 2970 1%AS 1 2400 2341 2%AS 2 450 469 4%AS 3 150 160 7%Anzahl 7000 7030 0%AS 1 4200 4071 3%AS 2 2100 2229 6%AS 3 700 730 4%

Klasse 2

Klasse 1

Abbildungsgenauigkeit

Sehr exakte Abbildung der Tarifzonen bzw. Klassen

Ausreichend genaue Abbildung der Gesprächsdauer bzw. ZAK große Werte genauer abgebildet

als kleine

Bandbreite / Datenvolumen 1000 Kunden mit

realitätsnahen Parametern 5 Kundenklassen 5 Tarifzonen

650 sec Laufzeit 26.000 kB Gesprächsdaten 10 kB Kundendaten

Agenda

Problemstellung Lösungsansatz Implementierung Performance Feedback

Feedback

Wahrscheinlich zu detaillierte Parameterstruktur

Hindernis Datenschutz Datenbankanbindung Zeitfenster alle gleichlang

Fragen

Recommended