Medizinische Statistik und Informationsverarbeitung

Preview:

DESCRIPTION

Medizinische Statistik und Informationsverarbeitung. Quade Institut für Medizinische Statistik, Dokumentation und Datenverarbeitung. Quade. Anwendungsprogramme. Anwendungsprogramme lassen sich in der Regel in 3 Ebenen einteilen: 1: Daten 2:Anwendung 3:Präsentation - PowerPoint PPT Presentation

Citation preview

Medizinische Statistik und Medizinische Statistik und InformationsverarbeitungInformationsverarbeitung

QuadeQuade

Institut für Medizinische Statistik, Institut für Medizinische Statistik, Dokumentation und DatenverarbeitungDokumentation und Datenverarbeitung

QuadeQuade

AnwendungsprogramAnwendungsprogrammeme

QuadeQuade

Anwendungsprogramme lassen sich in der Regel in Anwendungsprogramme lassen sich in der Regel in 3 Ebenen einteilen:3 Ebenen einteilen:

1: 1: DatenDaten

2:2: AnwendungAnwendung

3:3: PräsentationPräsentation

Diese Ebenen lassen sich auf verschiedenen Rechnern Diese Ebenen lassen sich auf verschiedenen Rechnern unterbringen (Client - Server).unterbringen (Client - Server).

ErfassungssystemeErfassungssysteme

QuadeQuade

Erfassungssysteme können typische Anwendungs-Erfassungssysteme können typische Anwendungs-programme sein. Über Masken werden Daten programme sein. Über Masken werden Daten eingegeben, vom Programm geprüft und dann in einer eingegeben, vom Programm geprüft und dann in einer Datei oder Datenbank gespeichert. Schon gespeicherte Datei oder Datenbank gespeichert. Schon gespeicherte Daten lassen sich jederzeit ändern oder ergänzen. Daten lassen sich jederzeit ändern oder ergänzen. Änderungen werden gegebenenfalls dokumentiert. Änderungen werden gegebenenfalls dokumentiert.

Beispiel:Beispiel: Patientenaufnahme, Erfassung von Patientenaufnahme, Erfassung von Untersuchungsbefunden.Untersuchungsbefunden.

ErfassungssystemeErfassungssysteme

QuadeQuade

In der Medizin gibt es besondere Anforderungen In der Medizin gibt es besondere Anforderungen an Erfassungssysteme. So muß z.B. bei der an Erfassungssysteme. So muß z.B. bei der Patientenaufnahme der Patient re-identifiziert Patientenaufnahme der Patient re-identifiziert werden. Erfaßte Daten eines Patienten müssen werden. Erfaßte Daten eines Patienten müssen diesem eineindeutig zugeordnet werden können.diesem eineindeutig zugeordnet werden können.

ErfassungssystemeErfassungssysteme

QuadeQuade

Wichtig ist die vollständige, vollzählige und fehlerfreie Wichtig ist die vollständige, vollzählige und fehlerfreie Erfassung. Ein Erfassungsbogen wird häufig in der Erfassung. Ein Erfassungsbogen wird häufig in der primären Datenerfassung eingesetzt. Geeignete primären Datenerfassung eingesetzt. Geeignete Formulare (Markierungsbelege) können auch online Formulare (Markierungsbelege) können auch online eingelesen werden (Markierungsbeleg mit Barcode eingelesen werden (Markierungsbeleg mit Barcode oder OCR-Schrift).oder OCR-Schrift).

Datei, DatenbankDatei, Datenbank

QuadeQuade

Die einfachste Form, Daten zu speichern, ist die Die einfachste Form, Daten zu speichern, ist die Ablage in einer Datei (File). Dateien werden in Ablage in einer Datei (File). Dateien werden in Verzeichnissen (Directories) abgelegt. Die Verzeichnissen (Directories) abgelegt. Die Dateinamen werden in Abhängigkeit vom Dateinamen werden in Abhängigkeit vom Betriebssystem gewählt. Betriebssystem gewählt.

Daten werden in Dateien in ein oder mehreren Daten werden in Dateien in ein oder mehreren Zeilen (Records) mit fester (fixed) oder variabler Zeilen (Records) mit fester (fixed) oder variabler Länge abgelegt. Die Reihenfolge der Daten, die Länge abgelegt. Die Reihenfolge der Daten, die Form ihrer digitalen Repräsentation und ihre Form ihrer digitalen Repräsentation und ihre Position in der Datei müssen vereinbart sein.Position in der Datei müssen vereinbart sein.

Datei, DatenbankDatei, Datenbank

QuadeQuade

Auch Datenbanken speichern Daten in Dateien. Auch Datenbanken speichern Daten in Dateien. Sie führen zusätzlich Informationen über die Sie führen zusätzlich Informationen über die gespeicherten Daten (Bezeichnung, Format, gespeicherten Daten (Bezeichnung, Format, Länge) mit.Länge) mit.

Bei echten Datenbanken verwaltet ein Bei echten Datenbanken verwaltet ein Datenbankmanager die Daten und organisiert Datenbankmanager die Daten und organisiert den Zugriff. Damit werden Datenzugriff und den Zugriff. Damit werden Datenzugriff und Datenintegrität besser gewährleistet als durch Datenintegrität besser gewährleistet als durch Record locking bei Dateien. Record locking bei Dateien.

Datei, DatenbankDatei, Datenbank

QuadeQuade

hierarchischhierarchisch relationalrelational objektorientiertobjektorientiert

Dateibasiert:Dateibasiert: dBase, ClipperdBase, ClipperAccessAccess

Datenbank:Datenbank: OracleOracle MysqlMysql

SQLSQL InformixInformixSybaseSybase

60000-10000 AC 60000-10000 AC Gesellschaft der Jäger Gesellschaft der Jäger und Sammler und Sammler

- 18. Jahrhundert- 18. Jahrhundert Ackerbau und Ackerbau und ViehzuchtViehzucht

- heute- heute IndustriegesellschaftIndustriegesellschaft

heute - ?heute - ?InformationsgesellschaftInformationsgesellschaft

zukünftigzukünftig ? ? Freizeitgesellschaft?Freizeitgesellschaft?

GesellschaftenGesellschaften

Oncology Meeting CuritibaOncology Meeting Curitiba

Alle Produkte müssen produziert Alle Produkte müssen produziert werden.werden.

Das „Produkt“ “Information / Wissen” Das „Produkt“ “Information / Wissen” kann leicht kopiert werden!kann leicht kopiert werden!

Unser Problem ist nicht so sehr Unser Problem ist nicht so sehr “producing knowledge”, sondern der“producing knowledge”, sondern der

Zugang zu vorhandenem WissenZugang zu vorhandenem Wissen

Information SocietyInformation Society

QuadeQuade

19571957 SputnikSputnik

19581958 Advanced Research Projects Advanced Research Projects AgencyAgency

19691969 Arpanet(Network Control Arpanet(Network Control Protocol) erster Request For Protocol) erster Request For CommentsComments

19721972 ftp e-mailftp e-mail

Geschichte des Geschichte des Internet Internet

Oncology Meeting CuritibaOncology Meeting Curitiba

19721972 5 verschiedene Netzwerke 5 verschiedene Netzwerke (inkompatibel)(inkompatibel)

RFC #318 telnet (Jon Postel)RFC #318 telnet (Jon Postel)

19731973 Name „Internet“ and Name „Internet“ and Definition Definition von TCP/IPvon TCP/IP

19821982 TCP/IP wird „Standard“TCP/IP wird „Standard“

19831983 TCP/IP als Source-Code frei TCP/IP als Source-Code frei zugänglich (Berkeley System zugänglich (Berkeley System Distribution)Distribution)

Geschichte des Geschichte des Internet Internet

Oncology Meeting CuritibaOncology Meeting Curitiba

The Telephone The Telephone Network Network

The Telephone The Telephone Network Network

The Telephone The Telephone Network Network

The Computer The Computer Network Network

NetzwerkeNetzwerke

QuadeQuade

Netzwerke verbinden Computer untereinander.Netzwerke verbinden Computer untereinander.

Vereinbarungen für den Informationstransport und Vereinbarungen für den Informationstransport und

-Austausch nennt man Protokolle. Netzwerke werden nach -Austausch nennt man Protokolle. Netzwerke werden nach

dem OSI Referenzmodell in 7 Schichten eingeteilt. Dabei dem OSI Referenzmodell in 7 Schichten eingeteilt. Dabei

nimmt die unterste Schicht großen Einfluß auf die nimmt die unterste Schicht großen Einfluß auf die

Leistungsdaten eines Netzwerkes.Leistungsdaten eines Netzwerkes.

NetzwerkeNetzwerke

QuadeQuade

In der Transport und Vermittlungsschicht werden wichtige In der Transport und Vermittlungsschicht werden wichtige

Eigenschaften des Netzwerkes festgelegt.Eigenschaften des Netzwerkes festgelegt.

SNASNA IPXIPX NetbiosNetbios TCP/IPTCP/IP

weltweitweltweit locallocal local local weltweitweltweit

DateizugriffDateizugriff DateizugriffDateizugriff DateizugriffDateizugriff DateizugriffDateizugriff

druckendrucken druckendrucken druckendrucken druckendrucken

NCSNCS NCSNCS

WWWWWW

ftpftp

QuadeQuade

IP-Netzwerkadressen

Eine IP-Adresse besteht aus 4 Zahlen (Byte) zwischen 0 und 255. Hinzu kommt eine Netzwerkmaske. Die Netzwerkmaske (z.B. 255.255.x.x) bestimmt, welche Adressen ein zusammengehörendes Netzwerk (Knoten) bilden. Das erlaubt den gleichzeitigen Betrieb mehrerer logischer Netzwerke in einem physikalischen Netzwerk. Die höchste und die niedrigste Adresse ist jeweils für Broadcasts reserviert.

Broadcast

Alle Netzwerkkarten innerhalb eines zusammengehörenden Netzwerks lauschen auf den Broadcastadressen.

Über die Broadcastadressen teilen die Netzwerkkarten anderen Rechnern ihre Anwesenheit und die von ihnen angebotenen Services mit.

IP-Netzwerkklassen

Eine IP-Adresse ist zweigeteilt und zwar in einen Netzwerkteil und einen Knotenteil. Der Netzwerkteil ist innerhalb eines Netzwerksegments überall gleich, während jeder Rechner oder jedes andere Gerät seine eigene Knotennummer bekommt.

10.10.10.10 Maske 255.0.0.0

IP-Netzwerkklassen

Über die Netzwerknummer erfolgt auch die Einteilung in sogenannte Netzwerk-Klassen in A-, B- oder C-Klasse Netzwerke. Das Prinzip ist, dass große Netzwerke mit vielen Knoten möglichst eine Klasse A oder wenigstens eine Klasse B Nummer bekommen und kleine Netze eine Klasse C Nummer

http://www.instrumentation.de/5106003d.htm

IP-Netzwerkklassen

Klasse A (1.0.0.0 bis 127.255.255.255): • Das erste Bit der Adresse ist auf Null gesetzt. Die

ersten acht Bit identifizieren das Netzwerk, die restlichen 24 Bit den Host. Insgesamt sind 127 Class-A-Netze möglich.

• Reserviert: 127.x.x.x (loopback/localhost)• Privat: 10.0.0.0 - 10.255.255.255

IP-Netzwerkklassen

Das Klasse B (128.0.0.0 bis 191.255.255.255): • Bei Klasse-B-Netzen ist das erste Bit auf Null, das

zweite Bit auf eins gesetzt. Die ersten 16 Bit beschreiben das Netzwerk, die anderen 16 Bit sind die Hostadresse.

• Netze: 16.384 mit maximal 65.534 angeschlossenen Computern.

• Privat: 172.16.0.0 - 172.31.255.255

IP-Netzwerkklassen

Klasse C (192.0.0.0 bis 223.255.255.255) : • Diese Netzwerkart erlaubt nur 255 Hosts in einem Netz.

Die ersten drei Bit einer Class-C-Adresse bilden dabei die Folge "110". Die ersten 24 Bit identifizieren das Netzwerk, nur acht Bit den Host.

• 2.097.152 Netze mit jeweils 254 Rechnern • Privat: 192.168.0.0 - 192.168.255.255

IP-Netzwerkklassen

Klasse D: 224.0.0.0 - 239.255.255.255 für spezielle Dienste z.B. Multicast

Ports

• Jede IP-Adresse hat 65536 Ports• festgelegte privilegierte Ports 0 bis 1023.• festgelegte Ports von 1024 bis 49151• dynamische oder private von 49152 bis

65535http://www.iana.org/assignments/port-numbers

telephonetelephone internetinternet

circuit switchingcircuit switching packet switchingpacket switching

time orientedtime oriented volume volume orientedoriented

transfers picturetransfers picture transfers encoded transfers encoded of informationof information datadata

expensiveexpensive cheepcheep

real timereal time sometimes sometimes real timereal time

Warum Internet?Warum Internet?

1 page of information has 1 page of information has approximately 2000 bytesapproximately 2000 bytes

transmission timetransmission time

telephonetelephone internetinternet

reading 1 minutereading 1 minute

fax 60 seconds fax 60 seconds 1 second and 1 second and fasterfaster

(56313 bytes)(56313 bytes) (2864 (2864 bytes) bytes)

1 page of information1 page of information

19831983 Arpanet wechselt von NCP zu Arpanet wechselt von NCP zu TCPTCP

Domain Name ServiceDomain Name Service

19861986 Perl von Larry WallPerl von Larry Wall

19881988 Internet Wurm von R. Morris Jr.Internet Wurm von R. Morris Jr.

19891989 Clifford Stoll und die HackerClifford Stoll und die HackerWeb Vorschlag von Tim Berners-Web Vorschlag von Tim Berners-

LeeLee

Geschichte des Geschichte des Internet Internet

Oncology Meeting CuritibaOncology Meeting Curitiba

19901990 Tim Berners-Lee erstellt die Tim Berners-Lee erstellt die erste erste WWW SoftwareWWW Software

19911991 WAIS wird erfundenWAIS wird erfundenGopher wird freigegebenGopher wird freigegebenPretty Good Privacy von Philip Pretty Good Privacy von Philip Zimmerman wird freigegebenZimmerman wird freigegebenLinux wird von Linus Torvald Linux wird von Linus Torvald

vorgestelltvorgestellt

Geschichte des Geschichte des Internet Internet

Oncology Meeting CuritibaOncology Meeting Curitiba

Tim Berners-Lee Tim Berners-Lee (1990)(1990)

19911991 VeronicaVeronica

19931993 Mosaic Mosaic WWW Verkehr steigert sich vonWWW Verkehr steigert sich von

0.1% auf 1%. Es gibt 500 0.1% auf 1%. Es gibt 500 WWW WWW ServerServer

19941994 WWW wächst um 341,634%WWW wächst um 341,634%WWW wechselt von CERN zur WWW wechselt von CERN zur INRIAINRIA

Geschichte des Geschichte des Internet Internet

Oncology Meeting CuritibaOncology Meeting Curitiba

QuadeQuade

World Wide WebWorld Wide Web

Oncology Meeting Curitiba Oncology Meeting Curitiba

19941994 Lycos startet eine Lycos startet eine Suchmaschine Suchmaschine im Internet. im Internet. Die deutsche Die deutsche Bundestagswahl wird im Internet Bundestagswahl wird im Internet übertragen.übertragen.

19951995 HTTP Pakete bilden das größte HTTP Pakete bilden das größte Kontingent im Internet Verkehr.Kontingent im Internet Verkehr.Apache Web Server Projekt.Apache Web Server Projekt.Java wird eingeführt.Java wird eingeführt.

Geschichte des Geschichte des Internet Internet

Oncology Meeting CuritibaOncology Meeting Curitiba

19961996 Blue Ribbon CampainBlue Ribbon Campain

19981998 ClintonClinton

Geschichte des Geschichte des Internet Internet

Oncology Meeting CuritibaOncology Meeting Curitiba

Einige Fakten (2000)Einige Fakten (2000)

• Der Bereich Medizin ist der zweitgrößte im Der Bereich Medizin ist der zweitgrößte im InternetInternet

• Es gibt fast eine Milliarde DokumenteEs gibt fast eine Milliarde Dokumente

• Maximal 10% bis 20% des Internet werden Maximal 10% bis 20% des Internet werden von einer Suchmaschine indexiert.von einer Suchmaschine indexiert.

• Es gibt Listserver und SuchmaschinenEs gibt Listserver und Suchmaschinen

AAA+BA+B

AAA+CA+C

RecallRecall Anteil der gefundenen Daten an Anteil der gefundenen Daten an den gesuchten Datenden gesuchten Daten

Precision Precision Anteil der gefundenen Daten Anteil der gefundenen Daten der von Interesse istder von Interesse ist

Ergebnis Ergebnis der Sucheder Suche

vorhandene Datenvorhandene Datenrelevant relevant irrelevantirrelevant

gefundengefunden

nicht gefundennicht gefunden

AA BB

CC DD

Recherchesysteme

RecherchesystemeRecherchesysteme

QuadeQuade

MEDLINEMEDLINE Schlagworte, Autoren (3000 Schlagworte, Autoren (3000 journals) journals)

http://www.ncbi.nlm.nih.gov/PubMed/http://www.ncbi.nlm.nih.gov/PubMed/

CURRENTCURRENT wöchentlich erstelltes lnhaltsverzeichnis wöchentlich erstelltes lnhaltsverzeichnis CONTENTS CONTENTS wichtiger Journals wichtiger Journals

SCIENCE SCIENCE wie häufig wurde eine Publikation zitiertwie häufig wurde eine Publikation zitiertCITATION INDEXCITATION INDEX

Zwei Verfahren der Indexierung

Einfacher Index über alle Worte z.B. WAIS

Index mit Thesaurus z.B. Xindex mit UMLS-Metathesaurus

Alle Worte werden in den Index aufgenommenAuch Worte wie Ich, Du, Er, Sie, Es, Das, und, aber, wie, ...

Keine Bestimmung von Häufigkeit und Wichtigkeit

Es werden nur relevante Begriffe in den Index aufgenommenWas Relevant ist wird an Hand von UMLS bestimmt

Berechnung der Häufigkeiten von Worten und Wortgruppen

Berechnung der Dichte dieser Worte und Wortgruppen

Funktion von Xindex mit UMLS-Metathesaurus

Wortliste

UMLS-Metathesaurus

DokumentPrimäre Wortliste

(Konzepte)

RankingRank = Wörter pro Begriff * Anzahl * 1/Doclen * 1/Anz. Häufigster Begriff

Index für das Dokument mit Preffered Terms

Vorteile von Xindex gegenüber WAIS

Erkennen von Wortkombinationen

z.B. Breast Cancer

Gleiches Suchergebnis bei unterschielicher Schreibweise

z.B. hpv und HPV

z.B. MTX und Methotrexat

Sinnvolles Suchergebnis bei trivialen Begriffen

z.B. love --> HPV, Cervixcarzinom, Brustkrebs

Es werden Dokumente in verschiedenen Sprachen gefunden

z.B. Englisch, Deutsch und Spanisch

Vorteile von Xindex gegenüber WAIS

Beispiel Melanom

Vorteile von Xindex gegenüber WAIS

Es werden seltene Entitäten gefunden:

Suche nach „Melanom“

liefert Informationen zum „Wilms Tumor“

Dieser steht in Verbindung zum „clearcellsarcoma“

einer seltenen Form des Melanoms

Erkennen von Synonymen

z.B. Mumps, Parotitis epidemica

Der UMLS-Metathesaurus

Integration vorhandener Thesaurie:

ICD 10, MESH, Cancerlit, HL7-Zusatz

Mehrsprachig: z.B. Englisch, Deutsch, Spanisch, Russisch,Französisch, Finnisch, Italienisch, ...

Konzeptorientierung:

Jedes Konzept bekommt eine Nummer (CUI)

Jedes Synonym jedes Konzeptes bekommt eine eigene Nummerin verschiedenen Sprachen sowohl normalisiert (SUI) als auch nicht normalisiert (LUI) Kennzeichnung des „Preffered Terms“

NutzerproblemeNutzerprobleme

• Wie finde ich als Laie eine Information? Wie finde ich als Laie eine Information?

• Wie kann ich die Seriosität einer Wie kann ich die Seriosität einer Information erkennen (weit mehr fragliche Information erkennen (weit mehr fragliche Informationen denn gute) ?Informationen denn gute) ?

• Wie finde ich beim Anbieter eine Wie finde ich beim Anbieter eine Information trotz bildorientierter Information trotz bildorientierter Oberfläche?Oberfläche?

Was man wissen sollte!Was man wissen sollte!

• Suchmaschinen lesen über „Spider“ Dokumente Suchmaschinen lesen über „Spider“ Dokumente ein und erstellen einen Volltext-Index (nicht bei ein und erstellen einen Volltext-Index (nicht bei Datenbanken, Graphiken, Java).Datenbanken, Graphiken, Java).

• Metatags werden nur bedingt ausgewertet. Metatags werden nur bedingt ausgewertet. (Anbieter manipulieren „auf Teufel komm raus“)(Anbieter manipulieren „auf Teufel komm raus“)

• Ranking ist nicht intelligent und bevorzugt kurze Ranking ist nicht intelligent und bevorzugt kurze Dokumente.Dokumente.

• Für Geld wird das Ranking manipuliert!Für Geld wird das Ranking manipuliert!

Universität BonnUniversität BonnVermittlung zu CancerNet Vermittlung zu CancerNet

Host=LycosHost=Lycos

Januar März Mai Januar März Mai 19971997

303025252020151510105500

a2z Katalog wurde am 28. März aus dem Angebot genommen

Meta-TagsMeta-Tags

<META NAME="keywords"<META NAME="keywords" CONTENT="CONTENT="Breast cancer, oncology, Cancer, medicine, Breast cancer, oncology, Cancer, medicine,

Medizin, Krebs, CancerNet, PDQ, TumorMedizin, Krebs, CancerNet, PDQ, Tumor">"><META HTTP-EQUIV="RESOURCE-TYPE" content="document"><META HTTP-EQUIV="RESOURCE-TYPE" content="document"><META name="description" content="Breast cancer"><META name="description" content="Breast cancer">

QualitätssiegelQualitätssiegel

• Geschütztes Logo einer anerkannten Organisation Geschütztes Logo einer anerkannten Organisation (NCI)(NCI)

• HON Code of ConductHON Code of Conduct• Link von einer anerkannten Organisation (WHO)Link von einer anerkannten Organisation (WHO)• MedCERTAINMedCERTAIN• In Vorbereitung: Qualitätssiegel der AG-Internet In Vorbereitung: Qualitätssiegel der AG-Internet

der GMDSder GMDS

Evaluation kommerzieller AnbieterEvaluation kommerzieller Anbieter

• Kriterien für Focus RechercheKriterien für Focus Recherche– Nutzen für den UserNutzen für den User– Kostensenkung durch weniger ArztbesucheKostensenkung durch weniger Arztbesuche– Richtigkeit und AusgewogenheitRichtigkeit und Ausgewogenheit– VollständigkeitVollständigkeit– Online-Arzt vorhandenOnline-Arzt vorhanden

• Ergebnis der Recherche für Focus Ergebnis der Recherche für Focus

– Der User kann einen Arzt finden. Ein Hausarzt-Buch ist auf Der User kann einen Arzt finden. Ein Hausarzt-Buch ist auf mehrere Tausend Pages aufgeteilt.mehrere Tausend Pages aufgeteilt.

– Der User verbringt viel Zeit für wenig Information im Netz. Der User verbringt viel Zeit für wenig Information im Netz. Seiten werden aus Datenbank generiert. Viele Wege führen zur Seiten werden aus Datenbank generiert. Viele Wege führen zur gleichen Seite.gleichen Seite.

– Bachblüten und Standardtherapie gleichwertig im Angebot.Bachblüten und Standardtherapie gleichwertig im Angebot.

– Nur Infos vom eigenen Server. Suche extrem schwierig Nur Infos vom eigenen Server. Suche extrem schwierig (Stunden) da Information versteckt. (Stunden) da Information versteckt.

– Online-Arzt ist nicht hilfreich für eigene Fragen (Show). Online-Arzt ist nicht hilfreich für eigene Fragen (Show).

Was will der Nutzer?Was will der Nutzer?

• Informationen zu KrankheitenInformationen zu Krankheiten• Informationen zu eigenen WertenInformationen zu eigenen Werten• Zugriff auf die eigene PatientenakteZugriff auf die eigene Patientenakte• Informationen zu Arzt, Krankenhaus oder Informationen zu Arzt, Krankenhaus oder

VersicherungVersicherung– Sprechstunden, Besuchszeiten, ParkplatzSprechstunden, Besuchszeiten, Parkplatz– Benchmarking Benchmarking im Qualitätsbereichim Qualitätsbereich– VersicherungsvergleichVersicherungsvergleich

Recommended