47
Recherchieren im Internet: Wie funktionieren Suchmaschinen? Steffen-Peter Ballstaedt Vortrag vor dem Genealogischen Arbeitskreis Tübingen am 17.2.2016

Recherchieren im Internet: Wie funktionieren Suchmaschinen? · Zahlen und Fakten 82% der Computernutzer suchen, 79% mailen. Die häufigste Aktivität im Internet ist Mailen, gleich

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

RecherchierenimInternet:WiefunktionierenSuchmaschinen?Steffen-PeterBallstaedt

Vortrag vordemGenealogischen Arbeitskreis Tübingenam17.2.2016

ZahlenundFakten

▶82%derComputernutzersuchen,79%mailen.▶DiehäufigsteAktivitätimInternetistMailen,gleichdanachkommtSuchen.

▶Über50.000AnfrageninderSekundebeiGoogle!

PlatzhirschGoogle

BeziehungsgeflechtderSuchmaschinen

ZahlenundFakten

▶DieAusdehnungdesInternetkannnurgrobgeschätztwerden!

▶Weltweit:über1MilliardeWebsites▶BRD:etwa15MillionenWebsites▶DasInternetverdoppeltsichalle5,32Jahre

▶WiefindeteineSuchmaschineInhaltebzw.DokumenteimWWW?

▶WaskanneineSuchmaschinenichtfinden?▶WiekommtdieTrefferlistezustande(Ranking)?▶WelcheAlternativenzuGooglegibtes?▶WiekannmanpersonenbezogeneDatenimWebsuchen?

AntwortenauffolgendeFragen:

WiefindeteineSuchmaschineInhalteimWWW?

AufbaueineSuchmaschine

WWW

DatenbankWeb-Repräsentation

IndexerCrawler Searcher

Dokumentenspeicher

Crawling

▶ AusgehendvonbekanntenWebsiteswerdendieLinksverfolgt.

▶ DieText-Dokumentewerdenerfasstundgespeichert(Dokumentenspeicher).

▶Crawling findetkontinuierlichstatt,nachAktualität undPopularität.

Indexierung

▶ ErstellteineRepräsentationdesDokumentsaussprachstatistischenDaten:Worthäufigkeit,Wortposition,WortinTiteloderÜberschrift.

▶ DerIndexalseineriesigeDatenbankistdasHerzeinerSuchmaschine.

▶ BeieinerSuchanfragewirdnichtaufdieDokumenteimWeb,sondernaufdieseRepräsentationdesWebzugegriffen.

Beispiel:IndexierungvonText-Dokumenten

D1 GenealogieuntersuchtverwandtschaftlicheBeziehungenzwischenMenschen.

D2 HeimatgeschichteistengmitGenealogieverbunden.

D3 EineQuellesindKirchenbücher,eineandereQuellesindPersonenstandsbücher.

D4 MitdemWWWhatdieGenealogieeinenAufschwungerfahren.

IndexderDokumente

Wort Dokument Häufigkeit Position

andere D3 D3,6

Aufschwung D4 D4,8

Beziehungen D1 D1,6

dem D4 D4,2

die D4 D4,4

eine D3 D3:2 D3,1,D3,5

einen D4 D4,7

eng D2 D2,3

erfahren D4 D4,9

Genealogie D1,D2,D4 D1:1D2:1D4:1 D1,1D2,5D4,6

hat D4 D4,4

Heimatgeschichte D2 D2,1

ist D2 D2,2

Kirchenbücher D3 D3,4

Menschen D1 D1,8

mit D2,D4 D2:1D4:1 D2,4D4,1

Personenstandsbücher D3 D3,9

Quelle D3 D3:2 D3,2D3,7

sind D3 D3:2 D3,3D3,8

untersucht D1 D1:1 D1,2

verbunden D2 D2,6

verwandtschaftliche D1 D1,5

WWW D4 D4,3

zwischen D1 D1,7

Suchanfragen,Stichworte

Genealogie D1,D2,D4

Genealogie WWW D4

Genealogie ORWWW D1,D2,D4

„VerwandtschaftlicheBeziehungen“ D1

Searcher

▶ InterpretationderSuchanfrage(dereingegebenStichwörter):– SuchanfrageinderjeweiligenSession– SuchhistoriedesNutzers– angeklickteDokumente– VerweildaueraufeinemTreffer– SuchverhaltenvergleichbarerNutzer

WaskanneineSuchmaschinenichtfinden?

GrenzenfürdieSuchmaschine

▶ BeschränkungdurchdieStrukturdesWWW:nichtalleWebsitessinderreichbar.

▶ BeschränkungdurchdieStrukturderWebsite:nichtalleDokumentesinderreichbar.

StrukturdesWWW

unerreichbareDokumente

▶durchPasswortgeschützteBereiche– Beispiel:Intranets

▶ durchSuchformularenutzbareDatenbanken– BeispielTelefonbuch

▶ Social-Media-Dienste– Beispiel:Facebook,Twitter

▶ Inhalte,diefürCrawlergesperrtsind– gewollterAusschluss(robots exclusion)– Filterung:ZensuroderrechtlichunzulässigeInhalte

▶Echtzeitinhalte,diesichständigverändern– Beispiele:Börsenkurse,Wetterdaten

SurfaceWebundDeep Web

WiekommtdieTrefferlistezustande(Ranking)?

Ranking

▶DieTreffersindnachabsteigenderRelevanzaufgelistet.

▶DieBerechnungdesRankingistbeijederSuchmaschineandersundeinGeheimnis(Algorithmus)!

▶DasRankingwirdalsKombinationundGewichtungverschiedenerFaktorenberechnet(200beiGoogle)

ErzeugungderTrefferliste

Textstatistik

PopularitätPageRank Aktualität Lokalität Persona-

lisierungTechnischeFaktoren

Anfrage

Ranking

Ranking-Kriterien

▶ IndasRankinggehenkeinequalitativen,sondernnurquantitativeGrößenein:– link-statistischeVariablen– nutzer-statistischeVariablen

▶GesponserteLinksmüssengekennzeichnetsein.▶DasRankingkanndurchSuchmaschinen-optimierungbeeinflusstwerden.

▶UmdaspersonalisierteRankingzuerzeugen,speichertdieSuchmaschineDatenüberdenBenutzer,erstellteinBenutzerprofil.

DieseDatenspeichertGoogle

▶dieIP-AdressedesComputers▶dieSuchanfragen(Suchwörter)▶denZeitpunktderSuche▶dieangesteuertenTreffer(auchWerbung)▶VerweildaueraufdenTreffern

- Geschäftsmodell

▶KontextbezogeneWerbungzudenSuchwörtern

▶PersonenbezogeneWerbungüberangelegteBenutzerprofile

▶VerkaufvonpersönlichenDatenundNutzerprofilenanFirmenfürihrepersonenbezogeneWerbung

BewertungderTreffer

▶ ImpressumundKontaktmöglichkeitvorhanden▶ seriöseInstitution,z.B.Hochschule,Verlag,

WissenschaftlicheGesellschaft,Qualitätspresse▶ Autoren/AutorinnenderTextesindbenannt▶ AngabevonQuellen,BelegefürBehauptungen▶ VerlinkungaufseriöseSites▶ PublikationsdatumundletzteÄnderung(last

update)▶ Vorsichtbeikommerziellenundgesponserten

Sites!

WelcheAlternativenzuGooglegibtes?

UniverselleSuchmaschinen

▶ Startpage:AnfragenwerdenanonymisiertanGoogleweitergeleitet.

▶ Qwant:französischeSuchmaschinemitdeutscherVersion

▶ DuckDuckGo:„DieSuchmaschine,dieSienichtverfolgt.“

Meta-Suchmaschinen

▶HabenkeineneigenenIndexüberCrawlerangelegt.

▶SuchanfragenwerdenanmehrereandereSuchmaschinenweitergeleitet.

▶TrefferausmehrerenTrefferlistenwerdenneugerankt.

▶Meta-SuchmaschinenergebenmehrTreffer,abernichtunbedingtrelevantereTreffer!

Meta-Suchmaschinen

▶ Ixquik:keinepersonenbezogeneDatengespeichert

▶Metager:deutscheSuchmaschinederUniHannover

Spezialsuchmaschinen▶EsgibtCrawlerundSuchmaschinenfürspezielleInhalte:Nachrichten,Jobs,Reise,Personen,Bilder,Videos

▶WissenschaftlicheSuchmaschinenwertennurwissenschaftlicheDokumenteaus:– https://scholar.google.de– http://www.base-search.net

▶Portale/Verzeichnisse fürSpezialsuchmaschinen– www.suchmaschinen-datenbank.dewww.suchlexikon.de

WasmachtgeschicktesundprofessionellesSuchenaus?

Anfragetypen

▶GezielteSuchenacheinembestimmtenFaktumoderDokumentmitklardefiniertemErgebnis.Optimal:DerersteTrefferistrichtig

▶RecherchezueinemThemanachbisherunbekanntenInformationenohneklaresEnde.Optimal:VielerelevanteTreffer

FormulierenvonSuchanfragen

▶PassendeSuchwörter– nichtzubreiteBedeutung– verschiedeneSchreibweisenbeachten– Synonymebeachten– PhrasensucheinAnführungszeichenbeiZitaten

▶EinengungderSuchanfrage– BoolescheOperatorenkombinierenSuchwörter– ErweiterteSuchemitBefehlen:Filetyp,Sprache

Suchwort-VerknüpfungenmitBooleschenOperatoren

AORB HundORKatze 122.000.000TrefferAANDB Hund(AND)Katze 5.800.000TrefferANOTB HundNOTKatze 90.300.000Treffer

(KarotteORMöhre)(SalatNüsse)-Koriander

Such-Tipps

▶InausländischenVersioneneineruniversalenSuchmaschinesuchen.

▶ GleicheineausländischeSuchmaschineverwenden,z.B.Bing

▶PortaleundVerzeichnissesindLinksammlungenzueinemspeziellenThema.– QualitätsprüfungdurcheinRedakteursteam– nurthemenrelevanteTreffer– VerzeichnisderVerzeichnisse:www.suchlexikon.de

WiefindetmanpersonenbezogeneDatenimWWW?

FriedrichAdolfBallstaedt*4.4.1884inSchrimm✝ 13.11.1941inStettin

▶PhrasensuchemitVornameundNameineineruniversellenSuchmaschine,ev.mitzusätzlichenStichworten– www.google.com

▶PhrasensuchemitandererLänderversion– www.google.fr

▶PhrasensuchemitausländischerSuchmaschine– https://www.yandex.ru

▶PhrasensuchemitandererSpracheinstellung– www.google.de →Einstellungen→ erweiterteSuche→Sprache

direktePersonensuche

direktePersonensuche

▶NamenseingabenineinespeziellePersonensuchmaschine– ListevonsozialenNetzwerken:http://www.yourtraces.com/

▶SammlungvonInformationenüberlebendePersonenistwegenDatenschutz illegal.

direktePersonensuche▶SucheinDatenbanken,indereinePersonvermutetwird(teilweiseregistrier- und/oderkostenpflichtig)

▶GenealogischeDatenbanken– https://familysearch.org/family-trees– http://gav.azurewebsites.net

▶Verzeichnisse/PortalevonDatenbanken– https://de.wikipedia.org/wiki/Genealogie-Datenbank– http://wiki-de.genealogy.net/Genealogische_Datenbank/Linkliste

– http://www.heimatarchiv.de/genealogie/webseiten.html▶Telefonbücher;Branchenverzeichnisseetc.

▶GenealogischeMeta-Suchmaschine– http://beuss.spdns.de/Crawl/

direktePersonensuche

indirektePersonensuche▶SuchenachDokumenten,indenendiePersonvermutetwird.– Kirchenbuchportale:– www.archion.de– http://search.ancestry.de/search/db.aspx?dbid=2116– Online-Archive:– https://archive.org/details/genealogy&tab=about– https://archivalia.hypotheses.org/category/genealogie

▶ IndenmeisteingescanntenDokumentenistkeineVolltextsuchemöglich.

FazitDiegenealogischeForschungverlegtsichimmermehrinsWeb:▶Erschließung:PrimärquellenwerdendigitalisiertundimWebzurVerfügunggestellt.

▶BearbeitungderDatenerfolgtmitGenealogie-Programmen,z.B.Gen_Plus.

▶DieZusammenführungderDatenfindetweltweitüberdasWebstatt.Standard:meistGEDCOM.

▶ForschungsergebnissewerdenimmerhäufigerimWebpräsentiert,daeinePrint-Veröffentlichungteuerist.

▶DieVisualisierungderBefundez.B.inStammbäumenerfolgtdurchspezielleProgramme,z.B.GRAMPS.

SchwerdurchschaubarerWildwuchsanAngeboten:DieGrenzezwischenlaienhafterAufarbeitungundwissenschaftlicherForschungverwischen.

Fazit

VisualisierungdurchGRAMPS

▶EinedeutscheOrganisationzurComputergenealogiewurde1989gegründet.

Organisationen

▶EinZiel:dieEDV-gestütztestandardisierteErschließung,BearbeitungundVeröffentlichunggenealogischerQuellen.

▶FamilyHistory InformationStandardsOrganization,seit2013.

▶„organisation established for the purpose ofdeveloping genealogy and family historyinformation standards onamodernplatform“

Organisationen

VielenDankfürIhrInteresse!

www.ballstaedt-kommunikation.de ▶ Downloads