Google & Google-Labs Adrian Schuster. Übersicht Google n Geschichtliches n Arbeitsweise/Technik...

Preview:

Citation preview

Google & Google-Labs

Adrian Schuster

Übersicht Google

Geschichtliches Arbeitsweise/Technik Funktionen

– Suchmaschine• Google.com vs. Google.de

– Bilder, Newsgroups, Nachrichten, Katalog, Directory, Expertenrat, Toolbar, Compute

Übersicht Google Labs

Funktionen– VoiceSearch– Keys– Glossary– Sets

Rund um Google– Google Weblog, Googlefight

Googol ~ Google– 1000000000000000000000000000...0– 10100

– Milton Sirotta (Neffe von Edward Kasner) Gründerväter

– Sergey Brin– Lawrence Page

Geschichtliches

Suchmaschinenprojekt an der Stanford University

„BackRub“ mit Fähigkeit, die Links zur indizierten Seite zu erfassen.

Nutzung von gewöhnlicher Hardware Suche nach Investoren

Geschichtliches

7. September 1998: Google Inc. Menlo Park, California– Garagenfirma– 10.000 Anfragen

1999: Suchmaschine von AOL/Netscape mit 3 Mill. Anfragen

2001: Aufkauf von Deja.com

Geschichtliches

heute:– >500 Angestellte– >150 Millionen Anfragen– >54 Millionen Benutzer (50% non-US)– >3 Milliarden Webseiten– >800 Millionen usenet-Posts– >330 Millionen Bilder– 36 Länderdomains

Geschichtliches

heute:– >100 Millionen Dollar jährlicher Umsatz– ca. 100% jährliches Wachstum

Geschichtliches

Geschichtliches

Browserhäufigkeit Nutzersprachen

Mai 2001 - Oktober 2002

Technik „The Anatomy of a

Large-Scale Hypertextual Web Search Engine“ 1998

„The PageRank Citation Ranking: Bringing Order to the Web“ 1998

Technik

größter kommerzieller Linux-Cluster >10.000 Maschinen 5 verteilte Datacenter

Google Search Appliances– Linux-Server

Suchmaschine– simpel– leichtgewichtig– beständig

einfach– AND-Verknüpfung– keine Wildcards

Funktionen

Filetypen– 12 Haupttypen

• Portable Document Format (pdf), PostScript (ps), Lotus 1-2-3 (wk1, wk2, wk3, wk4, wk5, wki, wks, wku), * Lotus WordPro (lwp), MacWrite (mw), Excel (xls), PowerPoint (ppt), Word (doc), Works (wks, wps, wdb), Write (wri), Rich Text Format (rtf), Text (ans, txt)

– [filetype:rtf]

ähnliche Seiten (GoogleScout)

Suchmaschine

Übersetzungen– Englisch übersetzt in

• Deutsch• Französisch• Spanisch• Portugiesich• Italienisch

– Erkennung von 36 Sprachen „I´m feeling lucky“

Suchmaschine

erweitert

Syntax– [_-ausgeschlossen]– [_+eingeschlossen]– keine Wildcards (aber Paltzhalter * )– keine Groß-/Kleinschreibung

Suchmaschine

Syntax– ["genauer Wortlaut"]– OR oder |– [site:www.distributed.net]– [link:www.distributed.net]– [related:www.distributed.net]– [info:www.distributed.net]– [stocks: amd shr]

Suchmaschine

Syntax– [allintitle:arthur dent]– [intitle:beeblebrox ]– [allinurl:online/public]– [inurl:public_html]– z. B. inurl:fu-berlin site:fu-berlin.de– cache:www.inf.fu-berlin.de/inst/ags.html– date: ?

Suchmaschine

.com vs. .de

Filtermechanismus, der Suchergebnisse des deutschen Ablegers zensiert– auch Frankreich, Schweiz– keine offiziellen Informationen erhältlich

gleicher Datenbstand wie google.com Filterung der URLs vor Anzeige der

Suchergebnisse Seiten im Cache vorhanden

.com vs. .de

z.B. Stormfront.org nicht sichtbar:

– www2.stromfront.org– www3.stromfront.org– www4.stromfront.org– women.stromfront.org

sichtbar:– irc.stormfront.org:8000

Bilder images.google.com

390 Millionen Bilder

Bilder images.google.com

Beurteilung/Indizierung– <ALT>-Tag– Bildbeschreibung– Seiteninhalt– Bildanalyse– Duplikatentfernung

alle Suchtags möglich

Bilder images.google.com

Bilder images.google.com

SafeSearch– Filterung von „pornography and explicit

sexual content “

Newsgroups groups.google.com

usenet

Newsgroups groups.google.com

>35.000 Gruppen >700 Millionen Postings usenet-Start in 1979

Newsgroups groups.google.com

Übersicht einer Newsgroup

Newsgroups groups.google.com

ältestes Posting in Net.general

From: sdcarl!rusty Mon May 11 09:00:58 1981

To: ucbvax^mark

Subject: newsgroup fa, net, etc.

Won't we need to change the .ngfile also? Also is ALL an acceptable newsgroup on

the left side of the dot such that ALL.ALL will catch everything?

Rusty is right (or is that "Rusty is Wright"?) - we have ALL in our .ngfile

so I tend to forget this. ALL.ALL may or may not work, but ALL certainly does.

Mark

I plan to make the change on Tuesday unless something horrible happens.

Newsgroups groups.google.com

archiviert von Henry Spencer (Department of Zoology Toronto)– 1981 - 1991 – 141 Bänder á 120 MB

Nachrichten news.google.com

Nachrichten news.google.com

4000 Nachrichtenquellen mehrmals tägliche Aktualisierung Gruppierung nach Themen

ausschließlich mittels Algorithmen Artikel der letzten 30 Tage

Directory directory.google.com

Directory directory.google.com

Webinterface für Open Directory Project (dmoz.org)

>1,5 Millionen Einträge Verknüpfung mit Webindex zur

besseren Sortierung

Kataloge catalogs.google.com

Kataloge catalogs.google.com

5400 Rubriken mailorder-Kataloge verschiedenster

Anbieter

Kataloge catalogs.google.com

Ergebnisanzeige

Expertenrat answers.google.com

Expertenrat answers.google.com

500 freiwillige Experten für verschiedenste Fachgebiete bzw. Informationssuche

2 - 200$ Kosten für Expertenantwort entsprechend der selbst eingeschätzten Schwierigkeit

0,50$ Gebühr für Google

Toolbar toolbar.google.com

Button-Leiste zur Integration in Browser– nur Windows ab M$IE 5.x

Eingabefeld für Suche PageRank-Anzeige integrierte Update-Funktion mit integriertem

Compute toolbar.google.com/dc

Distributed Computing– Berechnung der dreidimensionalen Faltung

von Proteinen mit bekannter Aminosäurenstruktur

– ca. 20 MB pro Monat unauffällig mit Toolbar installiert zufällige Aktivierung durch Google-

Server

labs.google.com

„Spielwiese“ für Google-Entwickler erste Stufe im Entwicklungsprozeß keine direkte Unterstützung der

Funktionen möglicherweise zukünftige Bestandteile

der Google Services

Google Labs Technologien

VoiceSearch (labs.google.com/gvs.html)

– Suchanfrage via Telefon– Spracherkennung und Darstellung des

Ergebnisses auf spezieller Seite

Keyboard Shortcuts (labs.google.com/keys)

– Navigation innerhalb der Suchergebnisse mittels Tastatur

Glossary labs.google.com/glossary

Finden von Wörtern, Phrasen und Akronymen

Glossary labs.google.com/glossary

z. B. Benzodiazepine

Sets labs.google.com/sets

generierte Wortlisten anhand von eigenen Beispielen

labs.google.com/sets

Rund um Google

Google Weblog (google.blogspace.com)

– Sammlung von Links bezüglich Google

Rund um Google

Googlefight (www.googlefight.com)

– Vergleich der Ergebnisanzahl zweier Suchbegriffe

Recommended