Alle Schweizer Seiten indizieren. Anforderungen?

meego

Neues Mitglied
Hallo

Wie gross müsste ein Server sein, der alle Schweizer Seiten für späteres Data Mining in einer DB indiziert?
Lässt sich das überhaupt quantifizieren (natürlich ohne "Deep Web")?

Gruss
 
https://www.google.ch/search?client=opera&q...channel=suggest
Und? Wieviele Pages kennt google? [Google listet weiter hinten durchaus auch Unterseiten]

Pick Dir halt 100 Pages da raus und ermittle die durchschnittliche Grösse. Kommt ja auch darauf an, wie sehr Du die Inhalte komprimierst...

Für eine Suma könntest Du z.B. alle Schweizer URLs speichern und nummerieren, dann die einzelnen Worte speichern und wo sie vorkommen sowie die Texte der ganzen Seiten, um dann z.B. Snippets zu erzeugen. Mit einem Suma-Kaufskript erzeuge ich aus 5000 Webpages einer meiner Sites bereits 16 MByte an Daten. Wobei die Gesamt-Texte sehr komprimiert sind und nicht mehr einfach so lesbar ;-)

Das wäre für das ganze Schweizer Internet - mit demselben Skript - wohl ca. 0.2 TB an Daten. Im Prinzip handelbar! Rechnen wir mal mit Reserve: 2 TB oder 20 TB. Wobei die Zahl der Worte ja z.B. auch nicht proportional zur Anzahl der Pages ist ;-)

Das ist der Speicherplatz ;-). Aber für eine performante Suma würde ich mit einem Cluster von mehreren Servern rechnen...

Na ja: aber wenn Du z.B: lediglich nach einem Set von 100 Worten suchst oder z.B. eine Linkkarte des ch-Netzes erstellen willst, dann ist die Grösse ja bestimmt kleiner ;-)

Je früher die Aufgabe klar umrissen ist, desto kleiner wird's ;-).
 
281'000'000 Seiten. Du sagst 2 TB bis 20 TB.

Warum erstellt dann niemand eine Schweizer Suma?

Werden die Server dafür eher eingemietet oder selber ins Netz gestellt? Was ist billiger?

Und wie wird die DB in einem Servercluster zur Verfügung gestellt?
 
voila: search.ch

Bezieht sich Deine Zusatzfrage(n) auf Dein eigentliches Anliegen?

Womöglich:

- weil die Programmierung eines Spiders, eines Rankingalgos und diverser kleinerer Tools wohl zeitaufwändig ist?
- weil Performance zählt und womöglich viele Daten in teuren SSD oder Speicher gehalten werden?
- weil das Risiko gross ist, mit mehreren Mannjahren Arbeit gegen Google abzustinken.

Aber technologien kann man ja auch kaufen:
http://www.google.com/enterprise/search/products/gsa.html
Ich bezweifle aber gerade, dass man für das Spidern von .ch eine Lizenz erhalten würde ;-)

Dann Server:
Nutz halt AWS, wo Du nur bezahlst, was Du effektiv brauchst. Ein guter Schweizer Hostingprovider, der hochperformante Systeme vorrätig hat und auch flexibel reagiert ist z.B. nine.ch

Zu "selber ins Netz gestellt? Was ist billiger?"
Du weisst, dass die Frage schon sehr absurd wirkt ohne weitere Angaben? Muss ich jetzt von einem eigenen Datencenter ausgehen? Dann kalkulier gleich mit Millionen CHF Investition...
ph34r.gif


Inkl. der vielzähligen Fehlerquellen und Risiken wohl nicht zu stemmen.

Ich habe Dir lediglich die Datenmengen erläutern wollen. Es stellt sich die Frage, ob man jetzt ins Detail gehen will. Also ich bestimmt nicht. Hier gibt es aber andere Spezialisten, die sich mit Servern und Clustern, Programmierung, Sicherheit auskennen...
Das heisst: ich halte mich jetzt lieber zurück.
 
Ja.
smile.gif
Search.ch ist eigentlich heute eher ein Telefonbuch. Der Zugfahrplan ist ganz interessant. Bringt allerdings ohne eine Ticketkaufmöglichkeit nicht viel.

Ich schätze die von Google-Angebotene Suma bezieht sich da eher auf Intranetdaten.

Gibt es evtl. andere Spider, die man einkaufen kann?

Was für eine Datenbank empfiehlt sich für eine Suma (MySQL, Firebird, PostgreeSQL)?

Nur zu. Ich hoffe, dass sich unsere Spezialisten noch zu Wort melden.
 
Ein Kollege von mir baut gerade an einem Server-Cluster und Crawler für eine vergleichbare Anforderung eines Kunden. Falls Du also bereit bist für eine derartige Lösung auch zu bezahlen, dann vermittle ich gerne den Kontakt.
 
QUOTE (meego @ Fr 3.01.2014, 23:16) Was für eine Datenbank empfiehlt sich für eine Suma (MySQL, Firebird, PostgreeSQL)?


Suchmaschinen laufen defintiv nicht auf SQL Datenbanken, die sind viel zu langsam. Da werden ganz flache und simple Datenbankstrukturen verwendet, Stichwort NoSQL DB. Lösungen heissen zum Beispiel MongoDB oder Couchbase.

Ich glaube Du solltest Dich mal etwas in das Thema einlesen, wenn es Dir wirklich ernst ist. Ansonsten ist diese Diskussion doch recht sinnlos.
 
Ich habe einen ziemlich demotivierenden Thread gefunden. Das Thema SU ist aber dennoch interessant:
http://www.blackhatworld.com/blackhat-seo/...ike-google.html

QUOTE Lösungen heissen zum Beispiel MongoDB oder Couchbase.


Besonders interessant dürfte die im obigen Thread erwähnte Hypertable sein.


QUOTE Ich glaube Du solltest Dich mal etwas in das Thema einlesen, wenn es Dir wirklich ernst ist. Ansonsten ist diese Diskussion doch recht sinnlos.


Hast du da etwas bestimmtes im Kopf? Das Gebiet ist erst einmal riesig.
 
Kannst ja Dein Budget angeben...
Bzw: mit wieviel Mannjahren Arbeit Du rechnest.

search.ch ist gestartet, als .ch noch klein war, und von mir aus dynamisch gewachsen. Und irgendwann wurden sie von von google überholt.

Ich kann nur ökonomische und psychologische Gesichtspunkte angeben: aber warum sollte ich mich als Schweizer auf eine Suchmaschine verlassen, die nur Schweizer Seiten enthält?

Programmtechnisch:
Wortindex, Index der URLs und die gesammelten Texte können prinzipiell getrennt gefahren werden und zudem über mehrere Server verteilt.

Also ich fände es schon sehr irr, mit "einer Datenbank" zu planen. Die eigentliche DB wie "Mongo-DB" oder so ist mir eigentlich auch egal. Das tönt danach, wie wenn man sich auf Basis-Funktionen der DB verlassen will... Ähnlich früheren Suma-Skripte in perl, die mit einer Volltextsuche den Webserver lahmgelegt haben. Deswegen wurde ich von einem Hostingprovider rausgeschmissen.

Und ähhh sorry, aber das gesamte Drumherum - wie Gewichtung der Suchresultate - macht die Suma doch erst aus.

Oder willst Du "Ottosuch" programmieren?

Mein aktuelles Kaufskript wird als kompiliertes cgi ausgeführt, lädt ein eigenes DB-System mit allen Daten in den Server-Speicher und generiert Suchresultate in unter 0.1 Sekunden. Mit einem Bruchteil der Information, die Du zu verarbeiten gedenkst.

Ich könnte z.B. besser nachvollziehen, dass jemand von mir aus die "100 wichtigsten Schweizer Seiten" spidert, um von mir aus Google mit Unterseiten zu wertvollen Moneykeywörtern und sinnlosen Snippets zuzuspammen und damit Geld zu verdienen. Aber eine Suma hat schon andere Ansprüche ;-)

Für mich ist ein Budget von 10 000 USD (siehe anderer Thread) auch erschreckend! Erschreckend niedrig!
 
QUOTE (meego @ Mi 1.01.2014, 19:14) Wie gross müsste ein Server sein, der alle Schweizer Seiten für späteres Data Mining in einer DB indiziert?

Data Mining über ein solches Volumen an unstruktrierten Daten "mit einem Server"?
Viel Glück!
 
Zurück
Oben