Mittlerweile habe ich die ersten „Einsätze“ mit den kleinen Crawlern hinter mir und konnte die Hardware ausreichend testen. Mit den Rechnern bin ich zufrieden.
Im Testbetrieb schaffte ein Crawler inkl. Auswertung etwa 120.000 Webseiten am Tag (Aufruf der Domain, folgen der Redirects, Parsing und OnPage Analysen). Dabei waren die Maschinen etwa zu ~30-40 % im Schnitt ausgelastet. Ich denke 200.000 Webseiten sind drin pro Tag und Rechner. Das Hauptproblem ist hier die Internetanbindung im Keller. Dazu später mehr.
Zum Vergleich: Von einem Server im Rechenzentrum (Xeon, 32GB Ram, SSD) aus habe ich etwa 1 Million Webseiten pro Tag geschafft (10-20% Last). Da hier aber noch Internetseiten von mir drauf laufen, wollte ich es nicht bis zum Anschlag ausreizen.
Also unterm Strich deutlich unter 10% desses was ich mit dem Server im Rechenzentrum hinbekomme. Wenn man das ernsthaft betreibt ist Keller-Arbeit also keine wirkliche Option (zu teuer, zu unzuverlässig), aber für meine Spaßprojekte reicht es.
Also, das Setup war fertig, Zeit das ganze mal in den Keller zu verfrachten.
Ab zum Baumarkt um die Ecke und ein Kellerregal kaufen (~30 EUR). Optimal: nix schrauben, nur zusammenstecken. Kurz beim Expert Elektromarkt gehalten und noch nen kleinen Monitor eingepackt (~80 EUR; falls man mal direkt an die Kiste muss).
Der Linke kümmert sich um API Anfragen, der Rechte ruft Webseiten auf und erfasst die Inhalte der jeweiligen Startseiten. Die kleinen Kisten Crawlen und Parsen nur und machen noch ein paar kleine Berechnungen (z.B. Similarity Hash bilden, onPage SEO Check etc).
Der große Rechner besteht zu großen Teilen aus alter Hardware die noch rumlag (Q6600 4x 2.4 GHz, 8GB Ram, 4x 1TB HDD). Er macht Screenshots von Webseiten und beheimatet die zentrale DB und das Backup.
Im Moment ist das ganze noch über das Stromnetz an meinen Internetanschluss oben in der Wohnung angebunden. Dafür nutze ich TP-Link Powerline Adapter (Amazon). Keine besonderen Auswahlkriterien, da hatte ich einfach irgendwas bei Amazon bestellt. 31 EUR das Paar fand ich zum ausprobieren ok.
Effektiv komme ich mit etwa 30-50 MBit/s in den Keller. Der Schnitt liegt etwa bei 5 Megabyte pro Sekunde wenn die Stromleitung gut drauf ist. Allerdings bricht manchmal die Verbindung ab, bzw. hängt mal für ein paar Sekunden und ist kurzzeitig sehr langsam. Ist halt doch ein Stückchen von mir in den Keller für eine Powerline Lösung – da darf man dann keine Wunder erwarten. Für das Crawlen und Screenshots machen reicht das aber dennoch erstmal – wobei damit natürlich nicht volle Pulle geht. Daher überlege ich noch, einen zweiten Internet Anschluss für den Keller zu bestellen. Allerdings müsste die Telekom dafür noch ein weiteres Kabel ins Haus legen. Naja, nächste Ausbaustufe.