30.000 Seiten einlesen...
Steffie
- php
moin,
folgendes problem: ich bekomme von einem partnerprogramm ca. 30.000 seiten zur verfügungegestellt. da das entpackt über 800mb sind kann ich das nicht auf meinem server ablegen (nicht genug webspace).
nun könnte ich auf den server vom partnerprogramm verweisen, das ist suchmaschinentechnisch aber nicht so gut.
mein vorhaben ist nun mittels mod_rewrite den url umschreiben und so zutun, als ob die seiten auf meinem server und unter meiner domain zuerreichen sind. da es aber sehr viele seiten sind kann ich nicht für jede eine rewriterule erstellen.
meine frage ist nun, ob es eine möglichkeit gibt über die bereitgestellten seiten wie ein suchmaschinenspider drüber zugehen und für jeden link automatisch eine regel zuerstellen.
bin für jeden lösungsvorschlag dankbar
Steffie
hi,
folgendes problem: ich bekomme von einem partnerprogramm ca. 30.000 seiten zur verfügungegestellt. da das entpackt über 800mb sind kann ich das nicht auf meinem server ablegen (nicht genug webspace).
seiten mit was für inhalten?
nun könnte ich auf den server vom partnerprogramm verweisen, das ist suchmaschinentechnisch aber nicht so gut.
doch, das ist sogar sehr gut.
der benutzer einer suchmaschine wird die inhalte an der quelle finden, an der sie auch liegen.
welchen nutzen soll ich als suchmaschinenbenutzer davon haben, wenn mir inhalte vorgelogen werden, die gar nicht da sind?
sieht mir stark danach aus, als ob du versuchen willst, die suchmaschinen zu bescheissen.
mein vorhaben ist nun mittels mod_rewrite den url umschreiben und so zutun, als ob die seiten auf meinem server und unter meiner domain zuerreichen sind.
ich glaube nicht, dass das über servergrenzen funtionieren wird.
da könntest du höchstens einen "moved permanently"-header senden lassen o.ä.
gruss,
wahsaga
seiten mit was für inhalten?
das sind html-seiten.
doch, das ist sogar sehr gut.
ist es nicht. da ich dann mein pagerank auf 30.000 seiten verteile.
der benutzer einer suchmaschine wird die inhalte an der quelle finden, an der sie auch liegen.
dem user dürfte es doch egal sein wo die dateien liegen, hauptsache er bekommt sie zusehen.
welchen nutzen soll ich als suchmaschinenbenutzer davon haben, wenn mir inhalte vorgelogen werden, die gar nicht da sind?
hä? die inhalte existieren doch! hier wird nix vorgelogen, sondern nur der url umgeschrieben.
sieht mir stark danach aus, als ob du versuchen willst, die suchmaschinen zu bescheissen.
beschiss ist das nicht. ich könnte die seiten ja auf meinem eigenen server ablegen nur habe ich nicht genug webspace. das ist hier eine kostenfrage und keine frage von beschiss...
ich glaube nicht, dass das über servergrenzen funtionieren wird.
da könntest du höchstens einen "moved permanently"-header senden lassen o.ä.
damit könntest du recht haben.
gruss,
wahsaga
hi,
doch, das ist sogar sehr gut.
ist es nicht. da ich dann mein pagerank auf 30.000 seiten verteile.
dann bekommen halt die seiten auf dem anderen server einen höheren page-rank - also werde ich sie als suchmaschinenbenutzer eben dort vorfinden.
welchen nutzen soll ich als suchmaschinenbenutzer davon haben, wenn mir inhalte vorgelogen werden, die gar nicht da sind?
hä? die inhalte existieren doch! hier wird nix vorgelogen, sondern nur der url umgeschrieben.
und wozu?
die inhalte liegen unter www.blah.test, es soll aber so getan werden, also ob sie unter www.blubb.test liegen würden.
welchen vorteil habe ich als nutzer davon?
sieht mir stark danach aus, als ob du versuchen willst, die suchmaschinen zu bescheissen.
beschiss ist das nicht. ich könnte die seiten ja auf meinem eigenen server ablegen nur habe ich nicht genug webspace. das ist hier eine kostenfrage und keine frage von beschiss...
fakt bleibt für mich, dass du eine tatsache vorspiegeln willst, die so einfach nicht existiert. ich sehe keinen sinn darin.
gruss,
wahsaga
hi,
dann bekommen halt die seiten auf dem anderen server einen höheren page-rank - also werde ich sie als suchmaschinenbenutzer eben dort vorfinden.
klar würde der nutzer sie dort vorfinden aber er ist dann nicht auf meiner site!
und wozu?
die inhalte liegen unter www.blah.test, es soll aber so getan werden, also ob sie unter www.blubb.test liegen würden.
welchen vorteil habe ich als nutzer davon?
als nutzer hast du da gar keinen vorteil aber ich als seitenbetreiber
fakt bleibt für mich, dass du eine tatsache vorspiegeln willst, die so einfach nicht existiert. ich sehe keinen sinn darin.
der sinn liegt darin ein gutes pagerank zuerhalten und gut in den suchmaschinen gelistet zusein. viele seiten mit aktuellem inhalt waren schon immer gut für suchmaschinen. dem nutzer kann es natürlich egal sein welcher url in der adresszeile steht.
gruss
Steffie
Hallo,
der sinn liegt darin ein gutes pagerank zuerhalten und gut in den suchmaschinen gelistet zusein. viele seiten mit aktuellem inhalt waren schon immer gut für suchmaschinen. dem nutzer kann es natürlich egal sein welcher url in der adresszeile steht.
Falls genau der gleiche Inhalt unter mehreren URLs erreichbar
ist, spricht man von "Dubletten" (Doubletten).
Daran haben Suchmaschinen _keine_ Freude.
Unter anderem, weil auch die Benutzer keine Freude haben.
Es ist sehr frustrierend, wenn man Informationen sucht,
und auf mehreren Seiten immer wieder das gleiche findet.
Dein Vorhaben ist deshalb IMHO extrem doof.
Und ich hoffe und vermute, dass sowas Deinen PageRank
_senken_ wird.
Lies doch mal:
http://www.kso.co.uk/de/tutorial/7-6.html
http://www.kso.co.uk/de/tutorial/7-7.html
Gruesse,
Thomas
seiten mit was für inhalten?
das sind html-seiten.
Ja und wo ist das Problem?
doch, das ist sogar sehr gut.
ist es nicht. da ich dann mein pagerank auf 30.000 seiten verteile.
He verstehe ich nicht!?
Dein Pagrank verteilen?
Der Pagrank ist eine Größe pro Seite, nicht etwa pro URL!?
Oder irre ich mich.
der benutzer einer suchmaschine wird die inhalte an der quelle finden, an der sie auch liegen.
dem user dürfte es doch egal sein wo die dateien liegen, hauptsache er bekommt sie zusehen.
Ja ber was machst Du da?
Was soll an 800MB so viel teurer sein als an 500MB?
Bekommt man alles um die 20 EURO im Monat.
welchen nutzen soll ich als suchmaschinenbenutzer davon haben, wenn mir inhalte vorgelogen werden, die gar nicht da sind?
hä? die inhalte existieren doch! hier wird nix vorgelogen, sondern nur der url umgeschrieben.
Die URL umgeschrieben?
Bin ich vielleicht ein bischen dumm?
URL:
"Uniform Resource Locator"; Adresse eines Objekts im Internet.
Was soll daran umgeschrieben werden?
sieht mir stark danach aus, als ob du versuchen willst, die suchmaschinen zu bescheissen.
beschiss ist das nicht. ich könnte die seiten ja auf meinem eigenen server ablegen nur habe ich nicht genug webspace. das ist hier eine kostenfrage und keine frage von beschiss...
Naja Kostenfrage hin oder her, ich denke das ist bei Dir das kleinere Problem.
Du kannst in PHP mit file() Dokumente in ein beliebiges Dokument einlesen.
Ansonsten gibt es verschieden Möglichkeiten Daten auszulagern, sollte man aber nur da machen wo es wirklich Sinn macht und 800MB ist nicht gerade super viel.
Viele Grüße TomIRL
Hallo,
wieso willst du für jede Seite eine eigen Rule erstellen?
Du kannst doch über die entsprechenden Reg. Ausdrücke einer Rule verschiedene Muster berücksichtigen.
Oder unterscheiden sich die Aufrufe dermaßen?
Odium
Hi,
mittels file(...) kannst du auch Remote-Seiten öffnen:
echo implode("", file("http://irgend.wo/datei_5488.htm"));
Alternative: Du verwendest Frame bzw. IFrame
E7