Hallo krjdev,
vielleicht bin ich ja einfach zu blöd. Aber dein Artikel ist dermaßen weichgespült, dass ich nicht kapiere, wie sich das Problem überhaupt äußert. Ich versuche darum mal wiederzugeben, wie ich das verstanden habe.
Angenommen, deine Seite wäre www.example.org gewesen. Da gibts - hypothetisch - index.php, auf dem HTML-Output dieser Seite wird ./img/logo.svg angezeigt und index.php hat einen Query-Parameter, z.B. index.php?content=myprojects, der den gewünschten Inhalt auswählt. Dieser Inhalt bringt vielleicht auch noch eigene Links mit, die z.B. auf index.php?content=selfhtml oder sowas verweisen. Im Detail mag es bei Dir anders implementiert gewesen sein, ist auch egal, es geht um's Prinzip.
Nun kommt Carl Crawlme vorbei, weil Du die index.php bei der Suchmaschine deines geringsten Misstrauens angemeldet hast. Er ruft also index.php ab (die ohne Parameter die Seite für content=startpage liefert), guckt in die robots.txt und folgt - sofern nicht per robots.txt missbilligt, den diversen Links. Diese verweisen hoffentlich alle auf valide Artikel deiner Seite. Einige mögen tot sein, kann ja mal vorkommen, aber keiner davon würde - beispielsweise - mit dem Linktext "All Your XXX Dreams" auf ?content=xxx_dreams
verweisen. Und wenn doch - nun ja, dann wärest Du selbst schuld und würdest hier keine Warnungen verkünden, gelle?
Bis hierher sehe ich keine Chance für ein Problem, denn Carl Crawlme käme von sich aus nicht auf die Idee, bei Dir eine unverlinkte Unterseite abzurufen. Eine Suchmaschine käme von sich aus auch nicht auf die Idee, bei der Suche nach XXX Dreams deine Seite einzubeziehen.
Oder doch? Keine Ahnung - manche Webseiten scheinen es zu schaffen, auf jede Google-Suche eine Antwort zu liefern und wollen mir - fast egal, wonach ich suche - die besten Angebote zu diesem Thema machen. Gibt's da bei Google einen Hook, mit dem man sich in jegliche Suche einklinken kann? Oder haben die einfach nur so viele Adwords gekauft? ABER: Das wäre eine Aktivität von Dir. Google oder Bing machen das nicht von sich aus.
Wenn statt Carl Crawlme nun Kitty Scriptkid vorbeikommt und mal blindlings ein paar URLs auf deiner Seite durchprobiert, z.B. ./hot-dreams.html oder ./xxx/index.html, dann machst dein PHP Fehler auch kein Problem, denn an der Stelle schlägt der Indianerhäuptling zu und schickt von sich aus einen 404. Kritisch wird es, wenn Kitty Scriptkit irgendwie drauf kommt, dass deine Links alle index.php?content=... heißen und DA was durchprobiert. Aber das wäre dann hochspezialisiert und an der Grenze der Vorstellbarkeit.
Anders wird es, wenn - sagenwirmal - von irgendeinem Bösewicht auf top-links.example.kp ein vorsätzlich falscher Link dieser Art
<a href="https://www.example.org/index.php?content=hot_dreams">
All Your Hot Dreams
</a>
gesetzt würde. Carl Crawlme würde den sehen, ihm folgen und von Dir - wenn das dein Fehler war - einen HTTP 200 mit dem Text "Der Inhalt hot_dreams ist nicht vorhanden" bekommen. Aber - in dem Moment merkt sich die Suchmaschine, dass es von top-links.example.kp eine korrekte Verlinkung nach www.example.org gibt.
So habe ich die von Dir - sehr schwurbelig - beschriebenen Hintergründe aufgefasst.
Und was passiert nun damit?
Irgendwer sucht nach krjdev und bekommt außer deiner Titelseite auch noch All Your Hot Dreams angeboten? Weil's die gleiche Domain ist?
Oder sucht nach Hot Dreams und bekommt deine Seite als Treffer? Weil's im Linktext stand UND die beiden Worte auch noch auf dem Antworttext standen?
Rolf
sumpsi - posui - obstruxi