ernst: Automatische Datenextraktion aus Wikipedia-Seiten - PHP oder Javascript?

Beitrag lesen

Um die händische Eingabe sämtlicher rund 12000 Ortsnamen werde ich nicht herumkommen... die Extraktion von Postleitzahlen und Einwohnerzahlen aus Wikipedia-Artikeln sollte sich aber automatisieren lassen.

Das Skript würde ausgehend von der Namensliste in ORT automatisch jeweils die entsprechende deutschsprachige Wikipedia-Seite laden und daraus dann (alle Wikipedia-Seiten zu deutschen Gemeinden haben eine zweispaltige "Basisdaten"-Tabelle mit u. a. den Einträgen "PLZ" und "Einwohnerzahl") die relevanten Daten auslesen.

Wikipedia wäre nicht der erste Ort, wo ich diese Daten in freier Form suchen würde und wenn dann sicher via einer API oder aus einer Offline-Kopie und nicht aus den Seiten extrahiert. Bessere Datenquellen wären vermutlich Openstreetmap und Wikidata.