Raktendatenfuzzi: Hopkins-Universitä, COVID-19-Daten, reparierte Daten

Hm. Ich will jetzt nicht den Giga-Thread wieder hoch holen, damit das Forum lesbar bleibt.

Deshalb statt hier:

https://forum.selfhtml.org/self/2020/mar/14/website-https-www-bundesgesundheitsministerium-de/1767690#m1767690

eben als neuer Beitrag.

Also:

  • Die Hopkins-Universität stellt die COVID-19-Daten als CSV ins Web. Leider in äußerst instabilen (im Aufbau volatilen) und wohl von einem Praktikant(*) ohne Rücksicht auf die Weiterverarbeitung mit Excel erstellten CSV-Dateien ins Web.

  • Das hat mich geärgert.

  • Deshalb finden sich nun unter https://home.fastix.org/Tests/COVID-19/data/ die - originalen CSV-Dateien, aber auch die (hoffentlich) zeitnah aus diesen merkwürdigen Datenzusammenstellungen mit insgesamt nicht ganz trivialen Methoden erzeugten JSON-Dateien (als Array, bzw. Objekt formuliert) und eine Datei mit serialisierten Daten für/von PHP: [un]serialice()

Ich versuche (ein Erfolg ist auf Grund der merkwürdigen Vorarbeit nicht garantierbar) diese Dateien automatisch aktuell zu halten.

Falls jemand die Resultate dieses Bemühens automatisch herunterladen will: Im Verzeichnis ist eine Datei „LastUpdate.txt“. Die enthält den Zeitpunkt des letzten erfolgreichen Updates im Format YYYYMMDDhhmmss. date('Ymdhis'). Es wäre nett, statt einem Dateidownload ins Blaue hinein, diese herunterzuladen und ggf. mit einer vorhandenen zu vergleichen.

*) Oder meinetwegen ein Professor für „was ganz anderes“, den es offenbar absolut nicht kümmert, dass oder wie seine Daten verarbeitet werden können.

Hinweis. Möglicherweise muss Tools wie wget und Co. mitgeteilt werden, dass es die robots.txt ignorieren soll. Ich will dort aber keine Suchmaschinen.

  1. @@Raktendatenfuzzi

    In dem Zusammenhang: Jürgen Siebert führt auf seinem Fontblog seine eigene Statistik und schreibt in einem einem Artikel darüber, warum.

    🖖 Stay hard! Stay hungry! Stay alive! Stay home!

    --
    Vielen Eltern dämmert beim Home-Schooling so langsam die Erkenntnis: Lehrer ist wohl doch ein regelrechter Beruf! (@heuteshow)
    1. Hallo zusammen,

      @@Raktendatenfuzzi

      In dem Zusammenhang: Jürgen Siebert führt auf seinem Fontblog seine eigene Statistik und schreibt in einem einem Artikel darüber, warum.

      🖖 Stay hard! Stay hungry! Stay alive! Stay home!

      Beziehe meine Daten von der dort erwähnten Quelle Risklayer in Form der Tweets, die täglich nach Mitternacht den Stand 00:00 Uhr angeben. Offenbar nach allem, was so rumfleucht ganz gut aggregiert.

      Wird noch semi-händisch eingepflegt (Transformation des Tweet-Textes als Update in die zugrunde liegenden XML-Struktur).

      Auch nur ein Experiment.

      Grüße,
      Thomas

  2. Hallo Raktendatenfuzzi,

    über die volatilen CSV Strukturen ärgern sich noch mehr. Die Issues (schnief) auf deren Github-Seite sind voll davon. Das kommt davon, wenn man Write-Only Dateien erzeugt.

    Rolf

    --
    sumpsi - posui - obstruxi
  3. Hello,

    lässt sich denn nun aus den verfügbaren Zahlen für DE die tägliche Zuwachsrate berechnen? Ich habe den Eindruck, dass die immer noch steigt.

    Nach der Verordnung der Kontaktminimierungen müsste sie doch nun allmählich wieder sinken!

    Aus den Grafiken leite ich z. Zt. 17% Zuwachs für heute ab. Vor ein paar Tagen waren es noch 14%.

    Zum Glück sind es aber nicht 38%, so wie es die unregelmäßigen Veröffentlichungen am Anfang mal suggeriert haben. Es ist immer schwierig mit Daten aus zweiter Hand sinnvolle Aussagen zu produzieren. Demnach müsste sich die Stadt New York nämlich innerhalb der nächsten zehn Tage selbst erledigen.

    Glück Auf
    Tom vom Berg

    --
    Es gibt nichts Gutes, außer man tut es!
    Das Leben selbst ist der Sinn.
    1. Hallo TS,

      was Johns Hopkins tut, sei dahingestellt. Die verwenden RKI Daten und pimpen sie mit diversen Meldungen aus anderen Quellen auf. Und sie teilen die täglichen Änderungen, die sie selbst ermittelt haben, ja auch mit:

      Aber das RKI ist eigentlich die relevante Instanz für Deutschland, auch wenn es etwas verzögert ist, und danach hatten wir am Sonntag einen kleinen Dipp in der Zunahme und sind danach auf die gleiche Menge Neuinfektionen pro Tag wie letzte Woche Do/Fr zurückgekehrt. So ein Dipp hat nichts zu sagen; Sonntags gehen weniger Leute zum Arzt. Aber immerhin ist der Dipp auch bei Johns Hopkins.

      Das RKI stellt mittlerweile dar, was sie rückwirkend an Änderungen hereinbekommen. Wenn heute, Donnerstag, die Meldungen der Gesundheitsämter in Berlin ankommen, dann haben diese Meldungen alle einen Zeitstempel.

      Gesundheitsamt Dingenskirchen meldet vielleicht heute

      24.03: 10 neue Fälle
      25.03: 15 neue Fälle
      26.03: 2 neue Fälle

      und morgen

      24.03: 1 neuer Fall
      25.03: 2 neue Fälle
      26.03: 12 neue Fälle
      27.03: 3 neue Fälle

      Das RKI verteilt diese Meldungen dann auf die Tage, an denen sie das Gesundheitsamt vermerkt hat. Das sieht man auf der RKI-Seite an den orangen Teilbereichen der Meldung. Blau sind die Zahlen bis 0 Uhr vom Vortag, und Orange das, was um 0 Uhr des laufenden Tages dazugekommen ist.

      https://experience.arcgis.com/experience/478220a4c454480e823b17327b2bf1d4/page/page_0/

      D.h. wenn ich heute sehe, dass am 26.03. halb so viele Meldungen da sind wie am 25.03., dann ist das noch nicht richtig. Es können noch Nachmeldungen kommen. Wie man aber sieht, sind die meisten Nachmeldungen für den Vortag, danach wird es weniger, d.h. diese Werte sind halbwegs stabil.

      Die Infektionszahlen, die man für diese Woche sieht, basieren aber auf Infektionen von vor ein bis zwei Wochen. D.h. ob die Kurve sich abflacht sieht man zuverlässig erst in einer Woche. Inwieweit eine Uni in Amiland im Stande ist, weltweit sauber Meldungen und Nachmeldungen zu sortieren und Doppelzählungen zu vermeiden, das weiß ich gar nicht. Ich halte mich lieber ans RKI.

      Rolf

      --
      sumpsi - posui - obstruxi
      1. Hallo,

        was Johns Hopkins tut, sei dahingestellt. Die verwenden RKI Daten

        nein, die JHU bedient sich in erster Linie bei der WHO. Das ist die zentrale internationale Instanz, die die Meldungen aus Deutschland vom RKI bekommt.

        Aber das RKI ist eigentlich die relevante Instanz für Deutschland

        Ja. Aber wie du auch schon sagst: Oft mit einer gewissen Verzögerung, vor allem am Wochenende.

        Das RKI stellt mittlerweile dar, was sie rückwirkend an Änderungen hereinbekommen. Wenn heute, Donnerstag, die Meldungen der Gesundheitsämter in Berlin ankommen, dann haben diese Meldungen alle einen Zeitstempel.

        Daher die gelegentlich auftretenden sprunghaften Änderungen.

        Inwieweit eine Uni in Amiland im Stande ist, weltweit sauber Meldungen und Nachmeldungen zu sortieren und Doppelzählungen zu vermeiden, das weiß ich gar nicht.

        Das weiß hier niemand.

        Ich halte mich lieber ans RKI.

        Das kümmert sich aber nur um die Lage in DE, nicht weltweit.

        Live long and pros healthy,
         Martin

        --
        Ich stamme aus Ironien, einem Land am sarkastischen Ozean.
    2. Hello,

      nach dem Update letzte Nacht stehen die USA jetzt auf Platz Eins der Liste.

      Wie Makaber: das hatte Trump sich doch gewünscht :-(

      America First

      Glück Auf und Gesundheit!
      Tom vom Berg

      --
      Es gibt nichts Gutes, außer man tut es!
      Das Leben selbst ist der Sinn.
      1. Moin,

        nach dem Update letzte Nacht stehen die USA jetzt auf Platz Eins der Liste.

        "America first".

        Wie Makaber: das hatte Trump sich doch gewünscht :-(

        Ja. Zynisch, aber sehr treffend.

        Live long and pros healthy,
         Martin

        --
        Ich stamme aus Ironien, einem Land am sarkastischen Ozean.
        1. Hallo,

          nach dem Update letzte Nacht stehen die USA jetzt auf Platz Eins der Liste.

          "America first".

          Wie kommt das eigentlich, dass man das so oft erlebt, dass die Betreffzeile nicht wahrgenommen wird?

          Gruß
          Kalk

          1. @@Tabellenkalk

            Wie kommt das eigentlich, dass man das so oft erlebt, dass die Betreffzeile nicht wahrgenommen wird?

            Banner blindness.

            Und dass die Betreffzeile jetzt dreifach[1] angezeigt wird (warum eigentlich?), dürfte den Effekt noch erhöhen.

            🖖 Stay hard! Stay hungry! Stay alive! Stay home!

            --
            Vielen Eltern dämmert beim Home-Schooling so langsam die Erkenntnis: Lehrer ist wohl doch ein regelrechter Beruf! (@heuteshow)

            1. wie bei Pfeiffer mit 3 F ↩︎

            1. Hallo Gunnar,

              Und dass die Betreffzeile jetzt dreifach[^f] angezeigt wird (warum eigentlich?),

              Lange Geschichte. tl;dr: ist ein Bug verursacht durch einen Bugfix von vor ein paar Tagen.

              Freundliche Grüße,
              Christian Kruse

              1. Hello,

                Und dass die Betreffzeile jetzt dreifach[^f] angezeigt wird (warum eigentlich?),

                Lange Geschichte. tl;dr: ist ein Bug verursacht durch einen Bugfix von vor ein paar Tagen.

                Na, solange es kein Virus ist ;-p

                Glück Auf
                Tom vom Berg

                --
                Es gibt nichts Gutes, außer man tut es!
                Das Leben selbst ist der Sinn.
              2. Hi,

                Und dass die Betreffzeile jetzt dreifach[^f] angezeigt wird (warum eigentlich?),

                Lange Geschichte. tl;dr: ist ein Bug verursacht durch einen Bugfix von vor ein paar Tagen.

                Sinnvoll wäre:

                Thread-Titel mit anzeigen, wenn Posting-Titel abweicht. ggf. auch noch: Titel des Parent-Postings anzeigen, wenn abweichend.

                Müßte aber beides nicht ganz so groß sein.

                cu,
                Andreas a/k/a MudGuard

          2. Moin,

            Wie kommt das eigentlich, dass man das so oft erlebt, dass die Betreffzeile nicht wahrgenommen wird?

            wie kommst du darauf, dass sie nicht wahrgenommen wird?

            Live long and pros healthy,
             Martin

            --
            Ich stamme aus Ironien, einem Land am sarkastischen Ozean.
            1. Hallo,

              wie kommst du darauf, dass sie nicht wahrgenommen wird?

              naja, du hast mit deiner Antwort auf TSs Beitrag bei mir diesen Eindruck erzeugt, da sie genau die Worte verwendet, die bereits im Betreff enthalten sind.

              Gruß
              Kalk

              1. Hi,

                wie kommst du darauf, dass sie nicht wahrgenommen wird?

                naja, du hast mit deiner Antwort auf TSs Beitrag bei mir diesen Eindruck erzeugt, da sie genau die Worte verwendet, die bereits im Betreff enthalten sind.

                ja, ich habe sie an der Stelle aufgegriffen, wo sie wirklich hinpasst.

                Live long and pros healthy,
                 Martin

                --
                Ich stamme aus Ironien, einem Land am sarkastischen Ozean.
      2. Hallo TS,

        glaubst Du tatsächlich die Infektionszahlen von China? Dass die tatsächlich seit 4 Wochen auf ca 100 Infektionen pro Woche herumdümpeln? Kann das irgendwer auf dieser Welt validieren?

        Für mich ist das Fake News. Da müssen mehr Infektionen sein. Es wird nur nicht veröffentlicht. Oder man testet einfach nicht. Statt dessen zeigt man auf die USA, wo angeblich letzten Herbst schon COVID-19 als Grippe fehldiagnostiziert wurde. Aber wenn das so wäre, hätten wir die Pandemie schon Weihnachten gehabt.

        Aber wenn die Zahlen aus China stimmen und sie die zweite Welle abwehren können (die wohl gerade anrollt), dann werden auch Italien, Spanien und Deutschland die chinesische Bestmarke übertreffen. Vor dem, was in Ländern wie Nordkorea oder Indien passiert, habe ich so richtig Angst.

        Rolf

        --
        sumpsi - posui - obstruxi
        1. Hello,

          Hallo TS,

          glaubst Du tatsächlich die Infektionszahlen von China? Dass die tatsächlich seit 4 Wochen auf ca 100 Infektionen pro Woche herumdümpeln? Kann das irgendwer auf dieser Welt validieren?

          Für mich ist das Fake News. Da müssen mehr Infektionen sein. Es wird nur nicht veröffentlicht. Oder man testet einfach nicht. Statt dessen zeigt man auf die USA, wo angeblich letzten Herbst schon COVID-19 als Grippe fehldiagnostiziert wurde. Aber wenn das so wäre, hätten wir die Pandemie schon Weihnachten gehabt.

          Aber wenn die Zahlen aus China stimmen und sie die zweite Welle abwehren können (die wohl gerade anrollt), dann werden auch Italien, Spanien und Deutschland die chinesische Bestmarke übertreffen. Vor dem, was in Ländern wie Nordkorea oder Indien passiert, habe ich so richtig Angst.

          Angst kann da tatsächlich aufkommen. Wir sind nämlich immer noch zu undiszipliniert. Da gibt es volle Flieger mit den Gleicheren, der ÖPNV fährt teilweise immer noch und es wird darüber überhaupt nichts berichtet. Genauso fehlen Berichte über die Lebensmittelindustrie und die ständigen Kontrollen, die dort notwendig wären.

          Ich glaube aber nicht, dass China sehr viel mogelt bezüglich der Zahlen. Die haben nur in kürzester Zeit ein sehr rigides System etabliert und so die möglichen Infektionswege gekappt.

          Ich selber habe meine nicht identifizierte Virusinfektion bereits im September gehabt und nicht vier, sondern 18 Tage Intensivpflege im Khs benötigt, um wieder auf die Beine zu kommen. Ich war nicht in China und hatte auch keinen Besuch von dort. Allerdings habe ich viele Warenproben aus China usw. erhalten, die aber alle mindestens zwei Wochen im Container und beim Zoll verbracht haben. Wenn darin der Virus gesteckt hätte, wären durch ihre Hunderte von Kontrollen täglich alle unsere Zollbeamten infiziert worden.

          Glück Auf
          Tom vom Berg

          --
          Es gibt nichts Gutes, außer man tut es!
          Das Leben selbst ist der Sinn.
          1. Hallo TS,

            ah! Gib's zu! Du hast Warenproben zurückgeschickt und die waren kontaminiert. Die Proben haben die Chinesen dann weggeworfen, ein Schmetterling hat draufgesessen, eine Fledermaus hat den aufgefuttert und aus DER wurde dann in Wuhan Suppe gekocht.

            DU BIST SCHULD!!!11!!elf!!!!!

            Rolf

            --
            sumpsi - posui - obstruxi
            1. Hallo,

              ein Schmetterling hat draufgesessen, eine Fledermaus hat den aufgefuttert

              und hätte der Schmetterling noch vorher mit den Flügeln schlagen können, wäre alles ganz anders gekommen!

              Gruß
              Kalk

            2. Hallo Rolf B,

              He is patient zero. 😜🤣😂

              Bis demnächst
              Matthias

              --
              Du kannst das Projekt SELFHTML unterstützen,
              indem du bei Amazon-Einkäufen Amazon smile (Was ist das?) nutzt.
              1. Hallo,

                He is patient zero. 😜🤣😂

                und die Corona-Viren sind in Wirklichkeit irgendwelche Urzeitviren, die es in gut abgelagertem Harzer Roller in die Gegenwart geschafft haben. Womit die milden Krankheitsverläufe auf den Verzehr von Harzer Roller zurückzuführen sind. 😎

                Gruß
                Jürgen

                1. Hello,

                  Hallo,

                  He is patient zero. 😜🤣😂

                  und die Corona-Viren sind in Wirklichkeit irgendwelche Urzeitviren, die es in gut abgelagertem Harzer Roller in die Gegenwart geschafft haben. Womit die milden Krankheitsverläufe auf den Verzehr von Harzer Roller zurückzuführen sind. 😎

                  Grillhühner esse ich ja von Zeit zu Zeit.
                  Aber Kanarienvögel sind mir dann doch zu klein.

                  Glück Auf
                  Tom vom Berg

                  --
                  Es gibt nichts Gutes, außer man tut es!
                  Das Leben selbst ist der Sinn.
                  1. Hallo Tom,

                    immer diese Mehrdeutigkeiten ...

                    https://de.wikipedia.org/wiki/Harzer_Roller

                    https://de.wikipedia.org/wiki/Harzer_Käse

                    Gruß
                    Jürgen

                    1. Hallo Jürgen,

                      immer diese Mehrdeutigkeiten ...

                      allerdings, ich hatte mich auch schon gewundert. Aber es war mir nicht wichtig genug, um selbst nachzuforschen.

                      https://de.wikipedia.org/wiki/Harzer_Roller
                      https://de.wikipedia.org/wiki/Harzer_Käse

                      Ah, danke. Harzer Käse ist mir durchaus geläufig - jedenfalls dem Namen nach, gegessen habe ich ihn noch nicht. Aber unter der Bezeichnung Roller konnte ich mir nichts vorstellen.

                      Live long and pros healthy,
                       Martin

                      --
                      Ich stamme aus Ironien, einem Land am sarkastischen Ozean.
                2. und die Corona-Viren sind in Wirklichkeit irgendwelche Urzeitviren, die es in gut abgelagertem Harzer Roller in die Gegenwart geschafft haben. Womit die milden Krankheitsverläufe auf den Verzehr von Harzer Roller zurückzuführen sind. 😎

                  Sei vorsichtig, denn:

                  „Niedersachsens Innenminister Boris Pistorius (SPD) fordert Sanktionen gegen die Verbreitung von „Fake News“ im Zusammenhang mit der Coronavirus-Pandemie. Die Bundesregierung solle aktiv werden, drängte Pistorius jetzt auf spiegel.de.“

                  So ein Smiley wird von der Justiz sicher leicht übersehen. Zumal es ja nicht unterstrichen ist…

                  (Wer denn „Humor in Vantablack“ nicht erkennen vermag, der suche im Web nach: „Die Akte des 8 O 1209/15 des LG Kassel wird zweifelsfrei folgenden Sachverhalt ergeben:“.)

                  1. Hallo,

                    bei deinem gewählten Betreff habe ich doch tatsächlich überlegt, was Downing Street mit dem Harz zu tun haben könnten. Denn außer dem dortigen Chef wüsste ich keinen Boris, den man kennen müsste. Die Zeiten von Boris Becker oder Boris Jelzin sind wohl lange vorbei.

                    *„Niedersachsens Innenminister Boris Pistorius (SPD) [...]

                    Ah, na dann. Den kenne ich tatsächlich nicht.

                    Live long and pros healthy,
                     Martin

                    --
                    Ich stamme aus Ironien, einem Land am sarkastischen Ozean.
                    1. @@Der Martin

                      Denn außer dem dortigen Chef wüsste ich keinen Boris, den man kennen müsste. Die Zeiten von Boris Becker oder Boris Jelzin sind wohl lange vorbei.

                      Von Boris Palmer ist desöfteren was zu hören. Selten Gutes.

                      🖖 Stay hard! Stay hungry! Stay alive! Stay home!

                      --
                      Vielen Eltern dämmert beim Home-Schooling so langsam die Erkenntnis: Lehrer ist wohl doch ein regelrechter Beruf! (@heuteshow)
                      1. Hallo,

                        Denn außer dem dortigen Chef wüsste ich keinen Boris, den man kennen müsste. Die Zeiten von Boris Becker oder Boris Jelzin sind wohl lange vorbei.

                        Von Boris Palmer ist desöfteren was zu hören. Selten Gutes.

                        ja, stimmt - der Remstal-Rebell. Aber in den letzten Jahren ist es ruhig um ihn geworden.
                        Dass der seit mehr als 10 Jahren OB in Tübingen ist, wusste ich noch nicht.

                        Live long and pros healthy,
                         Martin

                        --
                        Ich stamme aus Ironien, einem Land am sarkastischen Ozean.
                    2. Dieser Beitrag wurde gelöscht: Beitrag ist rechtlich problematisch.