Reaktionsdaten für ML erfassen

Wie in anderen experimentellen Naturwissenschaften fallen auch in der Chemie viele Daten an. Das sind vor allem Stoffdaten und Reaktionsdaten. Da die Grundlagenforschung hautpsächlich öffentlich finanziert ist, kann man sich die Frage stellen, was mit den gewonnenen Daten geschieht.

Im Oktober 2021 habe ich über den Aufbau einer (der?) nationalen Forschungsdateninfrastruktur in Deutschland berichtet. Diese Infrastruktur soll Forschende bei allen Schritten rund um die Daten unterstützen. Wichtiger Grundsatz ist, dass diese nach den FAIR-Prinzipien Findable, Accessible, Interoperable und Re-usable werden.

In den USA entsteht jetzt eine open source Datenbank für Reaktionsdaten, die vor allem Maschinenlernen unterstützen soll. Die Open Reaction Database kann online durchsucht werden.

Anfang Dezember waren ca. 2 Millionen Reaktionen enthalten, hauptsächlich aus der auch kostenlosen Datenbank des amerikanischen Patentamts.

Wie kann ich meine Reaktionsdaten beitragen?

Jeder kann seine Daten dort beitragen und eingeben, entweder händisch oder über GitHub (siehe dazu die Anleitung auf der Seite). Für Masseneintragungen bietet es sich an, die Daten programmatisch zu übertragen, hierfür gibt es auch Python-Beispiele auf der Seite. Wenn die Daten schon in elektronischer Form vorliegen, ist die Übertragung in das benötigte Format nicht so schwer.

Ich frage mich nur, wieviele Forschungsgruppen noch händische Aufzeichnugen führen. Gibt es eigentlich für Journal-Artikel schon Vorgaben, wie Reaktionsdaten systematisch zu übertragen sind, oder schreibt man die immer noch mehr oder weniger unsystematisch in den Experimentalteil?

Eventuell kann ja jemand in den Kommentaren was dazu schreiben.

Denn die Datenbank ist natürlich nur so viel wert wie die enthaltenen Daten. Und die hängen maßgeblich davon ab, wieviele Forschungsgruppen möglichst einfach einen Beitrag leisten (können).

Schreibe einen Kommentar

* Die DSGVO-Checkbox ist ein Pflichtfeld

*

Ich stimme zu