Machine learning für Jobklassifizierung

Ich hab ja schon einiges über Digitalisierung, machine learning (siehe auch machine learning in der Chemie) und artificial intelligence (AI) geschrieben.

Lange habe ich auch nach einer praktischen und sinnvollen Anwendung für machine learning gesucht. Inzwischen meine ich, die für mich gefunden zu haben.

Für meine Joblandkarte bekomme ich von StepStone Jobtitel, Beschreibung und Koordinaten geliefert. Allerdings sind dort auch für Chemiker weniger interessante Jobs z.B. für Biologen oder Ingenieure enthalten. Daher bewerte ich momentan noch von Hand die Relevanz, um diese rauszufiltern.

Das könnte doch auch ein Programm machen

Gedacht, getan. Schnell ein Jupyter-Notebook geöffnet, ein Beispiel auf realpython gesucht, und los geschrieben.

Die erste Herausforderung ist, die vorliegenden Daten in eine vernünftige und auswertbare Form zu bringen. Ich habe die Beschreibung vektorisiert und die Vektoren dann in Trainings- und Testdaten aufgeteilt. Da ich nicht so viele Daten habe, musste ich auf separate Validierungsdaten verzichten.

Mit diesen Trainingsdaten habe ich dann ein TensorFlow-Modell mit Keras erstellt. Und dieser erste Versuch lieferte eine Trefferwahrscheinlichkeit von ca. 82%. Ganz ok für den ersten Versuch. Allerdings wäre eine Logistic Regression in diesem Fall genauso gut.

Ich werde das Modell noch verfeinern und hoffentlich irgendwann produktiv einsetzen können.

Machine learning – Der Einstieg ist einfach

Es ist sehr einfach, mit Python, Jupyter, Keras und TensorFlow schnell ein mehr oder weniger (eher weniger) gutes neuronales Netz aufzusetzen und damit rumzuprobieren. Wer mehr wissen will, sollte den Artikel auf Realpython gut lesen.