Ben je geïnteresseerd in machine learning en wil je je eigen AI-modellen bouwen? In deze post vind je tips om je op weg te helpen!
Als je wilt beginnen met machine learning, is enige programmeerervaring vereist. Python is dé go to programmeertaal voor machine learning. Python heeft een aantal pakketten die onmisbaar zijn als je zelf aan de slag gaat. Hieronder een aantal die je vaak voorbij zult zien komen:
- Pandas om te werken met data in tabel-vorm.
- Matplotlib en seaborn voor het visualiseren van je dataset. Voor het maken van bijvoorbeeld interactieve visualisaties zijn er pakketten als plotly.
- Scikit-learn is hét machine learning-pakket. Het bevat allerlei modellen voor classificatie, regressie, of clustering, en biedt daarnaast functies om je data voor te bereiden en een scala aan metrics om de performance van je model te bepalen.
- Keras, Tensorflow en PyTorch zijn bekende pakketten voor deep learning.
Dat is een hele lijst, maar een website die je hierbij op gang kan helpen is Kaggle. Dat is een populaire website voor machine learning. Er zijn datasets op te vinden over de meest uiteenlopende onderwerpen, van gezondheidszorg tot financiën en van taal- tot beeldverwerking. Als je een account hebt aangemaakt, kun je een dataset uitzoeken, waarna je direct online met de data in Python aan de slag kan. Voorbeelden van anderen helpen je op weg. Voor wie nog niet bekend is met programmeren is er de Intro to Programming-module.
Kaggle biedt competities aan: complexe machine learning-vraagstukken waarmee soms een prijs te winnen valt. Er zijn ook competities in de categorie Getting started, gebaseerd op bekende voorbeelddatasets. De Titanic dataset is daar een van. Dit is een dataset over de passagiers van de Titanic, met als doel om te voorspellen wie de ramp overleefde en wie niet. Van alle passagiers van het schip zijn eigenschappen als naam, geslacht, leeftijd en ticketklasse bekend. Deze dataset leent zich goed voor leren werken met pandas, datavisualisatie, omgaan met missende data en het trainen van machine learning modellen voor binaire classificatie. Er is ook een tutorial beschikbaar die uitlegt hoe je met een dataset op de website kan werken.
Een andere klassieker is de MNIST dataset. Deze is heel geschikt als je aan de slag wilt gaan met beeldherkenning: kun je een model maken dat goed handgeschreven cijfers kan herkennen? Het mooie van deze dataset is dat hij zich ook goed leent om met deep learning-technieken als convolutional neural networks (CNNs) te experimenteren.
Veel succes!