Les 20 meilleurs projets de science des données Opensource Kaggle

Avez-vous essayé de construire des projets de science des données, mais vous avez été intimidé par l’immensité des concepts utilisés et du code ? Dans cet article, j’ai rassemblé pour vous les 20 meilleurs projets de science des données Kaggle et les liens vers leur code source.

Sommaire

Prédiction des maladies cardiaques

Le projet de prédiction des maladies cardiaques consiste principalement à former un modèle d’apprentissage automatique qui sera capable de prédire si une personne souffre d’une maladie cardiaque, et il a un niveau de précision de 87 %. Comme il prédit à l’avance, il fournira des informations aux médecins, qui adapteront le bon diagnostic et le bon traitement en fonction du patient.

Prix des maisons Techniques de régression avancées

Il s’agit d’un processus dans lequel un acheteur de maison fournit une description de l’appartement ou de la maison de ses rêves. Vous utiliserez 79 variables explicatives qui décriront chaque aspect des maisons résidentielles dans cette zone. Vous êtes censé prédire les prix finaux des maisons/appartements résidentiels donnés. Vous avez besoin de python avec les bibliothèques (NumPy, matplotlib, seaborn, scikit-learn et XGboost), et de l’apprentissage automatique pour effectuer la collecte de données.

Prédiction des réservations des nouveaux utilisateurs d’Airbnb

Au 21e siècle, les gens ont développé une culture du voyage qui a donné lieu à une demande de réservation de maisons de vacances. La solution à ce problème est de créer une plateforme où les voyageurs peuvent réserver des chambres vides dans des maisons d’hôtes. La plateforme est censée prédire la ville ou le pays que les voyageurs souhaitent choisir pour leur première réservation grâce à des méthodes d’apprentissage automatique. Ce projet utilise des algorithmes tels que la régression logistique, l’arbre, SVM et XGBoost qui développent des modèles qui aident à identifier les modèles de comportement des utilisateurs.

A lire : Montage, couple de serrage, témoins d’usure : réussir ses plaquettes de frein Ferodo

Diagnostic de la pneumonie à l’aide de radiographies 96 pour cent

Ce projet a pour but de diagnostiquer les images radiologiques des poumons d’un être humain en utilisant un réseau neuronal convolutif auto-installé et de le transmettre à travers l’inception V3. Vous devez mettre en place un réseau neuronal qui est accordé de manière répétée pour les meilleurs hyperparamètres et utiliser une variété de fonctions utilitaires de Kera comme les callbacks pour le pointage de contrôle et l’apprentissage de la diminution du taux.

Classification des semis de plantes

Ce projet est destiné à différencier efficacement un plant de culture d’une mauvaise herbe. Vous aurez besoin d’une base de données avec une collection de différentes images de plantes et quand on lui montre une plante, il est capable de dire l’espèce et aussi de dire si c’est une mauvaise herbe ou un plant de plante.

Automatisation du flux de travail Ml

Ce projet a un apprentissage machine basé sur Python dont le but principal est de montrer l’archétype du flux de travail ML autour d’un carnet de notes Jupyter, il prouve également des idées sur l’automatisation des étapes clés et aussi l’utilisation de l’ensemble de données de classification binaire titanesque qui est hébergé sur Kaggle. Le flux de travail ML comprend la visualisation et l’exploration des données, la section du modèle et la formation.

Détection d’objets 3D pour les véhicules autonomes

Le monde de la technologie évolue rapidement et l’industrie automobile doit suivre l’évolution des tendances. Les voitures autonomes ont gagné en popularité et sont très en vogue. Cependant, la plupart des véhicules sont dotés d’un système de pilotage automatique et ne peuvent pas conduire sans assistance humaine. Ce projet vise à résoudre un problème plus important qui est la détection d’objets 3D sur des cartes sémantiques.

MNIST Concours Kaggle La solution gagnante.

Ce projet vous donne un guide étape par étape sur la façon de résoudre et de gagner la compétition MNIST sur Kaggle. Il utilise les techniques suivantes qui vous aideront à obtenir une augmentation étape par étape de la précision de l’ensemble de test. Algorithme Random forest
Un réseau de neurones convolutif
CNN avec argumentation des données
Un ensemble de CNN
Un ensemble de CNN qui dispose d’un recalage du taux d’apprentissage et d’une normalisation du lot.
Plusieurs algorithmes DL et ML.

A lire : Canapé rapido : comment choisir un convertible confortable pour dormir au quotidien

Détection globale du blé

Ce projet montre comment l’apprentissage profond est utilisé dans la détection des têtes de blé de différentes cultures. Il détecte les épis de blé à partir de différentes photos extérieures de plantes de blé en incluant différents ensembles de données à travers le monde. Vous serez en mesure de déterminer la taille et le nombre d’épis dans le monde.

Réponse biologique

L’objectif principal de ce projet est de trouver un bon modèle pour pouvoir, de la manière la plus optimale possible, relier les informations moléculaires à une réponse biologique réelle. Chaque ligne de cet ensemble de données représente une molécule tandis que la première colonne est une représentation des données expérimentales qui décrivent la réponse biologique réelle.

Kaggle prédire les ventes futures

Dans ce projet, on vous donne des données historiques de ventes sur une base quotidienne. Le problème que vous êtes censé résoudre est de prédire le nombre cumulé de produits qui sont vendus dans chaque magasin pour l’ensemble de test. La liste des produits vendus et des magasins change tous les mois. Ce modèle de projet est censé déterminer les ventes prévues.

Détection des conducteurs distraits par State Farm

Les accidents de la route se multiplient parce que certains conduisent en envoyant des textos, en étant captés par les médias sociaux ou en ayant une conversation animée à la main sur leur téléphone. Ce projet est supposé faire une classification du comportement du conducteur, c’est-à-dire conduire attentivement, porter sa ceinture de sécurité ou prendre un selfie avec des amis sur la banquette arrière, le tout basé sur un ensemble de données d’images de caméras de tableau de bord en 2D.

Classification COVID-19

Le COVID-19 est devenu une pandémie. Il est diagnostiqué à l’aide d’une réaction en chaîne par polymérase à transcription inverse. Les machines à rayons X fournissent une variété d’images de la poitrine pour le diagnostic précoce du COVID-19. Ce projet devrait être capable de parcourir les images et de déterminer qui a le COVID-19 et de distinguer les personnes normales de celles qui ont une pneumonie.

A lire : Maillot rugby France : authentique, réplica ou pro — que choisir ?

Classification des émotions

Ce projet comprend un détecteur de visage à apprentissage automatique et un DNN de classification des émotions pour regrouper sept/six émotions humaines normales. La classification des émotions est une tâche très difficile à réaliser en utilisant la vision par ordinateur. Il utilise l’algorithme de détection d’objet SSD pour extraire le visage d’une image.

Segmentation des nerfs par ultrasons

Ce projet utilise un réseau convolutif enraciné qui est adapté à la segmentation de manière à ce que les caractéristiques des niveaux d’image puissent être facilement apprises pour la classification de chaque pixel. Parce que les images ont moins ou plus de structure spatiale (les nerfs sont pour la plupart dans la même région), des couches connectées localement sont utilisées en parallèle avec les couches convolutives de la résolution 10 x 14.

Analyse du jeu de données sur le football

L’objectif principal de ce projet est d’étudier les données du football, de les analyser, d’en extraire des informations et de faire des prévisions basées sur ces données. C’est-à-dire d’identifier les forces et les faiblesses d’une équipe et de fournir des moyens de mesurer et d’aider à améliorer ses performances.

Prévision des pluies Kaggle

Ce projet d’apprentissage automatique a pour objectif principal d’apprendre et de prédire le comportement des pluies à partir de 14 caractéristiques météorologiques. Il applique le modèle KNN, le modèle Random Forest et le modèle de clustering pour obtenir ses valeurs.

Détection du cancer du poumon

Ce projet consiste en un système de diagnostic assisté par ordinateur qui détecte automatiquement le cancer du poumon. Il détecte d’abord la région pulmonaire en utilisant des techniques de traitement d’image comme la dilatation, le contour, le filtre médian et les algorithmes de remplissage des photos de scanner.

Contrôle du volume par reconnaissance des gestes de la main

Dans ce projet, la caméra de l’ordinateur étudie les mouvements du corps humain, c’est-à-dire les gestes, d’où le mot « reconnaissance des gestes », qui permet au PC de comprendre le langage humain et de créer un meilleur lien entre les machines et vous plutôt que d’utiliser uniquement des interfaces graphiques.

Classification des visages humains par le chat

Dans ce projet, vous créez un modèle capable de classifier les visages humains et de chats. Vous utiliserez des données sur les chats et les visages humains pour entraîner le modèle, puis vous le testerez en utilisant la caméra de votre ordinateur portable avec le visage d’un chat, et il fera la différence.

Conclusion

Le code source des projets ci-dessus peut être facilement trouvé sur GitHub, tout ce que vous avez à faire est de suivre le lien. Commencez à construire un projet en science des données, commencez par un projet et une fois que vous l’aurez fait, passez à d’autres, ce sera plus facile.