Voici quelques temps que le terme machine learning est présent dans le monde de la data. De plus en plus d’utilisateurs métiers, de managers, de dirigeants entendent ce mot. Il est souvent associé au big data, à l’intelligence artificielle… Je profite donc de cet article pour vous en présenter les grandes lignes sans formules ni trop de technicité.
R vu par Microsoft
Microsoft s’est beaucoup impliqué dans le projet R depuis quelques années. Avec sa participation au R consortium et son rachat de Revolution Analytics, on pouvait s’attendre à ce que la firme de Redmont dégaine de nouveaux outils basés sur R.
IBM-SPSS, KNIME, RapidMiner et SAS toujours leaders parmi les data science platforms
La dernière étude du cabinet Gartner compare les data science platforms. On s’attendait à ce nouveau nom, mais y a-t-il de réelles nouveautés ?
4 méthodes pour faire du R dans SAS
Intégrer du code R dans SAS, ça paraîtrait une drôle d’idée pour beaucoup d’entre vous. Néanmoins, SAS est aujourd’hui toujours très bien implanté dans le monde de la data et l’intégration de code R dans SAS constitue une première étape pour coder en R.
Excellente année 2017
Je profite de ce court post pour vous souhaite de la part de toute l’équipe de STAT4DECISION une superbe année 2017.
Faire une régression linéaire avec R et avec python
R et python s’imposent aujourd’hui comme les langages de référence pour la data science. Dans cet article, je vais vous exposer la méthodologie pour appliquer un modèle de régression linéaire multiple avec R et python. Il ne s’agit pas ici de développer le modèle linéaire mais d’illustrer son application avec R et python.
Et si vous deveniez data scientist ?
Comme beaucoup, vous rêvez de devenir data scientist. Une fois que vous l’avez dit vous vous retrouvez face à un mur vertigineux et une première question périlleuse : un data scientist, c’est quoi ?
Le big data, c’est quoi ?
Aujourd’hui le big data est partout, l’idée derrière cet article est de clarifier un certain nombre de points que j’entends quasi quotidiennement sur le big data. Est-ce une révolution, un terme hype, une tendance lourde, un simple buzz-word ? Je dirais que c’est un peu tout à la fois et je vais vous expliquer pourquoi.
Big data (ou données massives, moins sexy pour les francophones) c’est surtout un terme qui a permis de mettre en avant comme jamais l’importance de la data dans notre quotidien. Notre quotidien professionnel bien sûr mais aussi notre vie de tous les jours et notre vie de citoyen.
Spark, boîte à outils du big data
Si vous suivez même de loin le monde du big data, vous avez forcément entendu parler du projet Spark. Et si vous n’en avez jamais entendu parler, il est temps de le découvrir.
Dans cet article je vais vous donner les clés pour comprendre ce qu’est Spark et la façon de l’utiliser.
Quel est la relation entre Spark et Hadoop ? Est-ce un langage ? Dans quel cas est-ce utile ? Quelles sont ses composantes ?…
Les étapes pour utiliser Python en data science
Depuis quelques années, le langage python prend une ampleur tout à fait inattendue avec une utilisation de plus en plus large. En science des données, python est devenu le langage de prédilection pour le traitement et l’analyse des données. Python en data science est devenu une référence.
Grâce à un écosystème d’API extrêmement riche il permet de traiter des données de types très variées (entre autres SQL mais aussi noSQL) et de piloter des outils de traitement avancé (notamment Spark avec PySpark pour le traitement massivement parallèle de données dites big data).
Dans cet article, mon objectif est de vous présenter un processus assez standard de développement d’outil pour le traitement des données avec le langage python en introduisant les bibliothèques adaptées.