Le tri à plat et le tri croisé sont des opérations de base pour la description des données. Nous proposons une description de ces opérations et des exemples de code en R et en Python.
Calendrier des conférences data science, Python, R
Calendrier des conférences dans le domaine de la data science et de ses langages de programmation (R, Python et Julia)
Stat4decision sponsor des 7èmes rencontres R
Les 7èmes rencontres R ont lieu à Rennes en 2018 et stat4decision sera présent en tant que sponsor, venez nous y rencontrer.
Construire un histogramme avec R et python
Cet article vous donne les clés pour construire un histogramme avec R et avec python. Détail des paramètres et des possibilités.
Les licences d’utilisation en data science
Cet article fait suite à de nombreux échanges liés aux licences d’utilisation dans le logiciel libre. Même s’il s’agit d’un thème plutôt juridique il est central pour de nombreux acteurs de la data science. Je parle ici des licences liées aux outils logiciels et non des licences liées aux documents (comme Creative Commons).
R vu par Microsoft
Microsoft s’est beaucoup impliqué dans le projet R depuis quelques années. Avec sa participation au R consortium et son rachat de Revolution Analytics, on pouvait s’attendre à ce que la firme de Redmont dégaine de nouveaux outils basés sur R.
4 méthodes pour faire du R dans SAS
Intégrer du code R dans SAS, ça paraîtrait une drôle d’idée pour beaucoup d’entre vous. Néanmoins, SAS est aujourd’hui toujours très bien implanté dans le monde de la data et l’intégration de code R dans SAS constitue une première étape pour coder en R.
Faire une régression linéaire avec R et avec python
R et python s’imposent aujourd’hui comme les langages de référence pour la data science. Dans cet article, je vais vous exposer la méthodologie pour appliquer un modèle de régression linéaire multiple avec R et python. Il ne s’agit pas ici de développer le modèle linéaire mais d’illustrer son application avec R et python.
L’approche PLS avec R – Intoduction
L’approche PLS est une méthode permettant de modéliser des relations entre des variables observés et des construits non observés souvent appelés variables latentes. Cette présentation introduit l’utilisation de l’approche PLS avec R et le package plspm.
Le langage de la data science
Quel langage choisir ? Est-ce que le choix de R est automatique ? Faut-il préférer un langage propriétaire ou un langage libre ? Est-ce qu’il faut choisir un langage générique ou un langage orienté pour le calcul scientifique ? Autant de questions que tout data scientist se pose lors de la mise en place d’un projet ou lors de l’apprentissage de nouvelles techniques.
Comme vous l’imaginez, il n’y a pas une réponse unique à toutes ces questions. Voici quelques éléments de réponse.