Plus d’un an après le reversement du système TensorFlow en open source, la stratégie de Google interroge.
Le reversement en open source du TensorFlow
Google vient de publier la version finale de l’élément phare de son programme d’intelligence artificielle, le TensorFlow, que l’entreprise avait déjà mis gratuitement à disposition en novembre 2015 (1) . Cette technologie cruciale pour le géant de Palo Alto, est utilisée pour analyser et classer les images, pour assurer la reconnaissance vocale sur Android, ou encore pour trier les spams et envoyer des réponses automatiques via « Smart reply » sur Gmail.
En agissant de la sorte, Google a souhaité donner la possibilité à tout développeur d’enrichir librement son système et a ainsi ajouté TensorFlow à la liste des technologies machine et deep learning en open source et comprenant déjà Torch, Caffe ou Theano (2). Cette stratégie de partage à des fins d’amélioration collective n’est pas si singulière et a été partiellement suivie par Microsoft et son programme CNTK (3), ainsi que par Facebook qui a diffusé certains modules de deep learning pour Torch (4).
Aussi salutaire et bienvenue que puisse être qualifiée cette politique, elle ne doit toutefois pas être perçue comme l’avènement tant attendu du logiciel libre et du partage universel des connaissances. L’intérêt de ces entreprises est le perfectionnement gratuit et inconditionné de son système deep learning. Jouissant d’une très grande renommée auprès de l’ensemble des développeurs, le TensorFlow attire indéniablement la curiosité des plus aguerris. En prêtant attention à toutes les pistes et travaux de la communauté open source, Google peut ainsi faire profiter ses propres services et produits des différentes avancées constatées.
Google, bénéficiaire principal des progrès du TensorFlow
La raison pour laquelle Google sera le premier bénéficiaire des progrès du TensorFlow est que la valeur d’un système machine learning est avant tout fonction de la quantité de données collectées (5). En effet, puisqu’un programme de machine learning fonctionne en dotant un exemple du résultat attendu, à partir de la connaissance préalable des résultats associés aux exemples similaires, ce programme nécessite impérativement de disposer, en amont, d’une large base de données. Plus cette base de données sera importante, plus justes et étendues seront les prédictions du système learning.
Ainsi et concernant cette branche de l’intelligence artificielle, tout l’enjeu réside dans la collecte d’informations. Une entreprise aura beau avoir apporté à un algorithme machine learning toute une série d’améliorations remarquables, sans détention de données, le machine learning ne lui sera strictement d’aucune utilité. A l’opposé, Google, via notamment Google Maps, Gmail, Android et Youtube, collecte une quantité gigantesque de données, capables d’alimenter en des proportions infinies ses programmes machine et deep learning, et peut aisément se positionner comme leader sur le marché.
Le risque d’entorses à la réglementation Informatique et libertés par les machine learning
Le traitement de données constitue le cœur de la problématique machine learning et son développement tous azimuts soulève ainsi de nombreuses questions Informatique et libertés intéressant tant les principes du consentement (6) (7), celui du respect de la finalité du traitement, de la collecte loyale et licite des données (8) que celui relatif à l’interconnexion (9).
En machine learning, le programme traite les données de façon autonome et ce dernier ne se préoccupe naturellement pas de savoir si les données disponibles et utilisées sont issues d’une personne qui a préalablement donné son accord à un traitement par un programme d’intelligence artificielle. Les notions d’autonomie et d’apprentissage, inhérentes au fonctionnement du machine learning, apparaissent de facto contradictoires avec l’exigence pourtant essentielle du consentement de la personne concernée au traitement de ses données.
Par ailleurs, une difficulté supplémentaire découle du principe selon lequel le machine learning a pour essence d’établir des prédictions, et plus spécifiquement d’obtenir une information inconnue à partir de données connues (10). Selon les déductions opérées par le machine learning, un organisme privé comme public peut se procurer des informations sur un individu dans un domaine complètement étranger au domaine des données initialement collectées et acquerra une donnée dont la collecte n’a a fortiori pas été consentie ou en contradiction avec la finalité ayant justifié le traitement originaire.
De surcroît, les informations que le machine learning finira par détenir au travers de ses algorithmes prédictifs, pourront être des données dites sensibles dont le traitement est interdit (11). Un machine learning serait en effet aisément capable de recueillir des données relatives à la santé ou encore aux opinions politiques à partir de données plus anodines et déjà à disposition de l’entreprise. Par conséquent et outre les problèmes ci-dessus évoqués, les machine learning mettent très fréquemment en œuvre des interconnexions de fichiers aux finalités différentes et les traitements qu’ils opèrent sont donc à ce titre soumis à l’autorisation préalable de la Cnil (10).
Il convient donc, pour toute entreprise souhaitant développer un système machine learning, de veiller à respecter la protection des données personnelles.
Lexing Alain Bensoussan Selas
Lexing Informatique et libertés
(1) www.nextinpact.com, Article de Vincent Hermann du 19-2-2017
(2) www.lemonde.fr, Article de Morgane Tual du 10-11-2015
(3) www.numerama.com, Article de Julien Lausson du 27-1-2016
(4) www.clubic.com, Article de Guillaume Belfiore du 19-1-2015
(5) www.wired.com, Article de Cade Metz du 16-11-15
(6) Loi 78-17 du 6-1-1978, art. 7
(7) Règl. UE 2016/679 du 27-4- 2016, art. 6 § 1
(8) Loi 78-17 du 6-1-1978, art. 6
(9) Loi 78-17 du 6-1-1978, art. 25
(10) Post du 6-2-2017
(11) Loi 78-17 du 6-1-1978, art. 8