Les mega données : une mega découverte

L’écrasante quantité de données disponibles sur presque tous les sujets vous déconcerte? Vous n’êtes pas seul. Depuis des décennies, philosophes, statisticiens et informaticiens s’interrogent sur les moyens de tirer des « aiguilles » utiles des bottes de foin informationnelles. Or, trois chercheurs de McGill s’emploient à présenter des applications différentes des mégadonnées et nous aident à y voir un peu plus clair. //

Par Victoria Leenders-Cheng, avec le concours de Zoë Macintosh

001// APPRENTISSAGE MACHINE

Au Laboratoire de recherche sur le raisonnement et l’apprentissage de l’École d’informatique de McGill, quatre iRobots (pensez aspirateurs Roomba) s’aff airent à sonder leur environnement et à recueillir des données en se déplaçant à droite et à gauche. Un des robots est équipé d’une caméra Microso Kinect, elle-même munie d’une plaquette de préhension,

si bien que ce robot ne se contente pas de se mouvoir dans un espace; il « regarde » des objets et les déplace en les poussant.

Il ne s’agit pas d’une scène de science-fi ction : aujourd’hui, l’apprentissage machine par intelligence artifi cielle, qui permet aux programmes de s’améliorer automatiquement au fi l des expériences, est omniprésent. Les programmes

d’exploration de données qui détectent des opérations frauduleuses par carte de crédit et les véhicules autonomes qui apprennent à conduire sur les voies publiques ne sont que deux exemples des applications pratiques de la recherche dans ce domaine.

La professeure d’informatique Doina Precup, qui codirige le Laboratoire, étudie les dimensions à la fois appliquées et théoriques de l’apprentissage machine.

Les robots capables de cartographier une pièce ou d’ouvrir une porte sans instructions préprogrammées, ou qui actionnent une poignée de porte dont la forme est totalement inconnue de leurs bases de données, pourraient devenir des assistants auprès des personnes âgées ou handicapées. La professeure Precup travaille avec sa collègue Joelle Pineau

sur des robots capables de ce type d’apprentissage, dont un fauteuil roulant robotisé.

Les agents logiciels, comme les jeux sur ordinateur qui s’adaptent automatiquement au style de jeu d’un adepte, peuvent maximiser le plaisir et élever le niveau de diffi culté du jeu. Elle, un fi lm en lice pour un Oscar, laisse même entrevoir la possibilité que des systèmes d’exploitation deviennent quasihumains, tant les sentiments et les désirs qu’ils expriment sont semblables aux nôtres.

Sur le plan théorique, en examinant les algorithmes employés dans l’apprentissage machine, on sonde plus profondément les mécanismes du traitement de l’information. C’est le cas, par exemple, quand on cherche à savoir comment s’y prendre pour amener un robot à apprendre par lui-même.

À cette question, la professeure Precup répond : « On prédispose les robots en leur programmant un biais favorable aux grands nombres, comme un rat peut prendre goût aux biscuits. Puis, on les récompense en leur donnant de grands nombres au fur et à mesure qu’ils évoluent dans de nouveaux environnements. Ainsi, plutôt que de dépendre d’instructions préprogrammées pour cartographier un espace intérieur ou ouvrir une porte, les robots de la professeure Precup, mus par leurs biais incorporés, créent de toutes pièces leurs propres classifi cations. »

Mais alors, quelles conditions doit-on fi xer pour les données recueillies par les robots? Les logiciels actuels permettent aux robots de la professeure Precup de faire simultanément des douzaines de relevés de capteur à la seconde pendant

des périodes variant de quelques heures à une journée.

« Compte tenu de cette quantité infi nie de données, il est intéressant de connaître nos chances de trouver la bonne réponse, explique la professeure Precup. C’est l’analyse théorique qui répond à cette question et qui nous dit dans combien de temps nous pouvons nous attendre à voir des résultats : un jour, un mois ou une année. Ensuite, nous utilisons des applications d’essai pour voir s’il y a une correspondance avec les algorithmes théoriques ou, s’il n’y en a pas, pourquoi. »

La professeure Precup compare les tâches d’apprentissage machine aux tâches qui interviennent dans une activité comme la préparation d’un repas : il y a des étapes de haut niveau comme choisir une recette ou acheter les ingrédients, et des étapes de base comme couper les légumes ou remuer le contenu de la marmite. En intelligence artifi cielle, le but est de construire des modèles doués à la fois d’une pensée stratégique et d’une pensée de base.

« Si on se concentre de façon disproportionnée sur un niveau très basique, les données qui entrent sont trop nombreuses pour qu’on puisse les traiter correctement. En revanche, au niveau supérieur, la tâche devient trop abstraite et il se peut qu’on ne puisse pas réussir à réaliser ce qu’on cherchait à faire au départ », conclut la professeure Precup. « Nous essayons de créer un équilibre entre les deux. »

002// CYBERCRIMINALISTIQUE

Un responsable canadien de l’application de la loi a feuilleté un rapport imprimé de cinq pages produit par un nouvel outil de cybercriminalistique appelé AuthorMiner.

Créé par le professeur Benjamin Fung de l’École d’informatique de McGill, le logiciel analyse les styles d’écriture de courriels anonymes et en identifie l’auteur.

Seulement voilà, le rapport remis à l’agent, qui contenait des milliers de permutations de lettres alphabétiques, était totalement incompréhensible.

« On ne peut pas passer des jours à essayer de comprendre ces données », a-t-il dit au professeur Fung.

Aujourd’hui, une bonne partie de nos communications (courriels, gazouillis, blogues) se font sous forme numérique. Or, la nature de ces communications étant parfois malveillante (pourriels, hameçons, messages haineux), la possibilité d’attribuer un message directement à une personne aide les autorités en leur fournissant des preuves admissibles devant les tribunaux.

« Nos méthodes les plus fi ables pour identifi er les auteurs font généralement appel à des modèles de calcul soigneusement élaborés, peu connus et très difficiles à interpréter, fait remarquer le professeur Fung. Par conséquent, les documents produits à l’aide de ces méthodes sont rarement utilisés dans des poursuites judiciaires, car ils ne respectent pas les normes d’administration de la preuve. »

L’attribution de la paternité est le nom donné à ce domaine de recherche qui marie la linguistique à l’informatique pour générer des analyses de styles d’écriture, décomposés en divers éléments constitutifs appelés caractéristiques stylométriques. Ces caractéristiques comprennent les éléments lexicaux, syntaxiques et structuraux d’un document écrit, par exemple, la fréquence avec laquelle une personne écrit « ki » pour « qui » ou « Ok1 » pour « aucun ».

Ces 302 caractéristiques stylométriques, avec 2302 ou 8,15 x 1090 combinaisons possibles, sont évaluées en fonction de leur fréquence et de leur récurrence pour produire une empreinte stylistique (l’équivalent en écriture de l’empreinte digitale) qui identifie l’auteur d’un message avec un taux d’exactitude supérieur à 90 pour cent. Ces méthodes d’analyse peuvent même fournir des indices sur la nationalité et le sexe de l’auteur.

Ces commentaires ont convaincu le professeur Fung qu’il fallait doter son logiciel d’un composant de visualisation afi n que les résultats des calculs complexes soient transmis directement à l’oeil humain et deviennent ainsi compréhensibles pour l’esprit humain.

EXEMPLE DE PRÉSENTATION VISUELLE DES RÉSULTATS D’UNE ANALYSE D’EMPREINTE STYLISTIQUE

Le professeur est retourné au laboratoire de recherche de l’Alliance nationale d’intervention judiciaire et de formation contre la cybercriminalité du Canada où il a passé une année à travailler sur la programmation avec un de ses étudiants, Honghui Ding.

« Notre objectif était de concevoir un moyen extrêmement précis de mesurer ces données, et de les rendre plus faciles à interpréter et à visualiser, explique le professeur Fung. Nous nous sommes inspirés de la comparaison visuelle des menus détails des empreintes digitales pour élaborer un outil qui permet d’obtenir une représentation visuelle de nos hypothèses. »

Le résultat, Author Miner 3.0, présentait l’information complexe sur les caractéristiques stylométriques sous forme de graphiques chromocodés qui pouvaient être interprétés facilement et avec précision. Fin 2013, le professeur Fung a fait une démonstration du logiciel à des responsables de l’application de la loi. L’objectif ultime est d’utiliser le logiciel pour appuyer les enquêtes en cours sur les délits cybernétiques, de renforcer la responsabilisation sociale et de combattre la cybercriminalité.

Linguistic Fingerprint

Examples of stylometric features used to generate a writeprint:

Richesse du vocabulaire richness
Longueur des mots

Ponctuation
Emploi de mots fonctionnels tels que les prépositions et les pronoms

Longueur des phrases ou des paragraphes
Fautes d’orthographe et de grammaire

003// VERS UN GRAND RÉPERTOIRE

La musique occidentale, depuis l’organum grégorien du 12e siècle aux chansons de Lady Gaga au 21e siècle, est fondée sur le principe du contrepoint.

À McGill, les professeurs de recherche musicale Julie Cumming et Peter Schubert ont trouvé un moyen de représenter des segments de contrepoint par des ensembles de chiff res. Ils dirigent un groupe de chercheurs et d’étudiants qui utilisent ces techniques axées sur les données pour jeter de nouveaux éclairages sur l’histoire de la composition musicale et l’évolution des styles musicaux.

Le projet ELVIS (Electronic Locator of Vertical Interval Successions) a permis de créer une base de données consultable en ligne sur des partitions datant de 1300 à 1900, auxquelles s’ajoutent des outils informatiques d’analyse des partitions et des styles musicaux.

« On peut regarder un two-gram, formé de deux intervalles verticaux liés par le mouvement mélodique de la voix inférieure, et le représenter par trois chiff res (voir encadré). On peut également regarder un three-gram, formé de trois

intervalles verticaux, et le représenter par cinq chiff res, explique la professeure Cumming. Dès qu’on peut représenter ces relations par des chiff res, on peut les chercher à l’aide d’un ordinateur. »

La base de données ELVIS, qui renferme plus de 6 000 morceaux de musique et plus de six millions d’intervalles verticaux interrogeables, a reçu une subvention lors du concours Au coeur des données numériques en 2012, dans le cadre d’une initiative internationale d’étude des changements occasionnés par les mégadonnées dans les recherches en sciences humaines et sociales.

Un style musical se défi nit surtout par les intervalles verticaux jugés acceptables à son époque. En eff et, les écarts par rapport au style ont souvent provoqué des réactions d’indignation, comme ce fut le cas du Sacre du printemps de

Stravinsky. L’étude de l’évolution des styles, une pratique bien établie en histoire de la musique, éclaire les spécialistes sur la nature même de celle-ci. Aujourd’hui, le numérique permet aux chercheurs d’analyser des quantités énormes de

données – une partition pour orchestre peut compter de 40 à 50 voix dont les notes sonnent en même temps – plus rapidement et avec beaucoup plus de rigueur et de précision.

Le logiciel ELVIS est mis à la disposition du public sur Internet (elvisproject.ca). De plus, il sera intégré à une autre initiative de numérisation musicale menée à McGill par le professeur de technologie musicale Ichiro Fujinaga, dont l’objectif est de créer un logiciel de reconnaissance optique de la musique (ROM) capable de numériser et d’analyser un vaste éventail de documents musicaux, des manuscrits aux partitions imprimées.

« Nous espérons obtenir de plus en plus de données grâce à la ROM », souligne la professeure Cumming, concluant par un énoncé qui résume l’essentiel de son message : « À moins de disposer de bons outils de recherche et d’analyse capables d’exploiter l’information, rien ne sert de recueillir toutes ces données ». ■

FOUILLER LES DONNÉES

Andrew Piper, du Département de langues, littératures et cultures de la Faculté des arts de McGill, dirige une équipe de 14 chercheurs qui bénéfi cie d’une subvention de l’édition 2014 du concours Au coeur des données numériques.

Le projet, intitulé Global Currents: Cultures of Literary Networks, 1050-

1900, entreprendra une étude des réseaux littéraires des diverses époques culturelles et appliquera une

approche axée sur les données à l’étude de la littérature mondiale.

QU’EST-CE QUE LE CONTREPOINT?

Parmi les exemples de contrepoint les plus aisément captés par l’oreille, il y a le mouvement de renvoi entre mélodies dans Frère Jacques, le célèbre Canon de Pachelbel ou encore le solo pour clavecin dans la chanson In My Life des Beatles.

Le contrepoint est essentiellement la juxtaposition de notes différentes qui sonnent en même temps et créent

ce qu’on appelle couramment des harmonies. Pour les théoriciens de la musique, ce sont des « intervalles

verticaux » qui marquent la distance entre les deux tons, et quand les intervalles sonnent l’un après l’autre,

on parle d’une « succession d’intervalles verticaux ».

ELVIS VERSION MULTIMÉDIAS

ELVIS se prête également à des représentations inhabituelles

des données, comme le montre le projet de Mike Winters, étudiant aux cycles supérieurs, qui vise à créer des fi chiers sonores à partir des données

d’ELVIS sur les compositeurs Guillaume Dufay (15e siècle), Palestrina (16e siècle) et nul autre que

Ludwig van Beethoven. Les sonifi cations peignent une vive image auditive des trois différents styles de composition.

Le fi chier sonore de Beethoven est pour le moins coloré. Écoutez ces sonifi cations en ligne à elvisproject.ca/sonification

001// APPRENTISSAGE MACHINE

002// CYBERCRIMINALISTIQUE

Linguistic Fingerprint

003// VERS UN GRAND RÉPERTOIRE

FOUILLER LES DONNÉES

QU’EST-CE QUE LE CONTREPOINT?

ELVIS VERSION MULTIMÉDIAS

You might also enjoy...

Plan vert

Traitement personnalisé

Ceux qui ont faim

Une décennie cosmique