Google Cloud Next ‘ 17 : Nos 3 talks préférés

Google Cloud Next - SFEIR

Trois Sfeiriens – Didier Girard, Geoffrey Garnotel, et David Hollick – ont eu l’occasion de participer à Google Cloud Next’ 17 de San Francisco, un évènement extrêmement riche en annonces et présentations. Ils vous proposent de découvrir leurs tops 3 parmi les différents talks auxquels ils ont assisté. Et vu la qualité des sessions, ils ont du mal à choisir ! Pour être complet, vous pouvez aussi décortiquer ce post du blog Google qui détaille les 100 (!) annonces de cet évènement.

La sélection de Geoffrey Garnotel

#1 – Lifecycle of a machine learning model

Par Dinesh Kulkani (Product Manager Google), JJ Alaire (RStudio) et Hongfei Cao (KPMG).

ConfGCN17 01

Cette session se décomposait en trois parties. Dans un premier temps, nous avons eu une présentation d’un cycle de vie d’un modèle de machine learning avec GCP, en expliquant les utilisations et les avantages des outils Dataflow, BigQuery, Dataproc et Cloud ML, alliant la théorie avec la pratique. Ensuite, nous avons eu droit à une présentation de RStudio, avec un plug-in permettant d’utiliser TensorFlow avec R. Nous avons terminé sur un retour d’expérience sur un outil d’auto détection de signature, avec entre autres l’utilisation du Tensorboard, qui n’est à mon goût pas suffisamment mis en avant. J’ai aimé cette session pour son subtil mélange de théories, de use case, de démos et de pratique.

#2 – Serverless data processing with Google Cloud Dataflow

Par Oleg Sokolenko (Google) et Ankur Chauhan (Brightcove).

ConfGCN17 02

J’ai sélectionné cette session car elle a pour sujet Dataflow (Beam), qui est un framework que j’apprécie particulièrement. Et dans cette présentation, vous pourrez voir l’utilité de Dataflow dans une architecture globale de traitement de données. Dans un premier temps, vous retrouverez une explication de Dataflow, de son fonctionnement, de son utilisation et de son intérêt, avec un zoom sur une partie très intéressante du framework : le Dynamic Load Rebalancing. C’est un sujet que j’ai rarement vu abordé avec Dataflow dans une présentation. La seconde partie est consacrée à un retour d’expérience sur l’évolution d’une architecture lambda pour l’analyse de vidéo. En partant d’une architecture proposant un mélange entre les plateformes GCP et AWS, ils arrivent au final à une architecture majoritairement basée sur la GCP. Ce qui est intéressant, c’est qu’ils expliquent le déroulement de l’évolution de leur architecture, les questions qui se sont posées à chaque étape et les choix qui se sont proposés à eux.

Bref, une présentation claire de Dataflow que j’ai vraiment apprécié, qui met en lumière un de ses aspects méconnus, avec un retour d’expérience complet sur une évolution d’architecture.

#3 – Advanced BigQuery Features : the key to the cloud datawarehouse of the future

par Jordan Tigani.

ConfGCN17 03

Le début de session donne le ton de la présentation: « No pitches, no sales, no marketing stuff, only technology » ! Et en effet, on n’y parle que de technologie et de cas avancés dans BigQuery. Si vous ne connaissez pas le sujet, je vous conseille fortement de faire un (voire plusieurs) tuto avant ! Jordan détaille comment comprendre la complexité d’une requête, avec le plan d’exécution de cette dernière, comment utiliser ces informations pour ensuite résoudre des problématiques de performance qui auront un impact sur l’organisation de nos données et sur la construction des requêtes. Il y a entre autres une explication entre les performances des différentes méthodes de count entre COUNT() / GROUP BY / COUNT(DISTINCT ) / APPROX_COUNT_DISTINCT() – HyperLogLo etc.

J’ai aimé cette session pour son côté technique avancé et sans compromis.

La sélection de Didier Girard

#1 – BigQuery and Cloud Machine Learning: advancing neural network predictions

par Kaz Sato.

ConfGCN17 04

Cette conférence associe deux de mes sujets de prédilection : l’analyse de données et l’apprentissage. Ils me semblaient appartenir à deux espaces de compétences disjoints. Cette conférence démontre brillamment qu’ils sont réconciliables. Vous y apprendrez comment retrouver des questions identiques sur Stackoverflow ou comment créer un système efficace pour retrouver des images, tout ça en utilisant les techniques d’apprentissage et d’analyse les plus modernes.

#2 – Building high performance microservices with Kubernetes, Go, and gRPC

par Andrew Jessup.

ConfGCN17 05

Session passionnante sur une vision moderne des architectures. La plupart des technologies que nous utilisons actuellement ont été inventées dans les années 90, à un moment où la scalabilité verticale était de mise, les processeurs étaient monocoeur, peu de langages supportaient la programmation concurrente correctement et où tout était mis au point en code fermé.

Vingt ans plus tard, l’open source est devenu un must, les processeurs sont multicoeurs, la scalabilité se pense horizontalement et les microservices sont arrivés. Alors pourquoi ne pas étudier une autre manière de faire, avec des technologies conçues pour :

  • gRPC (compact, fortement typé cross-plateforme, bidirectionnel, et open source).
  • Go (petite empreinte mémoire, gestion efficace des échanges réseau et de la programmation concurrente et open source).
  • Kubernetes (gestion efficace de microservices conteneurisés)

#3 – Cloud Spanner 101: Google’s mission-critical relational database

par Dominic Preuss .

ConfGCN17 06

Le cloud est une histoire de scalabilité horizontale : l’idée est d’augmenter la puissance d’une technologie en utilisant un nombre de serveurs de plus en plus important, qu’ils soient dans le même datacenter ou pas.

Dans le domaine des bases de données transactionnelles, proposant les propriétés ACID (atomicité, cohérence, isolation et durabilité), la scalabilité verticale a toujours été la solution envisagée, car le théorème CAP (Consistency, Availability, Partition tolerance) démontre que la scalabilité horizontale d’une base de données transactionnelle est impossible. Ce type de base de données ne pouvait donc pas fonctionner à l’échelle du cloud.

C’était sans compter sur les performances de l’infrastructure cloud de Google, qui permet de garantir une réplication quasiment instantanée des données d’un datacenter à un autre. Ce réseau, plus une utilisation astucieuse des horloges atomiques, a donné naissance à Spanner, qui permet de repousser la pertinence du théorème CAP.

Cette conférence vous permettra de découvrir cette technologie qui est sans doute l’une des plus pointues actuellement.

La sélection de David Hollick

#1 – Cloud security as a differentiator

Par James Snow.

ConfGCN17 07

La sécurité est un sujet important, encore plus quand il est question du cloud. C’est une préoccupation constante de nos clients et j’étais ravis de voir que James Snow, de l’équipe sécurité de Google, y consacrait une présentation d’une heure.

James fait partie d’une équipe de 700 personnes chez Google, qui consacrent leur énergie à verrouiller les différents produits du géant américain, à tous les niveaux.

Pour commencer, il y a la sécurité physique, au niveau des datacenters. Ces derniers sont protégés par des dizaines de gardes et l’accès aux salles de serveurs se fait avec un scan de l’iris. Et c’est juste un début ! La présentation expliquait également que tout le matériel de Google est propriétaire. Leurs ingénieurs développent leurs propres processeurs, ce qui rend tout hack très compliqué.

ConfGCN17 08

Il était évidemment aussi question de chiffrement des données. Celles du GCP sont chiffrées avec des algorithmes propriétaires, donc même si vous arrivez à rentrer sur leur réseau avec des intentions peu louables, vous outils ne fonctionneront pas ! La partie que je trouve incroyable est la façon dont Google gère les données : un fichier est découpé en plusieurs morceaux et dispersé sur plusieurs zones. Ça évite les pertes de données si une région a un problème. Chaque morceau est chiffré avec une clé différente et la clé elle-même est chiffrée et placée dans un “key store”.

ConfGCN17 09

#2 – Stackdriver: monitor, diagnose, and fix

Par Aja Hammerly.

Stackdriver est le genre d’outil indispensable pour comprendre ce qui coince dans votre application cloud et cette présentation mettait bien en lumière ses différents points forts.

Outil tout-en-un, il permet de garder un oeil sur les temps de réponse, les taux d’erreurs, les anomalies dans le trafic, etc. À partir de ces données, il est possible de créer des alertes pertinentes, en évitant de générer trop de faux positifs, et de les router vers les services de votre choix (email, SMS, HipChat, Slack, etc.)

La possibilité de déboguer l’application directement en production sans gêner les utilisateurs est très pratique. Un produit à découvrir !

#3- Scalable deployments and updates in compute engine

Par Pawel Siarkiewicz

ConfGCN17 11

Une présentation très intéressante sur les GCP Compute Engine and Managed Instances Groups. Une technologie qui malheureusement n’existait pas encore sur certains de mes projets, où la gestion des charges ponctuelles était un vrai casse-tête, provoquant des temps de réponse inacceptables.

Les Managed Instances Groups (MIG) sont composés de 4 éléments :

  • Autoscaler (pour les pics de chargement)
  • Autohealer (qui met en place de nouvelles instances si une a un problème)
  • Updater (déploiement logiciel via rolling update)
  • Regional (déploiement logiciel à travers différentes régions garantissant la disponibilité du service même en cas de problème sur un datacenter)

Dans les annonces intéressantes de Next 17, on retiendra la possibilité de créer une instance depuis une autre instance dockerisée et de l’utiliser dans un MIG, ainsi que la possibilité de déployer une rolling update progressivement, en utilisant différents moyens, comme Canary par exemple. Pour en savoir plus sur ce dernier point, je vous conseille cette session qui décrit le processus avec Spinnaker.

Bonus !

TensorFlow and Deep Learning without a PhD

par Martin Gorner.

ConfGCN17 13

Tensorflow est un outil de machine learning adapté au Cloud, qui s’est imposé en quelques mois comme une référence. Il permet de construire des modèles permettant d’exploiter la scalabilité horizontale, là où la plupart des technologies de machine learning actuelles se cantonnent à la scalabilité verticale.

C’est donc une technologie indispensable à connaitre pour un datascientiste. Cette présentation en deux parties vous permettra d’en avoir un premier aperçu.

Envie de vous former sur GCP

Formation Gratuite SFEIR School

Apprendre à développer des applications basées sur le Cloud à l'aide de Google App Engine, Google Cloud Datastore et Google Cloud Endpoints.


Vous aimerez aussi...