CV réalisé sur DoYouBuzz

Problématiques d'Infrastructure au quotidien blog.sebbrochet.com

Une histoire (vécue) de botnet et de Spam où les bons gagnent à la fin

06 sept. 2012

Tout a commencé par un utilisateur qui se plaignait qu'il ne recevait pas les mails de notification de ses traitements automatiques. Plus précisément, il rapportait que les mails en question étaient considérés comme Spam et renvoyés à l'émetteur. L'analyse de ses "bounces" montre alors très clairement la raison du retour: l'adresse IP d'émission du mail fait partie de la liste CBL de Spamhaus...

Spamhaus est une organisation à but non lucratif qui gère différentes listes d'adresses IP qui sont considérées comme la source d'envois massif de mails non sollicités.

La liste CBL (Composite Block List) liste en particulier les adresses IP qui ont été source d'envoi massif de mails par l'intermédiaire de robots. Cette liste est utilisée par de nombreux serveurs mails pour valider la reception d'un mail.

Pour dépanner rapidement l'utilisateur, l'adresse du serveur SMTP est modifiée. Il se trouvait que l'adresse utilisée était aussi l'adresse sortante pour tous les autres flux (web, ftp, ssh, ...). Ce qui est à la fois une bonne chose car c'est ce qui a permis d'identifier l'infection et une mauvaise chose car le trafic utilisateur peut aussi, volontairement ou non, être la cause d'un blacklistage de la part de certains sites spécialisés.

Une fois le choc passé, la lecture du détail du diagnostic pour l'adresse IP en question (http://cbl.abuseat.org/lookup.cgi?ip=x.x.x.x) explique la marche à suivre.

Elle précise par exemple la nature du code malveillant qui officie derrière cette adresse IP et indique comment la détection a été réalisée. Ainsi 2 adresses IP publiques sont listées avec le dernier accès vers celles-ci et l'heure précise où il a été réalisé, en provenance de l'IP qui est maintenant listée dans la CBL.

Comme dans de nombreuses entreprises et de plus en plus chez les particuliers, les IP internes sont nattés sur une IP publique. Il n'est ainsi pas possible de remonter directement à la machine source qui utilise l'adresse IP sortante. Il faut identifier le port utilisé au moment de la connexion vers les adresses IP fournies par Spamhaus et faire ensuite le lien avec l'utilisation de ce port avec une adresse IP privée.

La solution à mettre en place pour y parvenir est relativement simple si différents éléments sont déjà présents. A savoir un pare-feu qui peut être paramétré pour générer des messages syslog détaillés avec les caractéristiques de toutes les connexions et un serveur syslog pour enregistrer toutes ces données. Le serveur syslog évite de passer son temps devant l'écran à attendre que la machine infectée se connecte !

Certains pare-feu (comme les ASA) ont une fonction de type Packet Capture qui, comme son nom l'indique, permet de capturer tous les packets à destination d'une adresse IP donnée. Dans notre cas, ça ne suffit pas car il nous faut également capturer la connexion interne correspondante et sans connaître à l'avance le port qui sera utilisé, ce n'est pas possible.

Dans le cas qui est rapporté ici, la page Spamhaus montre que la machine infectée fait des connexions pratiquement toutes les 4H. A partir du serveur syslog et en faisant une recherche sur les addresses IP communiquées par Spamhaus, un résultat apparaît.

Le jour et l'heure concordent avec l'information donnée par Spamhaus, nous tenons notre machine indélicate !

Ensuite, une nouvelle recherche avec l'adresse IP blacklistée et le port utilisé (39519) par cette connexion remonte le nom de la machine infectée avec son adresse IP.

Cette machine est configurée en DHCP et utilise donc une adresse IP dynamique. De manière à l'isoler du réseau, à distance comme dans mon cas, 2 actions sont nécessaires:

Réserver l'adresse IP actuelle de la machine et l'associer à l'adresse MAC de cette machine. Ce qui nous assure qu'une autre machine ne récupérera pas l'IP par la suite
Puis agir sur le pare-feu pour bloquer tout le trafic sortant à partir de l'adresse IP de la machine. Sur un matériel CISCO, la commande [shun IP] permet de le faire directement. Les connexions entrantes à destination de l'adresse IP restent toutefois possibles, ce qui permet d'examiner la machine, même à distance.

Il reste ensuite à essayer de désinfecter la machine ou plus probablement de la réinstaller à partir d'une image système saine.

Pour aller plus loin et automatiser la détection des indésirables sur votre réseau, un module additionnel pour ASA, Botnet Traffic Filter prend en charge cette partie.
Ce qui fera peut-être l'objet d'un nouveau post !

En savoir +

Résumé du 9ème salon itSMF France (29 novembre 2011)

30 nov. 2011

Le mardi 29 novembre 2011 se tenait au CNIT le 9ème salon annuel de l'itSMF France. Placé sous le signe des services, le thème majeur de cette édition 2011 était l'Organisation de l'IT pour les services. J'ai eu le plaisir de participer à cet évènement (merci à Samuel Gaulay d'IT Social pour l'invitation !) et je vous propose de passer en revue les moments forts de ce salon.

C'est Vincent Douhairie, Directeur Général d'Amettis et administrateur itSMF France qui a eu la responsabilité d'ouvrir le salon en nous parlant d'ITIL v2011, la dernière itération en date du référentiel de bonnes pratiques pour la gestion des SI. Devant un parterre de courageux matinaux il a su présenter en moins de 30 minutes les principales nouveautés :

Des corrections, une meilleure cohérence entre les différents processus
Issue du feedback de la communauté d'utilisateurs, des formateurs
Un auteur par livre au lieu de 2 précédemment
Structure homogène pour chaque livre: mise en place du domaine, challenges, risques et facteurs de succès
Principes communs
Organisation indicative et non prescriptive
Production manager => service owner
Objectif de simplification et de structuration pour une meilleure lisibilité
Nouveau processus pour la gestion de la relation avec les métiers/clients
Différence entre la stratégie business et la stratégie IT
- Le business définit la stratégie tandis que l'IT la soutient.
Nouveau processus: conduite de la conception
Vision client du catalogue de services
Configuration Item (C.I) => Configuration Record (C.R)
- Un C.I pouvant donner lieu à un ou plusieurs C.R, cad plusieurs représentations.

C'est ensuite au tour de Rémy Berthou, président de l'itSMF France mais également DSI de la SNCF, de présenter les grands axes de cette journée. En nous racontant de manière plutôt humoristique le rêve qu'il a fait dernièrement, il passe en revue l'ensemble des pré-requis et des actions à mettre en œuvre pour transformer une DSI en fournisseurs de services.

Un peu plus tard, Jean-Pierre Dehez, consultant en Organisation et Systèmes d'information, ex VP IT Alstom nous fait part de son expérience dans la mise en place d'un Centre de Services Partagé. Il insiste sur des points clefs lors de sa présentation:

Le but du CSP est de contractualiser/formaliser les relations et services avec les clients internes
Le CSP ne traite pas à la demande des requêtes ponctuelles et de courte durée, il s'intéresse aux demandes récurrentes.
C'est un choix stratégique s'appuyant sur la mutualisation, des procédures standardisées, les meilleures pratiques et les meilleurs outils
C'est un choix tactique de développer des compétences et un savoir faire
L'objectif est à la fois la réduction des coûts et l'amélioration de la qualité des services
Il nécessite pratiquement à chaque fois un sponsor à la Direction Générale pour réussir
Il doit couvrir tous ses coûts
Il est soumis à une obligation de résultats
Une transparence de fonctionnement est nécessaire
le CSP est constitué d'un catalogue de services avec des unités d'œuvre pour chaque service proposé
Enfin le CSP devra être placé dans un lieu neutre pour éviter une proximité trop grande avec certains métiers

Puis Richard Collin, Directeur de l'Institut de l'entreprise 2.0 Grenoble Ecole de Management, nous fait part de ses réflexions sur la nouvelle version de l'entreprise. Celle qui sait se transformer rapidement pour s'adapter au rythme toujours plus rapide des avancées technologiques et fournir les produits et services qui répondent aux attentes des utilisateurs. Il ne s'agit plus de gérer des processus mais gérer de l'attention. Pour cela nous devons passer d'un mode de travail, issu de l'ère industrielle et basé sur la coordination à un mode de travail basé sur la coopération. Et dans un contexte où des plannings à plus de 6 mois sont fantaisistes tant les évolutions dans le même temps sont nombreuses (nouveaux produits, services, avancées technologiques, ...) et où le changement devient un mode de vie. C'est le passage de l'ERP (Entreprise Resource Planning) au RSE (Réseau Social d'Entreprise).

Après cette 1ère série d'interventions, une pause était la bienvenue pour visiter les stands des différents exposants et ramener quelques goodies ;-)

Cette pause fut de courte durée car ensuite commençaient les Communautés de Partage, 2 séries de retours d'expérience répartie sur 5 filières:

Gouvernance et offres de services
Ressources humaines et transformation
Qualité de service et performance
Le producteur de services
Le forum du service

N'ayant pas le don d'ubiquité, je ne pourrai vous parler que de celles auxquelles j'ai assistées.

François Stephan du CRIP (Club des Responsables d'Infrastructure et de Production) nous a présenté les différents comités de partage au sein du club et pour certains d'entre eux quelques réflexions issues d'entretiens en face à face avec des responsables infrastructure et production. Ces réflexions sont chaque années retranscrites dans des livres blancs qui sont librement téléchargeable sur le site du CRIP après s'être enregistré.

Laurent Sarrazin de la Société Générale CIB nous a ensuite parlé des Innovations Games. Des jeux sérieux (Serious Games) pour faciliter l'Agilité dans la réalisation des projets. Ces jeux se jouent avec un animateur et par groupe d'environ 10 personnes avec un minimum de matériel (tableau blanc, feutres, ciseaux, ...). Le principe de ce type de jeux est de faire exprimer indirectement et collectivement les idées pour la création de nouveaux produits ou services, à recadrer des projets ou à remobiliser des équipes. Chaque atelier commence par une phase de Check-in où dans le même temps chaque participant indique par une couleur (feu rouge/feu vert) sa disponibilité d'esprit pour la suite de l'atelier et par une note de 1 à 5 exprimée avec les doigts son intérêt pour le thème abordé.

Le Speed boat permet de visualiser graphiquement l'objectif à atteindre sous la forme d'une île, les obstacles à sa réalisation sous forme d'ancres qui retiennent le bateau permettant de rejoindre l'île. Plus les ancres sont profondément enfoncées et plus les obstacles sont importants. Ensuite les facteurs de succès sont matérialisés par des vents porteurs qui vont aider à faire avancer le bateau.
Le Product/Vision box sert à créer un produit ou un service en imaginant son packaging. Une boîte de céréales en carton matérialisant le boitier par exemple.
Remember the Future est un jeu où les participants imaginent le futur avec une situation maitrisée, stable, satisfaisante pour ensuite faire un retour arrière vers le présent en identifiant les étapes clefs qui ont permis d'atteindre l'objectif.
Prune the product tree permet de lister les différentes fonctionnalités d'un produit ou d'un service sous la forme d'un arbre et de ses branches. Ensuite en élaguant et en équilibrant la forme générale de l'arbre, il est possible de matérialiser les versions ou itérations du produit ou service.

Chaque atelier se termine par une phase de Check-out où les participants expriment le R.T.I (Return of Time Invested) sous une forme assez originale appelée Feedback door, qui concrètement se traduit par coller un post-it avec une note de 1 à 5 sur la porte en sortant.

Comme vous pouvez le constatez cette présentation m'a enthousiasmé !

La pause repas qui a suivi a permis de faire de nouveau une visite rapide de quelques stands tout en se restaurant et pour ma part de faire un peu de networking en discutant de sujets comme ITIL avec des confrères.

En début d'après-midi ont été remis différent trophées de l'itSMF France. Ainsi le trophée de la meilleure mise en place d'ITIL est revenu à Bouygues Télécom tandis que Pôle Emploi et Sanofi Avantis étaient nominés. Le trophée Facil ITIL qui récompensait la société qui a le mieux accompagné les mises en place ITIL en 2011 a été décerné à SRMVision tandis que Atep Services et Staff&Line étaient nominés.

Puis Marc Giget, Président de l'IESCI et du club de Paris des directeurs de l'innovation a fait une présentation de l'innovation dans les services et des profonds changements auxquels nous pouvons nous attendre dans les années à venir. Les innovations à venir ne sont plus issues d'une seule avancée technologique mais de la combinaison de plusieurs technologies qui permette de créer des produits qui jusqu'à maintenant n'étaient même pas imaginables. Pour exemple, Marc Giget cite l'exo-squelette, le prolongement du fauteuil roulant, qui permet à un ~~tétraplégique~~ paraplégique de partir faire une randonnée dans la neige ! ou cet appareil portable qui traduit en temps-réel la voix dans une langue étrangère ou encore la greffe d'une puce sur la rétine qui permet à des personnes qui n'ont jamais vu de leur vie de recevoir des signaux visuels via leur nerf optique ! Nous sommes passés des NTIC (Nouvelles Technologies de l'Information et de la Communication) aux NTICI (Nouvelles Technologies de l'Information, de la Communication et de l'Intelligence). Les produits ou services de demain seront basée sur l'expérience, centrés sur l'humain et facile d'accès.

Ensuite, une nouvelle série de Communautés de Partage était proposée.

Mon choix s'est d'abord tourné vers la présentation d'Olivier Martin de Atep Services, qui a expliqué les concepts du SKMS, le système de gestion de la connaissance des services. En insistant bien sur les différences entre la CMDB, le CMS et l'actuel SKMS. Le produit d'Atep Service qui a été présenté à cette occasion permet d'identifier sous forme graphique l'impact lié à un changement mais plus original de visualiser également les causes d'un incident.

Puis j'ai ensuite assisté au retour d'expérience de Christophe Leray, DOSI du PMU qui a relaté la transformation du SI de son entreprise pour s'adapter à l'ouverture du marché des jeux en ligne. La DOSI a dû accompagner en 18 mois le passage d'une situation monopolistique sur le marché des paris hippiques à une situation de concurrence sur les marchés des paris hippiques, sportifs et du poker en ligne. Cette transformation s'est faite avec l'utilisation de méthodes agiles (SCRUM), d'un travail en étroite collaboration avec le marketing et l'abandon du fonctionnement en silos pour une meilleure transversalité.

Et après une dernière visite des stands, François Dupuy, Directeur académique du centre européen d'éducation permanente (CEDEP) nous a présenté son dernier livre : Lost in Management. De toutes les présentations auxquelles j'ai pu assister sur cette journée, c'est celle qui m'a le plus interpellée. Il nous décrit la fin de l'entreprise taylorienne qui fonctionnait de manière segmentée et séquentielle où les salariés ne ressentaient pas la pression et échangeaient leur loyauté contre la protection. Le Management actuel basé sur des process, des indicateurs de performances et du reporting est jugé coercitif. Enfin François Dupuy indique des alternatives en instaurant par exemple plus de libre arbitre, en rendant inévitable la coopération et la confrontation entre personnes et services.

Une table ronde des différents présidents de filière de l'itSMF France a conclu cette journée très riche. Et s'il fallait retenir une seule chose, c'est que les débats et échanges continueront le reste de l'année sous la forme de groupes de travail sous la tutelle de chaque président.

Un grand merci à toute l'équipe conférence 2011 de l'itSMF France pour son travail d'organisation et de préparation et aux différents intervenants de qualité qui ont fait le succès de cet évènement !

***

Je suis actuellement disponible pour de nouvelles opportunités professionnelles. Mon CV en ligne est disponible sur la partie droite de cette page. N'hésitez pas à me contacter si vous êtes intéressé !

***

En savoir +

ITIL dans vos toilettes...

18 oct. 2011

...ou comment mettre en place une gestion des incidents et des problèmes pour votre chasse d'eau !

Comme chacun le sait, la chasse d'eau est le centre de contrôle des toilettes. La disponibilité de cet élément est primordiale et doit être garantie à tout prix sous peine de graves répercutions sur les utilisateurs. Que faire quand un incident survient ? appliquer ITIL bien sûr ! ...

Tout a commencé par un rapport utilisateur faisant état de fuites d'eau le long de l'évacuation de la cuvette des toilettes. Le service support a créé un rapport d'incident et fixé sa priorité en concertation avec l'utilisateur:

Un seul système de toilettes est touché et les toilettes restent malgré tout fonctionnelles. L'impact est donc relativement limité.
Le débit est faible, il s'agit d'un filet d'eau. L'urgence est donc basse.

La priorité de résolution de cet incident est donc également basse. Le service support a tout de même noté la consommation supérieure à la normale en eau. L'équipe en charge de la gestion des incidents constate rapidement l'incident de visu.

L'incident est confirmé. Le technicien dépêché sur place décide de réinitialiser plusieurs fois le système. Et après quelques utilisations de la chasse d'eau, la fuite d'eau disparait.

Cependant, quelque temps plus tard, des rapports utilisateurs signalent un incident du même type sur le même équipement. Après consultation des procédures préconisées par le constructeur, le service incident décide de planifier une opération de maintenance.
Les toilettes étant redondées sur deux niveaux différents (actif/actif), le risque d'impact sur la production est jugé relativement faible. L'opération est tout de même réalisée pendant un creux d'activité pour être sûr de supporter la charge avec un seul système de toilettes en service.

Le réservoir des toilettes est séparé de la cuvette et le joint qui assure l'étanchéité entre les deux est débarrassé du calcaire qui l'entoure. Malheureusement, cette opération ne résout pas l'incident qui est de nouveau rapporté très rapidement après.

Le département Finance s"inquiète des conséquences financières et demande une résolution rapide.

Le service incident monopolise de nouvelles ressources et recoupe les différents éléments en sa possession. Un élément attire leur attention: un bruit de remplissage d'eau se fait entendre de manière quasi-permanente même quand le réservoir est plein.
Heureusement un mécanisme de coupure de l'arrivée d'eau a été mis en place par le constructeur du système de toilettes.

Mais en verrouillant le robinet d'arrêt, un autre incident survient: le robinet laisse perler régulièrement une goutte d'eau en position fermée. Cette solution de contournement est vite écartée.

Le service incident décide alors de procéder à de nouveaux tests pour mieux identifier le ou les composants défectueux.
Le technicien en charge des tests remplit manuellement le réservoir jusqu'au-dessus du niveau de trop plein et constate le même type de fuite que celle remontée dans le rapport d'incident !

Pour une raison non encore identifiée, le réservoir se remplit lentement jusqu'à ce que le niveau d'eau atteigne celui du trop plein et provoque un écoulement d'eau dans l'évacuation des toilettes.

Après analyse des dépendances entre les différents composants, le composant défectueux est identifié. Il s'agit du robinet flotteur qui ne semble plus assurer sa fonction (verrouillage en position haute). Le responsable de la gestion des incidents décide de faire un remplacement. Le modèle d'origine n'est pas ou plus disponible, c'est un modèle compatible qui est installé rapidement, toujours pendant un creux d'activité.

L'incident semble résolu, aucun bruit de remplissage d'eau ne se fait plus entendre et l'écoulement d'eau n'est plus constaté.

Le responsable de la gestion des problèmes est globalement satisfait, il a une erreur connue. Il souhaite néanmoins identifier la cause première car d'autres systèmes du même type sont en production et des actions préventives sont peut-être possibles.
Le robinet flotteur d'origine est entièrement démonté, toutes les pièces montrent des zones avec des dépôts de calcaire.

Mais la cause du dysfonctionnement n'est pas là. Après examen poussée de la pièce centrale, il s'avère que le soufflet qui assure l'étanchéité du robinet est déchiré. La répétition des ouvertures/fermetures aura eu raison de lui. C'est une conséquence due à l'usure et ce n'est pas réparable et visiblement pas évitable.

L'information est consignée, la procédure d'échange de robinet flotteur est documentée pour les prochains incidents du même type qui pourraient avoir lieu.
Après confirmation par l'utilisateur à l'origine du rapport d'incident que l'incident ne se produit plus, le rapport est clos.

Comme vous avez pu le constater, l'utilisation d'ITIL ne se limite pas aux infrastructures informatiques ! Avez-vous eu également l'occasion de mettre en place ITIL dans un environnement "hors-norme" ?

***

En savoir +

Google Apps : une vision pour l'entreprise

12 sept. 2011

Vous avez certainement déjà entendu parler de Google Apps, la suite bureautique en ligne de Google. Peut-être l'utilisez-vous à titre personnel ? Mais avez-vous eu l'occasion de la mettre en œuvre dans un cadre professionnel ?

Je vous propose dans ce billet une vision pour l'entreprise, basée sur la mise en place d'une solution Google Apps pour remplacer ou accompagner l'existant.

De nouveaux cas d'utilisation...

Votre environnement de travail se résume à votre navigateur internet:

vous taguez vos emails
Le témoin d'état de GTalk vous indique si quelqu'un est disponible
Vous créez un document au travail, le relisez sur votre smartphone dans le train pendant le retour à la maison et le finissez sur votre PC familial (ou votre tablette !)
Vous travaillez sur le même document avec vos collègues/partenaires/clients
Vous réservez les salles de réunion sur un calendrier Google Calendar partagé
Votre ordinateur portable se casse ou est volé et vous ne vous inquiétez pas pour vos données

Plus de mobilité...

Des applications bureautiques légères directement dans votre navigateur
Sur n'importe quel support, tout le temps et n'importe où
Vous partagez, collaborez, communiquez et co-créér

Tout en conservant un haut niveau de sécurité...

Contrôle d'accès: gestion fine des droits
L'accès à un document est clairement défini: des documents confidentiels ne sont pas répartis sur un grand nombre d'ordinateurs mais un seul exemplaire est disponible de manière sécurisée.
Prévention de la perte de données : aucune donnée sur votre PC ou ordinateur portable
Sauvegarde
Archivage

Fini le problème de stockage des emails...

Dans le cloud
Filtrage des virus et des courriers indésirables
Grande capacité (25 Go actuellement)
Archivage à valeur légale (avec Postini)

Les documents deviennent dynamiques...

Créés, édités et stockés dans le cloud
Un exemplaire unique d'un document au lieu d'un par PC, par boîte mail, etc, ...
Stockage illimité (pour les documents au format Google)
Des visualiseurs pour les formats Microsoft (Word, Excel, Powerpoint)
Un espace personnel pour vos documents privés qui ne sont pas partagés

Des coûts modérés...

Formation pour l'équipe IT, licence (40€/utilisateur/an), Consulting pour la migration si nécessaire
Augmentation probable de la fourniture en bande passante et redondance des accès internet conseillée

Des économies...

Licences: Pas de pack Microsoft Office (*), pas d'Exchange
Matériel : des PC plus petits et moins chers (notebook par exemple) ou votre équipement personnel (BYOD)
Infrastructure: pas de serveurs de fichiers, pas de serveurs mail
Support
- Pas d'installation de logiciels, pas de mises à jour
- Externalisé chez Google pour les applications bureautique et l'infrastructure

* Le département Finance devra très probablement garder Excel

Conclusion

La réduction des coûts sera certainement vôtre 1er argument pour vendre une solution Google Apps à votre Direction Générale. Puis viendront ensuite les gains de productivité apportés par d'avantage de collaboration et de fluidité dans les échanges.

Où en êtes-vous de votre réflexion ? Êtes-vous prêt à faire le saut ?

***

En savoir +

Retours sur la journée Cloud Computing organisée par 01 Informatique

18 mars 2010

Le 16 mars dernier, j'ai eu le plaisir d'assister à la journée dédiée au thème du Cloud Computing et du Saas, organisée par l'hebdomadaire 01 informatique. Une journée très dense avec pas moins de 13 interventions qui ont permis de couvrir de nombreuses thématiques: les services à la demande, la virtualisation, la sécurité, le poste client, l'évolution de la gouvernance, ...

C'est Louis Naugès de Revevol, qui a ouvert la séance en nous dressant un tableau général sur le Cloud Computing et ses différentes déclinaisons (Iaas, Paas, Saas). Pour lui, 2010 marque le début d'une nouvelle décennie de rupture, comme nous en avons connues en 1990 et en 2000. Les usages évoluent vers plus de mobilité, d'accès distant sans fils aux applications, via un client unique qui est le navigateur internet. Il a aussi présenté les caractéristiques (et avantages !) des applications en mode Saas (Sofware as a service):

Paiement à la consommation (pas de licences, pas de maintenance)
Plusieurs clients utilisent la même instance de l'application (multi-tenant)
Une seule version de l'application pour tous les clients
Les mises à jour sont disponibles en même temps pour tous, sans majoration

Christian Lorentz de Riverbed, a enchaîné sur les problématiques réseaux dans l'usage des applications Cloud. Il met en garde contre le risque de perte de productivité lié au ralentissement de l'accès aux données et aux transferts de fichiers. C'est d'autant plus vrai que les applications en question n'ont pas été conçues pour le Cloud mais résultent d'un portage ou d'un simple déménagement. La société Riverbed propose des solutions d'accélération sous forme d'appliance ou de couche logicielle pour gommer ces ralentissements.

Un retour d'expérience a ensuite permis de présenter des cas concrets d'utilisation de la virtualisation en entreprise. L'élément déclencheur est souvent la réduction des coûts. Il s'avère que si la virtualisation des serveurs et du stockage est entré dans les habitudes, la virtualisation du poste de travail reste anecdotique. Je regretterais pour ma part que la virtualisation des équipements réseaux n'ait pas été évoquée avec les questions de sécurité associées. Les acteurs présents n'avaient probablement pas de solutions à montrer pour une technique qui est assez récente et pour l'instant l'exclusivité de Cisco.

Cyril Grira, de Google Entreprises, a montré l'évolution ces dernières années des applications 2.0 jusqu'à Google Apps, en passant par Skype, twitter...Il a aussi cité quelques chiffres concernant les infrastructures Google et le volume des transactions liées aux différents services. Il rejoint Louis Naugès sur les caractéristiques du changement des usages de l'information : mobilité, collaboration, client web. Une tendance que Google soutient avec des initiatives comme Google Apps Market Place, lancé au début du mois, et Google Chrome OS.

Emmannuelle Olivié-Paul de Markess International, a présenté l'évolution du marché et les différents acteurs de services d'hébergement et de Cloud Computing. Une partie de l'étude est accessible gratuitement sur leur site.

Une nouvelle table ronde a réuni différents intervenants pour discuter de projets de migration d'applications dans le Cloud. On distinguera 2 types de projets, les projets de changement du mode d'accès aux applications bureautiques avec l'utilisation du Saas et la migration d'applications métiers plus spécialisées avec le Paas. Avec le Saas, tous les intervenants s'accordent sur la richesse des fonctionnalités, la visibilité sur les coûts et la modernité des solutions proposées. Côté Paas, sauf exception, les projets sont encore des pilotes et concernent principalement des applications non stratégiques. Pour certaines startups, le Paas est cependant un facteur déterminant de développement car il permet de traiter des volumes importants à coût modéré et donc de mettre en place des services à destination des clients grands comptes.

C'est Stéphane Degois de Logica Business Consulting qui a conclu la matinée en listant les différents points à surveiller avant de choisir ses partenaires pour sa démarche Cloud. Plusieurs référentiels aident à cadrer les relations avec les différents prestataires. Au delà du référentiel ITIL, déjà bien répandu et de l'ISO 20000 qui décline ce premier au niveau de l'entreprise, le référentiel eSCM dresse les nombreux domaines à appréhender pour une collaboration fructueuse et respectueuse des intérêts de chacun.

Gabriel Chadeau de Double-Take Software a ensuite présenté les avantages à s'appuyer sur l'infrastructure Cloud et la virtualisation pour bâtir son PRA (Plan de Reprise d'Activité). Avec ces nouvelles techniques une restauration se fait généralement en moins d'1H et avec une granularité très fine au niveau du fichier ou du mail. Les coûts sont aussi très avantageux par rapport à un PRA classique réalisé en interne avec des machines à maintenir mais qui ne sont pas utilisées. Double-Take Sofware commercialise une solution de réplication en temps réel, à base d'agents tournant sur les machines physiques, vers un ensemble de machines virtuelles stockées dans le Cloud.

Eric Domage d'IDC EMEA Software Group a réveillé l'audience avec une présentation très dynamique sur les risques pré-supposés du Cloud Computing. Il nous indique que les mentalités évoluent, nous sommes passé de la suspicion négative à une neutralité bienveillante : pas plus de risques que sur une infrastructure interne. Les différents acteurs du Cloud ont travaillé ces 6 derniers mois pour affiner leurs offres et apporter des réponses sur des problématiques de géolocalisation des données liées à des contraintes légales (CNIL en France par ex.). Il encourage aussi chaudement à l'utilisation du chiffrement et retient cette solution comme l'unique moyen d'effacement d'une donnée dans le Cloud ! La problématique du Cloud ne nécessite pas de nouveaux types d'outils de sécurité et les acteurs historiques ont déjà majoritairement fait évoluer leurs offres en conséquence.

Pierre Renard de Systancia a enchaîné sur le thème du coût de possession (TCO) dans le cas de la virtualisation du poste de travail. 2 types de virtualisation mutuellement non-exclusives sont possibles, d'une part la virtualisation de l'application où celle-ci s'exécute sur un serveur distant au-dessus d'un système d'exploitation multi-utilisateurs (SBC) et d'autre part, la virtualisation complète du système d'exploitation et des applications qui s'exécutent sur un serveur distant avec un déport de l'affichage (VDI). Dans le 1er cas, de l'ordre de 100 applications peuvent s'exécuter sur un serveur tandis que dans le second cas, de l'ordre de 15 environnements de travail peuvent s'exécuter sur le même type de serveur.

C'est Didier Lambert, ancien DSI d'Essilor et ancien président du CIGREF qui nous a parlé de l'impact du Cloud Computing sur le rôle de la DSI. Pour lui, le DSI cummule 3 rôles : direction du SI, entrepreneur pour l'entreprise numérique et conseil sur les nouvelles technologies et nouveaux process. La simplification d'accès aux offres Saas permet aux directions métiers de traiter directement avec les fournisseurs, ce qui présente des risques de cohérence du SI et demande un arbitrage. Enfin, il indique que de son point de vue, le DSI a toute la légitimité pour siéger au COMEX.

Matthieu Hug d'EuroCloud et de RunMyProcess a clos cette journée en présentant quelques pistes pour passer au Cloud. Le Cloud introduit un changement majeur de modèle économique en passant d'un modèle basé sur la vente de licences et de maintenance à un modèle basé sur la location. Un produit qui était historiquement amorti sur 1 an, est maintenant amortissable sur 4 à 5 ans. Ce changement ne se fait pas sans heurts chez les éditeurs classiques de solutions applicatives et tous ne seront pas à même de prendre le virage et s'adapter. De nouveaux acteurs apparaissent et vont continuer d'apparaître avec de vrais offres Saas et une réductions des coûts d'exploitation chez l'éditeur répercutée chez les clients.

En conclusion, je dirai que cette journée m'a fourni une vision plus globale sur le Cloud Computing et le Saas et me donne véritablement envie d'orienter ma carrière dans cette direction !

Edit du 14/04/2010: Le site 01net a mis en ligne un compte-rendu de cet évènement avec des vidéos et le contenu de certaines présentations.

***

En savoir +

Quand viadeo.com a des problèmes de mémoire

19 févr. 2010

C'était un soir comme tous les autres. J'étais face à mon ordinateur à surfer sur internet.

J'active l'onglet contenant mon tableau de bord viadeo, je raffraichis machinalement la page quand soudain j'obtiens une page d'erreur HTTP 500 et un message Out of Memory !

A y regarder de plus près, nous avons là une longue pile d'exécution qui pour des personnes comme moi se lit tel un roman ;-) Je retrouve les "usual suspects" (apache, tomcat, memcache, ...) et c'est plus que révélateur sur la nature de l'architecture qui propulse le réseau social viadeo !

La société Viadeo n'a pas pour habitude de communiquer sur les caractéristiques de son infrastructure. A peine peut-on lire après d'âpres recherches que la société utilise le CDN de Cotendo pour accélérer l'accès aux pages du site. Mais rien de plus précis.

Les pages sont générées, en partie du moins, par du code Java qui s'exécute sur le serveur web Apache/Tomcat 5.5.12.

Après quelques rafraichissements de page et en vidant le cache, j'obtiens toujours le même résultat.

Je m'en émeus sur twitter mais bizarrement mon tweet n'est pas relayé :

En fait, en testant avec un autre navigateur et via un proxy web public, la page d'accueil de viadeo fonctionne très bien :

Le problème est donc lié à mon compte utilisateur et comme nous allons le voir, plus précisément à ma session.

J'affiche les cookies liés au site viadeo.com (sous Firefox 3.5, menu outils|options|vie privée|supprimer des cookies spécifiques):

Une ligne attire mon attention : coyote-2-a0000c8

Coyote, c'est le nom du connecteur HTTP de Tomcat.

J'ai l'impression que ma session est liée d'une manière ou d'une autre à un serveur précis.

Quand la partie front-end analyse mes cookies, elle redirige ma requête vers ce serveur. Mais ce serveur qui fait tourner une machine virtuelle Java (JVM), à priori la version JRockit d'Oracle vue l'erreur assez caractéristique retournée ((1), (2), (3)), n'a plus de mémoire disponible.

Ma requête échoue donc en me retournant la pile d'exécution vue plus haut.

Je supprime ce paramètre de mon cookie et recharge la page d'accueil, ouf tout est OK et viadeo se rappelle encore de moi :-)

En recherchant sur twitter, il s'avère que nous étions au moins deux dans le même cas mais à plusieurs heures d'intervalle !

Qu'est-ce que cela nous apprend/rappelle en terme de Sécurité ?

Le fonctionnement d'un serveur web en mode debug est susceptible de donner des informations précieuses à un attaquant. Les types de serveurs, les composants mis en œuvre et leurs versions sont autant d'indicateurs pour rechercher les failles connues ou analyser le code, surtout si comme c'est le cas ici, les produits sont opensource.
La répartition de charge mis en place sur le site viadeo.com, attribue le temps d'une session une JVM dédiée par utilisateur. Des données liées à l'utilisateur sont vraisemblablement stockées dans la mémoire de la JVM et pas seulement en base de données. L'utilisation d'un système de cache distribué comme memcache permet logiquement d'éviter ce couplage fort.
L'affectation à une JVM ou une autre est conditionnée par un paramètre dans le cookie. A moins que le cookie ne soit signé, il semble possible de le modifier pour tenter la sélection d'une autre JVM.
Le répartiteur de charge ne semble pas sonder régulièrement la santé des JVM de la ferme. On peut imaginer que seule la santé de l'hôte est vérifiée ou bien que plusieurs JVM cohabitent sur un même serveur physique si des techniques de virtualisation sont mises en œuvre.
Il n'y a pas de mécanisme de reprise et de sélection d'une autre JVM si la JVM référencée n'est plus disponible. Nous avons donc un SPOF, qui n'affecte cependant pas tous les utilisateurs du service.
Est-ce que cet incident a été détecté par les équipes de supervision de viadeo ? Le remède contre ce type d'incident est le redémarrage pur et simple de la JVM incriminée. Un système de watchdog logiciel est même en mesure de le faire automatiquement.

Questions

Avez-vous plus d'infos sur ce type d'erreur ?
L'avez-vous aussi rencontrée sur vos infrastructures ?
Les technologies mises en oeuvre vous ont-elles permis de rectifier le tir facilement ?

***

En savoir +

4 acteurs majeurs du Cloud Computing

12 janv. 2010

Le Cloud Computing (ou nuage de calcul) correspond à la fourniture de ressources informatiques à la demande sous forme d'un service facturé selon le volume consommé.
Voyons ensemble quelques acteurs majeurs et les caractéristiques principales de leurs offres.

Plusieurs type de services

IaaS (Infrastructure-as-a-Service) : fourniture du matériel (Firewall, routeur, serveurs, NAS/SAN)
PaaS (Platform-as-a-Service) : Iaas + système d'exploitation et serveur d'applications
SaaS (Software-as-a-Service) : Paas + applications
Staas (Storage-as-a-Service) : Offre de stockage et/ou de fourniture de contenu à la demande (CDN).

Les acteurs majeurs

Salesforce - Force.com

Le plus ancien, propose des offres depuis 2003 (API SForce).
Cloud public uniquement.
Eco-système d'applications AppExchange (800)
Offre gratuite assez limitée
Datacenters à l'étranger
Vise essentiellement les Grands Comptes.

Service de type PaaS

Développement rapide à la souris pour assembler différentes briques.
2 langages sont proposés: Apex (java-like) et Visualforce (xml-like).

Service de type SaaS

Logiciel pour gérer la relation client (GRC)
SLA disponible mais variable selon les clients

Base de données

Intégrée à l'environnement de développement
Gestion des tables et de leurs relations WYSIWYG

Amazon - Web Services (AWS)

Lancé en version complète en 2006 et mise à jour régulière depuis.
Cloud public, aussi disponible en cloud privé.
SLA disponible
Basé sur Xen.

Service de type IaaS

Elastic Compute Cloud (EC2) : intégration de machines virtuelles, existantes ou nouvellement créées via AWS

Service de type PaaS

Elastic MapReduce : même calcul en parallèle sur de grosses quantité de données
Simple Queue Service (SQS) : système de messagerie entre applications

Service de type StaaS

Simple Storage Service (S3) : écriture et lecture de flux de données
Elastic Block Storage (EBS) : disque dur privé pour la partie EC2
CloudFront : offre CDN qui repose sur du contenu stocké sur S3

Base de données

SimpleDB : services de base d'indexation et de recherche par clef
Relational Database Service : compatible MySQL

Google - App Engine

Lancé en avril 2008, mis à jour en avril 2009
Cloud public uniquement.
Offre gratuite conséquente (plusieurs millions de requêtes par mois)
Orienté services web
Pas de SLA, support via un forum public
Beta (comme beaucoup de produits Google)
Plus pour les startup que les Grands Comptes

Service de type Paas

2 langages supportés: java et python
Beaucoup de limitations (durée des requêtes, restriction sur les API)

Service de type SaaS

Base de données

Datastore (technologie propriétaire BigTable)
Langage de requête SQL-like (GQL)

Microsoft - Windows Azure

Le dernier sur les rangs, l'offre doit être disponible fin janvier 2010.
Cloud public uniquement.
Orienté services web ou traitement long
Datacenter en Europe (Dublin et Amsterdam)
SLA disponible, variable selon les services
Eco-système d'applications avec une nouvelle version de Pinpoint

Service de type PaaS

Code .NET tournant au-dessus de Windows Server 2008 R2 uniquement
Langages supportés (CLR, Java SDK, Ruby SDK)
AppFabric: connectivité et gestion d'identités
Système de messagerie inter applications

Service de type SaaS

Office Web Apps

Service de type StaaS

Blob Service : stockage de texte et de données binaire.

Base de données:

SQL Azure : SGBDR, compatible SQL Server

Conclusion

Comme nous pouvons le voir, chaque acteur fait évoluer son offre et l'amène à maturité.
2010 devrait donc être l'année du Cloud, à condition que les réserves sur la sécurité (disponibilité et confidentialité notamment) soient levées.

Avez-vous déjà utilisé les services fournis par ces différents acteurs ?
Quel bilan en tirez-vous ?

***

En savoir +

JIRA pour appuyer une démarche ITIL

22 déc. 2009

Quand se pose le choix d'un outil pour appuyer la mise en place du référentiel ITIL, plusieurs possibilités se présentent:

Utiliser un outil spécialisé et adapté à plusieurs processus ITIL
Utiliser un outil plus générique mais configurable

Les logiciels dans le premier cas, sont en général assez coûteux et potentiellement complexes à mettre en œuvre.

Dans le deuxième cas, les fonctionnalités seront réduites et ne conviendront pas forcément à tous les besoins.

JIRA est un outil connu et utilisé pour la gestion des bugs dans de nombreux projets informatiques.
Sa grand flexibilité et la possibilité de créer des écrans ou des workflows personnalisés permet de l'utiliser dans d'autres contextes telle que la gestion de certains processus ITIL comme nous allons le voir dans ce qui suit.

Les explications qui suivent s'adaptent plus à ITIL V2, plutôt axé sur l'opérationnel qu'à ITIL V3 qui porte plus l'accent sur la stratégie.
Nous traiterons donc principalement des processus de soutient des services tout en évoquant rapidement les processus liés à la fourniture de services.

Gestion de Configuration

Possible mais pas forcément le mieux intégré à JIRA.
Un CI correspondra à un ticket avec éventuellement quelques champs personnalisés.
Le ticket est unique, peut être référencé et édité.

Gestion des Incidents

S'intègre très bien à JIRA.
Un incident est plus ou moins équivalent à un bug et suit un workflow similaire.

2 possibilités:

Incident = type de ticket
Incident = projet dédié.

Dans le premier cas, un seul projet JIRA contient l'ensemble des tickets. C'est adapté pour un produit ou un service à destination des clients.
Par contre, pour gérer les Incidents relatifs à plusieurs produits, un projet dédié convient mieux.

Gestion des Problèmes

On suit le même principe que la gestion des Incidents.
Des problèmes peuvent être créés directement à partir d'un Incident dans la version de base de JIRA (fonction clone).

Il est aussi possible de créer un nouveau ticket pour le problème et référencer les tickets correspondants aux incidents récurrents à l'origine de celui-ci.

Gestion des Changements

Ce processus requiert un peu plus de configuration.
On peut se contenter dans un premier temps du workflow de base et créer uniquement une entrée de type RFC (Request For Change).
Mais la gestion des Changements implique une procédure de validation à plusieurs niveaux qui nécessite un workflow spécifique.

C'est tout à faut possible en suivant les instructions décrites dans cette page

Des champs personnalisés pourront être ajoutés pour détailler le changement (Description, Impact, Raisons, Risques, Coûts, ...).

Le contenu de la revue Post-implémentation (P.I.R) pourra se faire sous forme de commentaire dans le ticket de changement.

Gestion des Mises en Production

Une Mise en Production correspond à un ticket maître qui référence des sous-tickets. Chaque sous-ticket correspond à un déploiement.

Dans la mesure où un ticket ne peut être assigné qu'à une personne à la fois, si pour un même déploiement plusieurs tâches doivent se faire en parallèle, il faudra alors créer à chaque fois un ticket spécifique.

Gestion des Niveaux de Service

Pour les activité Planifier, Négocier, Signer et Contrôler, JIRA n'apporte pas de plus-value.

Gestion de la Capacité

Ce processus nécessite des métriques sur l'utilisation des infrastructures.
Possibilité de s'appuyer sur les Incidents pour créer des demandes de Changements (ajout d'un serveur, augmentation bande passante, ...).

Gestion de la Disponibilité

Ce processus nécessite des rapports détaillés sur le bon fonctionnement des services.
JIRA n'apporte pas de réelle plus-value ici.

Gestion de la Continuité de Service, Gestion de la Sécurité, Gestion de l'Infrastructure TIC, Gestion financière des Services Informatiques

JIRA n'apporte pas de réelle plus-value ici.

Liens

Pour un retour détaillé sur une implémentation

Conclusion

JIRA s'adapte aux processus de soutient des services informatiques. Pour les autres processus, il n'apporte pas vraiment de plus-value.
Dans le cadre d'une infrastructure avec un nombre réduit de tickets à gérer, c'est un choix qui permet de faire des économies tout en fournissant des gains de productivité réels.

Avez-vous aussi utilisé des logiciels génériques pour faciliter la mise en place du référentiel ITIL ?
Quel bilan en tirez-vous ?

***

En savoir +

Tous les conseils pour concevoir, implémenter et exploiter votre infrastructure informatique

18 déc. 2009

Les grands titres renvoient à des billets spécifiques qui expliquent plus en détails chaque conseil.
N'hésitez pas à cliquer dessus ;-)

I - Concevoir

. Bien identifier et dimensionner les besoins métiers
. Répartir et équilibrer les fonctions sur plusieurs sous-systèmes
. Limiter le nombre de configurations distinctes
. Inclure un sous-système dédié aux développements
. Inclure un sous-système dédié aux tests
. Intégrer un système de sauvegarde
. Intégrer un système d'archivage
. Sélectionner ou concevoir des applications qui montent facilement en charge
. Privilégier les solutions sur étagère plutôt que les développements internes
. Mettre en place un watchdog pour vos applications
. Limiter l'utilisation des bases de données relationnelles
. Utiliser des protocoles de communication standards et ouverts
. Eviter les points uniques de défaillance (SPOF)
. Eviter les flux cryptés externes qui traversent les équipements réseaux
. Faire faire une revue de la conception par ses pairs :-)

II - Implémenter

. Prévoir une étape de prototypage
. Sélectionner soigneusement vos partenaires
. Visiter le site d'hébergement
. Sélectionner un site proche de vous et facile d'accès
. Ne pas calculer au plus juste
. Sélectionner des équipements intelligents
. Sélectionner du matériel standard et évolutif
. Sélectionner des OS supportés par les constructeurs
. Redonder les services et les composants
. Éviter les disques durs dans les serveurs
. Placer chaque sous-système dans sa propre DMZ
. Distinguer les DMZ publiques et privées
. Séparer les flux applicatifs et administratifs
. Utiliser un équipement réseau dédié par type de flux
. Limiter les échanges entre DMZ
. Mettre en place des équipements de répartition de charge
. Mettre en place des équipements à tolérance de panne
. Privilégier les fonctions implémentées au niveau matériel plutôt que logiciel
. Faire le choix entre internalisation et externalisation au cas par cas
. Prévoir un accès VPN pour accéder au réseau d'administration

III - Exploiter

. Dimensionner vos contrats de support selon vos besoins
. Prévoir du matériel de rechange
. Mettre en place des méthodes d'accès de secours
. Contrôler les accès aux systèmes
. Créer des identifiants nominatifs
. Utiliser un journal centralisé
. Ne pas externaliser la gestion des sous-systèmes développés en interne
. Mettre en place une solution de Supervision
. Gérer les Incidents et les Problèmes
. Gérer les Changements et les Mises en Production
. Faire une inspection visuelle régulière des équipements

***

En savoir +

Evaluation de OneCMDB, une CMDB opensource

15 déc. 2009

OneCMDB , édité par la société Lokomo, est un des logiciels de CMDB opensource les plus aboutis. La version 2.01 est sortie en septembre dernier. C'est l'occasion d'évaluer plus en détails les caractéristiques de cette nouvelle version.

La version 2.01 est une version qui n'apporte pas de nouvelles fonctionnalités par rapport à la version 2.0 sortie en juin de cette année mais qui corrige tout de même environ 20 bugs.

La version précédente, 1.4, était sortie en octobre 2007 et montrait déjà le potentiel de ce produit, même si l'IHM était plutôt rudimentaire:

On pourrait presque dire que cette nouvelle version pêche par l'excès inverse. En effet, nous avons maintenant droit à des représentations graphiques des différents items de configuration avec leurs relations et la possibilité de zoomer/dézoomer.

Malheureusement, ce dynamisme dans la représentation a un prix et la réactivité de toute l'application s'en ressent. La version 1.4 n'était déjà pas très réactive, cette nouvelle version enfonce le clou.

Une mention particulière sur la détection automatique des différents items de configuration qui marche plutôt bien. Elle était déjà présente dans la version 1.4 mais intégrée très superficiellement. Il est maintenant possible de sélectionner graphiquement le modèle de données à remplir à partir des données recueillies par NMap.

Plusieurs modèles de données sont livrés en standard mais il vous faudra sûrement les modifier pour les adapter à votre infrastructure.

Points positifs

Gratuite
Configurable
Assez bien documentée
Interface moderne
Riche en fonctionnalités

Points négatifs

Lente
Complexe à configurer
Pas de compatibilité des modèles entre la version 1.4 et 2.01
Bureau avec menu démarrer dans une fenêtre de navigateur

En conclusion
OneCMDB a du potentiel et possède un ensemble de fonctionnalités tout à fait acceptable. Il faudrait maintenant que Lokomo investisse des ressources dans l'amélioration des performances pour en faire un outil exploitable pour des infrastructures moyennes.

***

En savoir +

Sélection des sites francophones traitant d'ITIL

11 déc. 2009

Contrairement à leurs homologues anglo-saxon, les sites webs qui traitent d'ITIL en français sont assez rares.
J'ai rassemblé ici quelques sites qui permettent d'approfondir et d'échanger sur les bonnes pratiques ITIL.

blog.sebbrochet.com: je ne vois pas trop quoi dire, c'est à vous de juger :-)

eurotil.com: site assez complet qui propose de la documentation, des forums et une newsletter. A noter aussi des offres de formation.

itilfrance.com: site de documentation assez complet sur les versions 2 et 3 d'ITIL. Publication d'une newsletter plusieurs fois par an.

estcebienitil: un blog dédié à ITIL. Malheureusement plus mis à jour depuis environ 1 an.

itgouvernance.fr: blog traitant de la gouvernance et de la performace des SI. Plusieurs articles sur les différents référentiels ITIL, COBIT, PMI, IT BSC, ISO.

Itil.fr: site portail très complet qui traite d'ITIL mais aussi d'autres référentiels (ISO, CMMI, COBIT, PRINCE2, SIX SIGMA). Beaucoup de documentation et des forums dédiés pour chaque référentiel.

itsmf.fr: branche française de l'association ITSMF. L'ITSMF fait la promotion des meilleures pratiques de gestion des services. Ce site présente des nouvelles, des évènements et référence des formations en rapport avec ITIL.

newsitweb.info: site éditant une newsletter dédiée à la gestion des services. Publication très régulière, environ 1 par mois depuis 2006. Les archives des années précédentes sont consultables en ligne.

Avez-vous aussi des liens à partager ?
Votre blog peut-être ?

***

En savoir +

11 conseils pour l'exploitation de votre infrastructure

08 déc. 2009

Vous avez conçu votre infrastructure et vous finalisez sa mise en production.
Il est maintenant temps de pensez à son exploitation.

Je vous fais part ici de quelques conseils que j'essaie d'appliquer au quotidien.

Dimensionner vos contrats de support selon vos besoins
Certains matériels sont réparables car ils sont standards et ouverts. Dans le cas de matériels spécifiques et/ou fermés, seuls les constructeurs sont à même de diagnostiquer les pannes. Dans ce cas, un contrat de support est vital pour mitiger les pannes et obtenir rapidement un équipement de nouveau opérationnel.

Prévoir du matériel de rechange
Vous avez bien sûr souscrit aux contrats de support pour vos serveurs. Le support garantit dans le meilleur des cas, un temps de rétablissement de 4H. Et parfois 4H c'est trop long et vous ne pouvez pas vous permettre d'attendre aussi longtemps avant de restaurer un système. Il est alors utile de conserver quelques composants de rechange (disques durs, alimentations, ventilateurs, cartes réseau, carte fibre, câbles, ...) pour faire la réparation en interne.
On notera aussi qu'en dehors d'une infogérance complète et onéreuse, le technicien du support devra être accompagné et aidé par vous ou un de vos collaborateurs sous peine de résultats inattendus sur le reste de la plateforme !

Mettre en place des méthodes d'accès de secours
Si les équipements réseau en entrée de votre plateforme n'acceptent plus de connections de l'extérieur et si vous n'êtes pas sur place, il faudra soit faire intervenir le personnel de l'hébergeur soit vous déplacer personnellement. Avec une solution d'accès de secours, vous êtes en mesure d'accéder à la plateforme et potentiellement capable de reconfigurer l'équipement défaillant s'il s'agit d'une panne logicielle.

Contrôler les accès aux systèmes
Les accès physiques au site d'hébergement et aux systèmes doivent être contrôlés et limités aux personnes qui ont besoin d'intervenir sur les équipements.
Les accès exceptionnels passent par une demande et une validation des différents responsables.

Créer des identifiants nominatifs
Un identifiant nominatif permet de tracer facilement les accès. Quand le collaborateur quitte la société, le compte est supprimé.

Utiliser un journal centralisé
Les différentes alertes et les erreurs des différents composants de la plateforme doivent être collectées et stockés sur un serveur centralisé pour faciliter leur exploitation. Une technologie comme syslog répond à ce besoin.

Ne pas externaliser la gestion des sous-systèmes développés en interne
Les sous-systèmes développés en interne sont souvent liés au savoir-faire de l'entreprise. Un personnel externe manquera de connaissances spécifiques pour gérer ces sous-systèmes et risquent de ne pas fournir le niveau de service requis (réactivité, adéquation de la réponse par rapport à la demande).

Mettre en place une solution de Supervision
Pour connaître l'état de votre infrastructure, il faut des indicateurs vérifiés régulièrement et une remontée d'alertes quand les valeurs sont hors-normes. C'est le propre d'une solution de supervision comme Nagios par exemple.

Gérer les Incidents et les Problèmes
Les incidents correspondent à un évènement qui sort du cadre normal de fonctionnement de votre infrastructure. Grâce à votre solution de supervision, cet évènement a été détecté et remonté aux personnels en charge des incidents. L'objectif est alors de restaurer le fonctionnement normal au plus vite quitte à utiliser des contournements. Si l'incident est récurrent, il est traité comme un problème. L'objectif est, après avoir implémenté un contournement, de définir les causes premières afin de concevoir une solution définitive. Ce qui peut prendre du temps ou ne pas être possible sans moyens conséquents.

Gérer les Changements et les Mises en Production
Le SI évolue pour s'adapter aux nouveux besoins, en maitrisant ces changements vous sélectionnez les changements nécessaires et assurez une transition de votre plateforme entre 2 états stables. La mise en production suit des procédures et permet d'éviter des erreurs lors de l'application des changements.

Faire une inspection visuelle régulière des équipements
Plusieurs paramètres ne sont pas mesurés ou ne sont pas mesurables. Il est bon de visiter le site d'hébergement de votre infrastructure régulièrement, ce qui vous permet de voir les évolutions de l'environnement, de la poussière, de la chaleur, du bruit, de l'usure, ...

Est-ce que votre infrastructure est infogérée ou exploitée en interne ?
Avez-vous aussi des conseils à partager ?

***

En savoir +

Dans la supervision, il y a des cactus

04 déc. 2009

Nagios est le champion de la supervision open source. Mais il partage la place avec un autre outil d'exception : Cacti.

Cacti permet de représenter l'évolution de n'importe quel paramètre au cours du temps. Vous pouvez aussi zoomer sur une portion de courbe et exporter les valeurs au format CSV pour un traitement avec un outil externe. C'est particulièrement utile pour déterminer les tendances, anticiper des pannes ou comparer deux états dans le temps.

Dans le cas d'une infrastructure, on pourra représenter:

pour chaque serveur: la charge CPU, la mémoire vive consommée, l'espace disque local utilisé
pour chaque interface réseau: les débits des flux reçus et envoyés
pour chaque source d'alimentation: l'intensité délivrée
pour chaque équipement qui le supporte: la température de fonctionnement
...

Il est aussi possible d'utiliser Cacti pour représenter des indicateurs métier:

le nombre de visiteurs sur votre site web
le nombre de commandes par heure sur votre boutique en ligne
le nombre de tickets ouverts chaque heure à votre service support
...

De même, vous pourrez identifiez l'utilisation en interne de vos ressources en représentant:

la consommation de bande passante en entrée et en sortie de la plateforme
le nombre d'utilisateurs sur votre progiciel de gestion de la relation client
le nombre de mails reçus et envoyés
...

On prêtera particulièrement attention aux variations brusques qui sont souvent le signe d'une anomalie. Et comme faute de ressources, tout ne peut être vérifié avec un outil comme Nagios, c'est un très bon indicateur.

J'espère que cette petite introduction vous a permis de mieux comprendre ce que Cacti peut apporter à votre solution de supervision et voir s'il correspond à vos besoins.

Quels outils utilisez-vous pour anticiper la demande sur votre plateforme ?
Correspondent-ils à vos besoins, en êtes-vous satisfait ?

***

En savoir +

20 conseils pour l'implémentation de votre infrastructure

01 déc. 2009

Ça y est, vous avez bouclé la conception et vient le moment de penser à l'implémentation !

Voici quelques conseils personnels pour vous aider à éviter certains pièges.

Prévoir une étape de prototypage
Théoriquement la pratique et la théorie c'est pareil mais en pratique c'est différent.
Un prototype va permettre de valider certains choix en terme de compatibilité, de performance et globalement d'adéquation aux besoins. Pour limiter les coûts, on pourra éventuellement utiliser des machines virtuelles au début avant de passer plus tard sur des serveurs physiques.

Sélectionner soigneusement vos partenaires
La réussite tient souvent à la qualité des personnes qui vous entourent. Assurez-vous de sélectionner des partenaires qui connaissent votre métier et ses contraintes de manière à ce qu'ils s'adaptent à vos besoins et non l'inverse.

Visiter le site d'hébergement
Tous les hébergeurs professionnels ne se valent pas. Il est important de vous faire votre propre idée sur l'emplacement du site, la sécurité des accès, la qualité des infrastructures de climatisation, les raccordements électriques et bande passante, l'autonomie en cas de coupure, les procédures en place pour les interventions sur site, les procédures de maintenance sur les équipements de l'hébergeur, les niveaux de service garantis, la présence si besoin de personnel sur site en 24/7, ...

Sélectionner un site proche de vous et facile d'accès
Plus le site est proche de vous et plus il sera simple de s'y déplacer pour l'installation des différents équipements. Comme vous serez amené à vous y rendre très souvent c'est autant de temps de gagné.

Ne pas calculer au plus juste
Certains paramètres sont plus facilement modifiables après coup que d'autres mais il y a toujours un coût induit et un délais de mise en place qui peuvent être problématiques. Ménagez de la marge dans le choix de la taille et le nombre des baies, la fourniture électrique, la bande passante, ...

Sélectionner des équipements intelligents
Des équipements interrogeables et contrôlables à distance peuvent vous faire économiser beaucoup de temps et d'argent et vous sortir de situations délicates. Il y a un surcoût au départ mais il est rapidement amorti, par exemple dans le choix de bandeaux électriques intelligents ou dans des cartes d'accès distant à insérer dans vos serveurs.

Sélectionner du matériel standard et évolutif
Choisir du matériel standard, c'est un plus grand choix de composants pour faire jouer la concurrence. Si le matériel est évolutif, il accompagnera plus facilement les changements de votre SI.

Sélectionner des OS supportés par les constructeurs
Certains systèmes d'exploitation ne sont pas supportés par les constructeurs qui ne fournissent pas les pilotes nécessaires au bon fonctionnement du matériel. Et certains systèmes d'exploitation n'implémentent pas complètement les spécifications des constructeurs. On veillera particulièrement au choix des OS pour exploiter des SAN, des lecteurs de bandes, les nouvelles architecture multi-coeurs, les grandes quantités de mémoire vive, ...

Redonder les services et les composants
En doublant et en exploitant des composants telles que les alimentations électriques ou les interfaces réseau, on évite les coupures de service en cas de panne et on facilite la maintenance.

Éviter les disques durs dans les serveurs
Les disques durs et les alimentations sont les composants qui tombent en moyenne en panne le plus souvent. En utilisant le démarrage en réseau (par ex: BOOTP) et le stockage des données à distance on limite le volume des pannes.

Placer chaque sous-système dans sa propre DMZ
Une DMZ correspond à un sous-réseau dédié sur lequel des paramétrages spécifiques peuvent être réalisés.

Distinguer les DMZ publiques et privées
Les DMZ publiques qui accèdent à l'extérieur de la plateforme seront les plus vulnérables aux attaques. Elles ne doivent pas héberger de données de valeur pour l'entreprise et doivent avoir des accès limités. Les DMZ privées ont plus de droits et communiquent avec les systèmes hébergeant les données métier. Mais elles ne doivent pas accéder directement à l'extérieur. On utilisera dans ce cas une DMZ publique qui servira de proxy.

Séparer les flux applicatifs et administratifs
Les flux applicatifs correspondent aux données échangées par les applications métier. Les flux administratifs correspondent aux données échangés par les applications système. En séparant ces deux flux, on évite qu'un des deux influe sur l'autre (meilleure disponibilité), que des données administratives soient accessibles par les applications métier (meilleure confidentialité).

Utiliser un équipement réseau dédié par type de flux
Ce qui permet en cas de coupure du réseau administratif ne pas avoir en même temps une rupture de service et en cas de coupure du réseau applicatif d'intervenir sur les équipements via le réseau administratif.

Limiter les échanges entre DMZ
Les échanges entre DMZ doivent être limités aux besoins métier pour le réseau applicatif. Tous les échanges qui ne sont pas nécessaires doivent être désactivés.

Mettre en place des équipements de répartition de charge
Pour absorber les variations brusques de charge et pour utiliser équitablement tous les équipements afin d'éviter l'usure prématurée d'un équipement spécifique qui serait plus utilisé que les autres. Si les sous-systèmes ont été conçus pour fonctionner en parallèle, cette étape se passe relativement bien.

Mettre en place des équipements à tolérance de panne
Suite à une panne ou dans le cadre d'une maintenance, un composant peut ne plus être opérationnel. Un équipement à tolérance de panne, détectera la non disponibilité d'un composant et basculera automatique sur le composant disponible prévu à cet effet. Quand les 2 composants sont actifs en même temps, on parle d'actif/actif, quand seulement un des 2 est actif à un moment donné, on parle d'actif/passif.

Privilégier les fonctions implémentées au niveau matériel plutôt que logiciel
L'industrie électronique produit des composant plus fiables que l'industrie logicielle même si la frontière entre matériel et logiciel est de plus en plus floue dans certains matériels mixtes (ex: équipements réseau avec sous-systèmes virtuels). Les performances sont en général meilleures avec du matériel dédié qu'avec des applications s'exécutant sur des systèmes d'exploitation non spécialisés.

Faire le choix entre internalisation et externalisation au cas par cas
Il est important de conserver en interne ce qui touche au savoir faire de la société et où les ressources qualifiées sont disponibles. Dans les autres cas, la question peut se poser en se basant sur le niveau de service à rendre et sur les coûts afférents.

Prévoir un accès VPN pour accéder au réseau d'administration
L'accès au réseau d'administration doit être limité et passer par une liaison cryptée. Un VPN site-à-site entre l'entreprise et la plateforme répond à ce besoin.

Comment s'est passée votre dernière implémentation ?
Avez-vous aussi des conseils à partager ?

***

En savoir +

Le champion de la supervision open-source

27 nov. 2009

Quand on parle de supervision, un nom de logiciel vient tout de suite à l'esprit. Ce logiciel, c'est Nagios.

Nagios est utilisé par les plus grands pour superviser des parcs de plusieurs milliers de machines. Allié à des outils comme Nagios Checker et NagVis, il offre une grande visibilité sur votre infrastructure.

Vous êtes assuré d'être averti dans les plus bref délais en cas d'anomalie.

Nagios est accessible au travers d'une interface web qui permet de voir l'état des paramètres vitaux de votre plate-forme. Les forces principales de Nagios sont son ouverture et sa grande souplesse de configuration.

Chaque test qu'il réalise correspond à l'appel d'un script. De nombreux scripts sont déjà fournis en standard mais rien ne vous empêche d'écrire vous même un script spécifique dans le langage de votre choix.

Nagios est par ailleurs livré pré-installé dans des distributions comme FAN (Fully Automated Nagios) ou des outils comme Centreon.

Nagios Checker est un greffon pour Firefox. Il affiche en permanence, en bas de la fenêtre principale du navigateur, l'état de vos services. Il change de couleur et produit un son en cas de changement d'état, ce qui ne manquera pas d'attirer votre attention pour vous permettre d'intervenir très rapidement.

NagVis est un greffon à Nagios pour représenter les états des services au-dessus d'une image de son choix. Cela permet de se rendre compte d'un seul coup d'œil de l'état général de votre plateforme et ce sera du plus bel effet sur un écran haute définition accroché au mur.

Conclusion
Nous n'avons fait qu'effleurer les possibilités de Nagios et les moyens de l'étendre. Pour allez plus loin, vous pouvez vous rendre sur le site NagiosExchange, dédié aux greffons pour Nagios.

Pour finir, je vous conseille la lecture de "Nagios - Au coeur de la supervision Open Source" d'Olivier Jan. Ce livre très concret et facile d'accès vous permettra d'appréhender tout ce que Nagios peut vous apporter. Il vous indiquera aussi comment l'intégrer à d'autres outils que vous avez déjà installés ou prévoyez d'installer.

Quelle solution de supervision utilisez-vous pour votre plateforme ?
En êtes-vous satisfait ?

***

En savoir +

15 conseils pour la conception de votre infrastructure

24 nov. 2009

La conception d'une infrastructure équilibrée et conforme aux besoins demande un peu de préparation.

Je vous livre ici quelques conseils issus de mes lectures, de mes discussions avec mes collégues et de mon expérience parfois douloureuse ;-)

Bien identifier et dimensionner les besoins métiers
La raison d'être d'une infrastructure est de répondre aux besoins fonctionnels.
En identifiant bien en amont les besoins et en les dimensionnant correctement, on limite les surcoûts et on augmente la satisfaction client.

Répartir et équilibrer les fonctions sur plusieurs sous-systèmes
L'adage nous dit qu'il ne faut pas mettre tous ses œufs dans le même panier. Dans notre cas, cela permet de ne pas perdre tous les services en même temps en cas de panne et assure une utilisation plus cohérente des différentes ressources.

Limiter le nombre de configurations distinctes
Chaque configuration a un coût en conception, déploiement et exploitation. En limitant le nombre de configurations différentes on réduit ces coûts et on simplifie le travail d'exploitation ce qui est bénéfique pour la réduction des pannes.

Inclure un sous-système dédié aux développements
Les développeurs ont besoin d'un environnement qui se rapproche de l'environnement de production. Dans la mesure où les applications ne sont pas stables, il est préférable que cet environnement n'interfère pas avec la production.

Inclure un sous-système dédié aux tests
L'assurance qualité se fait aussi dans un environnement proche de la production mais avec des applications qui sont quasi stables. Un environnement dédié permet de ne pas ralentir les développements et ne pas interférer avec la production.

Intégrer un système de sauvegarde
Une sauvegarde régulière permet de se prémunir d'une perte de données. Il faut bien identifier les données à sauvegarder, le dimensionnement de la zone de stockage et la fréquence des sauvegardes. Attention aussi aux systèmes qui ne peuvent pas être arrêtés et qui doivent donc être sauvegardés à chaud.

Intégrer un système d'archivage
Un système d'archivage permet de conserver plusieurs sauvegardes. Certaines d'entre elles doivent sortir régulièrement de la plateforme pour servir en cas de sinistre majeur.

Sélectionner ou concevoir des applications qui montent facilement en charge
Les besoins évoluent dans le temps et le SI doit pouvoir suivre ces besoins sans remettre en cause toute l'architecture. L'ajout de nouvelles ressources (mémoire, disques durs, serveurs, bande passante, ...) doit permettre aux applications de s'adapter à des demandes plus importantes.

Privilégier les solutions sur étagère plutôt que les développements internes
Une solution sur étagère est en général plus mature qu'une solution développée en interne. Elle est moins coûteuse à mettre en oeuvre si elle répond en grande partie aux besoins et si elle est un minimum configurable.

Mettre en place un watchdog pour vos applications
Les applications ne sont pas exemptes de défauts. Pour qu'un défaut ne soit pas synonyme de rupture de service, un système appelé watchdog peut surveiller l'état des applications et les relancer quand leur comportement sort des limites autorisées.

Limiter l'utilisation des bases de données relationnelles
Les bases de données relationnelles sont très utiles pour stocker de gros volume de données liées entre elles. Par contre, la lecture et surtout l'écriture de ces données sont très lentes comparées à un accès en mémoire vive. Pour avoir de meilleurs performances, il faut utiliser d'autres moyens de stockage (cache en mémoire vive, cache en réseau, bases de données non relationnelles, ...)

Utiliser des protocoles de communication standards et ouverts
L'utilisation de protocoles tels que TCP, HTTP ou SOAP réduit les problèmes d'interopérabilité, tout en autorisant l'échange de données structurées. Cela permet aussi d'avoir plus de choix dans la sélection du matériel et des logiciels.

Eviter les points uniques de défaillance (SPOF)
Un point unique de défaillance implique une rupture de service en cas de panne. S'il ne peut être éviter, il faut mitiger son effet par la mise en place d'équipements de secours.

Eviter les flux cryptés externes qui traversent les équipements réseaux
Un flux crypté externe qui traverse un équipement réseau ne peut pas être analysé par ce même équipement. Une connexion HTTPS entre un client externe et un serveur web ne doit pas, par exemple, être terminée sur le serveur web mais plutôt sur l'équipement réseau en entrée de plateforme.

Faire faire une revue de la conception par ses pairs :-)
Il est très facile de passer à côté d'un élément important. C'est souvent en présentant et en expliquant les raisons qui ont conduit à faire certains choix que l'on s'aperçoit que des alternatives moins onéreuses existent.

Avez-vous aussi des conseils à partager ?
Avec le recul et si c'était à refaire, qu'auriez-vous conçu différemment et comment ?

***

En savoir +

Mettre en place ITIL dans une PME, par où commencer ?

20 nov. 2009

ITIL (Information Technology Infrastructure Library) est un référentiel de bonnes pratiques.

Ce n'est ni un standard ni une norme qu'il faudrait suivre pour être certifié.

Il conseille sur ce qu'il faut faire pour gérer les systèmes d'informations mais ne dit pas comment le faire.
ITIL n'est pas réservé aux grands groupes de plusieurs milliers de salariés.

En fait, quelle que soit sa taille, les bonnes pratiquent d'ITIL doivent être adaptées aux spécificités de l'entreprise.

Il se compose de processus mais ne précise pas, volontairement, dans quel ordre les mettre en place.

Voyons ensemble quels processus font le plus de sens dans une petite structure.
C'est-à-dire ceux qui ne demandent pas un investissement trop conséquent en temps et en argent et qui produisent rapidement des résultats.

Notre petite structure ayant, pour l'exemple, des développements spécifiques au cœur de son métier l'empêchant d'externaliser complètement son SI.

Gestion de la Configuration
Ce processus permet de connaître les composants du SI et leurs relations au sein de ce qu'on appelle une CMDB (Configuration Management Database).
Dans notre cas, il n'est pas utile d'investir dans des outils complexes et un logiciel d'inventaire de parc informatique est un bon début (OCS-Inventory par exemple).

Gestion des Incidents
Ce processus est chargé de traiter tous les événements qui sortent du cadre normal de fonctionnement du SI. L'objectif est de rétablir les conditions normales au plus vite. On prendra soir d'établir un point de contact unique accessible par mail, téléphone ou mieux au travers d'un système de tickets (JIRA par exemple). La description de l'incident référence les éléments défaillants en utilisant la même nomenclature que celle utilisée dans la CMDB. Le suivi de l'incident est aussi de la responsabilité de ce processus.

Gestion des Problèmes
Quand plusieurs incidents identiques se produisent sans que les causes soient connues, ITIL parle de problème. Quand les causes sont établies, le problème devient une erreur connue. Ce processus est chargé de déterminer les causes du problème afin de trouver une solution définitive.
Même dans le cas d'une structure modeste, on aura tout intérêt à ce qu'une même personne ne gère pas à la fois les Incidents et les Problèmes car les objectifs ne sont pas les mêmes et potentiellement non compatibles.

Gestion du Changement
Le changement fait partie du cycle de vie du SI et lui permet de s'aligner sur les besoins métiers. Le changement ou évolution correspond donc à un besoin. Ce besoin peut se traduire par l'application d'un correctif, des réglages de configuration, l'ajout de machines, ...
Un changement non maîtrisé conduit à un moment ou un autre à des dysfonctionnements. L'objectif de ce processus est donc d'encadrer toute modification du SI, pour cela il faut:

définir clairement le changement avant qu'il ne soit ou non accepté. Il faut notamment justifier son intérêt vis-à-vis des besoins métiers
évaluer les risques liés à l'application du changement
prévoir un plan de test pour qualifier le changement
définir un plan de retour arrière si le changement qui a été effectué n'est pas validé

Pour résumer
Il faut idéalement 2 personnes minimum au service IT de notre PME. Ces 2 personnes mettront en place ensemble la partie CMDB. Sa mise-à-jour se fera par chacun d'eux dans le cadre des évolutions dont ils sont respectivement chargés dans la gestion des Incidents et des Problèmes. La gestion des Changement pourra être assignée à une autre personne ou bien à celle qui traite des Problèmes.

Pour aller plus loin, je vous recommande vivement la lecture du livre "ITIL: Pour un système informatique optimal" de Christian Dumont.

Vous qui travaillez dans des PME, avez-vous mis en place une partie des bonnes pratiques ITIL ?
Peut-être pratiquez-vous déjà ITIL sans le savoir ? :-)

***

En savoir +

Votre navigateur est obsolète !

Sébastien Brochet

Consultant DevOps (PAS en recherche)

Plusieurs type de services

Les acteurs majeurs

Conclusion

Gestion de Configuration

Gestion des Incidents

Gestion des Problèmes

Gestion des Changements

Gestion des Mises en Production

Gestion des Niveaux de Service

Gestion de la Capacité

Gestion de la Disponibilité

Gestion de la Continuité de Service, Gestion de la Sécurité, Gestion de l'Infrastructure TIC, Gestion financière des Services Informatiques

Liens

Conclusion

II - Implémenter

III - Exploiter