Ce livre présente une méthode de calcul pour détecter et éliminer les contigs NGS redondants générés par les assembleurs à nouveau. L'approche utilise deux techniques de hachage, un filtre Bloom pour éliminer les contiges en double et un hachage sensible à la localisation (LSH) pour éliminer les contiges similaires. Comme un grand nombre de contigs sont générés par différents assembleurs, ces approches nécessitent des ressources informatiques et humaines considérables. La réduction de la redondance facilite l'analyse des données et réduit le temps nécessaire pour finaliser et traiter les assemblages génomiques. L'assemblage hybride de l'ensemble de données GAGE-B (8 bactéries divisées en 12 assemblages séquencés dans Illumina HiSeq et MiSeq) a été réalisé avec l'assembleur SPAdes (De Bruijn Graph) et l'assembleur Fermi (OLC). Le pipeline a été appliqué aux contigs résultants et la performance comparée à d'autres outils similaires tels que HS-BLASTN, Simplifier et CD-HIT. L'application proposée peut générer des résultats complémentaires et contribue à unifier ces résultats, ce qui rend l'assemblage plus précis.