Trouver rapidement les différences entre les deux grands fichiers texte

J'ai deux 3GB de texte des fichiers, chaque fichier a environ 80 millions de lignes. Et ils part de 99,9% des lignes identiques (fichier Un a unique de 60 000 lignes, fichier B a unique de 80 000 lignes).

Comment puis-je trouver rapidement des lignes de deux fichiers? Est-il prêt-à-utiliser les outils de ligne de commande pour cela? Je suis à l'aide de Python, mais je suppose que c'est de moins en moins possible d'en trouver un efficace Pythonic méthode pour charger les fichiers et de les comparer.

Toutes les suggestions sont les bienvenues.

Voulez-vous dire que 99,9% de la fichiers sont identiques, ou que 99,9% de la lignes sont identiques (c'est à dire la même ligne est répétée)?
Avez-vous attention à l'ordre des lignes? Le B disposent de toutes les lignes d'Une même commande? Peut-il y avoir de réorganisation, les suppressions de lignes? Existe-il répété lignes dont le comte A a n fois, les B a n-b fois-> la différence est b* * * * ligne)
Si vous demandez à propos de "prêt-à-utiliser les outils de ligne de commande", vous pouvez spécifier un OS. Sur la plupart, "diff" est natif ou porté. Encore, je ne peux pas être sûr de ce que vous voulez à partir de votre question: peut-être sur Linux: tri-unique < fichier1 > uniq1; tri-unique < fichier2 > uniq1; diff uniq[12].
Combien d'octets par ligne en moyenne?
exactement, 99.9% des lignes dans les deux fichiers sont identiques, mais l'unique lignes sont aléatoirement réparties dans deux fichiers.

OriginalL'auteur jack | 2010-08-23