Un moyen plus rapide de trouver des doublons conditionnés par le temps

Dans une machine avec AIX sans PERL je dois filtrer les enregistrements qui seront considérés comme dupliqués s'ils ont le même identifiant et s'ils ont été enregistrés entre une période de quatre heures.

J'ai implémenté ce filtre en utilisant AWK et fonctionne plutôt bien mais j'ai besoin d'une solution beaucoup plus rapide :

请先 登录 后评论

1 réponses

David

Si votre fichier de données contient tous vos enregistrements (c'est-à-dire qu'il inclut des enregistrements qui n'ont pas d'identifiants en double dans le fichier), vous pouvez le prétraiter et produire un fichier qui ne contient que des enregistrements qui ont des identifiants en double.

Si tel est le cas, cela réduirait la taille du fichier que vous devez traiter avec votre programme AWK.

请先 登录 后评论