MD5算法是目前广为使用的杂凑算法,它一度被视为是牢不可破的。
然而这个神话在今年8月份轰然倒塌,中国王小云教授的一篇论文
宣告了它使命的终结。然而作为一种优秀的算法,在一定的领域内
它依然有着无可替代的作用。
在实际环境中,遇到这样一个问题。某公司的数据库为ora8,计划
升级为ora9i,由于数据库版本跨度大且为海量数据,计划由dsg软
件进行数据迁移。但在dsg测试中发现有数据丢失现象。现在要求
提供一种手段对迁移前后的数据进行比较验证,确保万无一失。
考虑到网上文件发布共享时广泛使用MD5提供对自身校验,显然这里
情况极为类似。
程序设计如下:打开一对管道,由父进程进行数据提取操作,传入
管道。子进程进行MD5校验。源码如下:
unix# cat checkMD5
#!/bin/perl
use DBI;
#use Proc::Fork;
use IO::Pipe;
use Digest::MD5;
my $dbuser="test";
my $passwd="test";
my $dbstr="dbi:Oracle:ora8";
my $sql=shift or die "I need a sql string
" ;
pipe(PIPE_READ,PIPE_WRITE) or die "Can't make pipe!
";
if ($pid = fork) {
close(PIPE_READ);
my $dbh = DBI->connect ($dbstr, $dbuser, $passwd,
{ RaiseError => 1, AutoCommit => 0 }) || die "$DBI::errstr";
my $sth = $dbh->prepare($sql); $sth->execute();
while(my @result=$sth->fetchrow_array){
print PIPE_WRITE @result,"
";
}
$dbh->disconnect();
close(PIPE_WRITE);
exit;
} else {
defined $pid or die "can't fork:$!
";
close(PIPE_WRITE);
binmode(PIPE_READ);
print Digest::MD5->new->addfile(*PIPE_READ)->b64digest, "
";
close(PIPE_READ);
exit;
}
执行方法:perl checkMD5 "select * from test order by id"
该程序将会对 sql 语句的结果集进行 md5 校验,生成唯一的校验值。
缺点:1.结果集必须完全一致,因此要对主键进行排序。
2.对于千万级别的表,处理时间太长。
改进方法:1.采用其他算法,在《应用密码学》一书中提到了一种杂凑算法,
与顺序无关。但没有找到进一步的资料,因此暂时用MD5 算法。希望
了解的朋友不吝赐教。
2.拟采用多进程方式,将ID值分成多个区间,并发查询。此是后话。