利用icwb2-data工具包对中文分词预测结果进行评估
工具包下载地址
http://sighan.cs.uchicago.edu/bakeoff2005/
安装ActivePerl,先能识别后缀名为.pl的文件
安装diffUtil工具包。
http://gnuwin32.sourceforge.net/packages/diffutils.htm
直接下载setup格式的安装包修改icwb2-data/scripts/score脚本
把46行的代码修改成:1
$diff = “E:/GnuWin32/bin/diff”;(该目录为安装目录)
把52,53行的代码修改成:(注意E:/GnuWin32/tmp目录要存在)
1
2tmp1=“E:/GnuWin32/tmp/comp01$”;
tmp2=“E:/GnuWin32/tmp/comp02$”;将diffUtil下的bin目录加到环境变量中。
运行
1 | //进入前面预测、测试的生成文件目录下 |
在输出的文件“o.txt”下即可查看正确率、召回率等。