Windows下icwb2-data的评估用法

 memo
 

利用icwb2-data工具包对中文分词预测结果进行评估

工具包下载地址

http://sighan.cs.uchicago.edu/bakeoff2005/

  • 安装ActivePerl,先能识别后缀名为.pl的文件

  • 安装diffUtil工具包。
    http://gnuwin32.sourceforge.net/packages/diffutils.htm
    直接下载setup格式的安装包

  • 修改icwb2-data/scripts/score脚本
    把46行的代码修改成:

    1
    $diff = “E:/GnuWin32/bin/diff”;(该目录为安装目录)

    把52,53行的代码修改成:(注意E:/GnuWin32/tmp目录要存在)

    1
    2
    tmp1=“E:/GnuWin32/tmp/comp01$”;
    tmp2=“E:/GnuWin32/tmp/comp02$”;
  • 将diffUtil下的bin目录加到环境变量中。

运行

1
2
3
4
//进入前面预测、测试的生成文件目录下
perl score 训练文件 测试文件名 输出结果名 >输出到的文件名
//例如:
perl score maxtrain11.txt maxtest11.txt maxoutput.txt > o.txt

在输出的文件“o.txt”下即可查看正确率、召回率等。