囧口常開: nplm代码学习与使用 (1)

一. 下载/编译/示例运行
1) 从http://nlg.isi.edu/software/nplm/ 下载nplm-0.3.tar.gz
2) 修改src/Makefile (根据其他软件在本机安装的路径)

CXX=/usr/bin/g++
BOOST=/usr/local
EIGEN=/usr/local/include/eigen3
PYTHON_ROOT=/usr
BOOST_LIB_SUFFIX=

3) 切换至src目录下, 编译: make all

4) 切换至example目录下, 运行: make
根据屏幕上打印信息可以看到运行了以下命令:
a.
sed -n 10339,15586p pg8800.txt | ./preprocess.pl > inferno.txt
准备数据, 生成文本文件inferno.txt, 即该文件为训练语言模型的文件.

b.
./train_ngram.sh inferno.txt inferno.nnlm work
该命令进一步分别执行以下命令:
I:
/home/li***/toolkit/NEURAL_LANGUAGE_MODEL/example/../src/prepareNeuralLM --train_text inferno.txt --ngram_size 3 --vocab_size 5000 --validation_size 500 --write_words_file work/words --train_file work/train.ngrams --validation_file work/validation.ngrams
数据准备
以上读取文本文件inferno.txt, 生成词汇文件work/words,　并对单词数字化,　数字化后生成3-gram的训练文件work/train.ngrams和校正文件work/validation.ngrams.　

II:
/home/li***/toolkit/NEURAL_LANGUAGE_MODEL/example/../src/trainNeuralNetwork --train_file work/train.ngrams --validation_file work/validation.ngrams --num_epochs 10 --words_file work/words --model_prefix work/inferno.nnlm --learning_rate 1 --minibatch_size 8
训练模型

III:
/home/li***/toolkit/NEURAL_LANGUAGE_MODEL/example/../src/testNeuralNetwork --test_file work/train.ngrams --model_file inferno.nnlm
测试

二. 加载到eclipse项目中
1) 新建eclipse项目nplm, 并将以上src文件夹中的代码(包括Makefile)复制到nplm文件夹中. 为了使用已有的makefile文件, 需要告诉eclipse不自动生成makefile文件.　
Project Properties (right click on project and select properties) -> C/C++ Build -> in that window uncheck "Generate Makefiles Automatically."
再将src同一目录夹下的3rdparty文件夹复制到nplm中.
2) 修改Makefile文件 (在以上修改Makefile的基础之上):
TCLAP=./3rdparty/tclap/include
CFLAGS=-g
2) 为每个main创建一个target

这样可以在eclipse下调试各个main方法.

囧口常開

2015年6月4日星期四

nplm代码学习与使用 (1)

没有评论:

关注者

博客归档