parent
bd63f12893
commit
78a8f56309
@ -0,0 +1,33 @@
|
|||||||
|
package xyz.wbsite.ai;
|
||||||
|
|
||||||
|
import opennlp.tools.tokenize.TokenizerFactory;
|
||||||
|
|
||||||
|
public class Dl4j_Example {
|
||||||
|
|
||||||
|
public static void main(String[] args) {
|
||||||
|
// // 加载文本数据
|
||||||
|
// String filePath = "path/to/your/text/file.txt";
|
||||||
|
// SentenceIterator iter = new BasicLineIterator(new File(filePath));
|
||||||
|
//
|
||||||
|
// // 定义分词器
|
||||||
|
// TokenizerFactory t = new DefaultTokenizerFactory();
|
||||||
|
// t.setTokenPreProcessor(new CommonPreprocessor());
|
||||||
|
//
|
||||||
|
// // 构建Word2Vec模型
|
||||||
|
// Word2Vec vec = new Word2Vec.Builder()
|
||||||
|
// .minWordFrequency(5)
|
||||||
|
// .iterations(1)
|
||||||
|
// .layerSize(100)
|
||||||
|
// .seed(42)
|
||||||
|
// .windowSize(5)
|
||||||
|
// .iterate(iter)
|
||||||
|
// .tokenizerFactory(t)
|
||||||
|
// .build();
|
||||||
|
//
|
||||||
|
// // 训练模型
|
||||||
|
// vec.fit();
|
||||||
|
//
|
||||||
|
// // 保存模型
|
||||||
|
// WordVectorSerializer.writeWord2VecModel(vec, "path/to/save/your/model.bin");
|
||||||
|
}
|
||||||
|
}
|
@ -0,0 +1,35 @@
|
|||||||
|
package xyz.wbsite.ai;
|
||||||
|
|
||||||
|
import org.deeplearning4j.models.embeddings.loader.WordVectorSerializer;
|
||||||
|
import org.deeplearning4j.models.word2vec.Word2Vec;
|
||||||
|
import org.deeplearning4j.text.sentenceiterator.LineSentenceIterator;
|
||||||
|
import org.deeplearning4j.text.sentenceiterator.SentenceIterator;
|
||||||
|
|
||||||
|
import java.io.File;
|
||||||
|
|
||||||
|
public class Word2Vec_Example {
|
||||||
|
|
||||||
|
public static void main(String[] args) {
|
||||||
|
|
||||||
|
try {
|
||||||
|
//加载数爬虫分词数据集
|
||||||
|
String wordLib = "wordLib.lib";
|
||||||
|
String vecModel = "vecModel.model";
|
||||||
|
SentenceIterator iter = new LineSentenceIterator(new File(wordLib));
|
||||||
|
Word2Vec vec = new Word2Vec.Builder()
|
||||||
|
.minWordFrequency(5)
|
||||||
|
.iterations(1)
|
||||||
|
.layerSize(100)
|
||||||
|
.seed(42)
|
||||||
|
.windowSize(5)
|
||||||
|
.iterate(iter)
|
||||||
|
.build();
|
||||||
|
vec.fit();
|
||||||
|
//保存模型之前先删除
|
||||||
|
new File(vecModel).delete();//删除
|
||||||
|
WordVectorSerializer.writeWordVectors(vec, vecModel);
|
||||||
|
} catch (Exception e) {
|
||||||
|
e.printStackTrace();
|
||||||
|
}
|
||||||
|
}
|
||||||
|
}
|
Loading…
Reference in new issue