博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
word2vec参数
阅读量:4043 次
发布时间:2019-05-24

本文共 948 字,大约阅读时间需要 3 分钟。

word2vec训练 、

一般来说word2vec的词向量方法强于glove方法,而对于word2vec,cbow方法强于skip-gram

lr = 0.05 dim = 100 ws = 5 epoch = 5 minCount = 5 neg = 5 loss = 'ns' t = 1e-4

一般是把训练和测试的语料都用来做word-embedding 本文使用Word2Vector实现Word Embedding,参数设置情况如下

size=256 <Word Embedding的维度,如果是词的话一般设置为256,字的话设置为100就差不多,毕竟汉字数量为9w左右常用字7000左右

window=5, <滑动窗口的大小,词一般设置为5左右,表示当前词加上前后词数量为5,如果为字的话可以设置大一点> min_count=5, <最小词频,超过该词频的才纳入统计,字的话词频可以设置高一点> workers=15, <线程数量,加速处理>

from gensim.models.word2vec import LineSentence 用于已经分号词的文件

般来说,比较喜欢用cbow ,因为模型中 cbow有向量相加的运算。

-cbow 0表示不使用cbow模型,默认为Skip-Gram模型

-size 表示词向量维数:经验是不超过1000,超过1000基本都没有效果,我感觉是可以取 sqrt(dict_size)/2 的样子,不过最好多试几个

-window 上下文窗口,是训练词向量的时候,取上下文的大小,感觉这个一般都是5比较好

-sample 表示采样参数,是一个经验忽视掉频率过高的词的参数,一般也用默认的就行。 -sampe指的是采样的阈值,如果一个词语在训练样本中出现的频率越大,那么就越会被采样。

-negative 表示负采样参数,每有一个正样本,选择几个负样本的参数,一般也是用默认的。 -binary为1指的是结果二进制存储,为0以文本形式进行存储。

上面这两个参数感觉就是默认的比较好用。

-hs 做不做层次的softmax,是1的时候效果比较好,但是训练会慢一点 -min-count 控制词典大小的参数,如果只想要高频词的话就设置高一点。

参考:

转载地址:http://xlhdi.baihongyu.com/

你可能感兴趣的文章
移动端自动化测试-Mac-IOS-Appium环境搭建
查看>>
Selenium之前世今生
查看>>
Selenium-WebDriverApi接口详解
查看>>
Selenium-ActionChains Api接口详解
查看>>
Selenium-Switch与SelectApi接口详解
查看>>
Selenium-Css Selector使用方法
查看>>
Linux常用统计命令之wc
查看>>
测试必会之 Linux 三剑客之 sed
查看>>
Socket请求XML客户端程序
查看>>
Java中数字转大写货币(支持到千亿)
查看>>
Java.nio
查看>>
函数模版类模版和偏特化泛化的总结
查看>>
VMware Workstation Pro虚拟机不可用解决方法
查看>>
最简单的使用redis自带程序实现c程序远程访问redis服务
查看>>
redis学习总结-- 内部数据 字符串 链表 字典 跳跃表
查看>>
iOS 对象序列化与反序列化
查看>>
iOS 序列化与反序列化(runtime) 01
查看>>
iOS AFN 3.0版本前后区别 01
查看>>
iOS ASI和AFN有什么区别
查看>>
iOS QQ侧滑菜单(高仿)
查看>>