查看: 64|回复: 7

大佬们请教一个py脚本

[复制链接]

3

主题

38

回帖

113

积分

注册会员

积分
113
发表于 2020-8-10 17:00:43 | 显示全部楼层 |阅读模式
本帖最后由 qihu 于 2020-8-10 17:02 编辑

公司最近采集了一批长尾词,然后想整理分类一下
在网上大致找到了思路,奈何没有技术来实现。
故此来请教一下诸位大佬
比如说词库是这样的



网上找到的分类方法是这样的







把余弦值大于0.8的归成一类这样
有没有大佬能指点一下py脚本应该怎么写呢

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

30

主题

367

回帖

940

积分

高级会员

积分
940
发表于 2020-8-10 17:11:33 | 显示全部楼层
分词?
回复

使用道具 举报

206

主题

1952

回帖

4678

积分

论坛元老

积分
4678
发表于 2020-8-10 17:16:36 | 显示全部楼层

ljm4216 发表于 2020-8-10 17:11

出点费用就能解决,报价200

可以啊,没有问题
回复

使用道具 举报

3

主题

38

回帖

113

积分

注册会员

积分
113
 楼主| 发表于 2020-8-10 17:16:52 | 显示全部楼层

king51 发表于 2020-8-10 17:16

分词?

分词之后再计算词向量,得到词向量之后再两者计算得余弦值,余弦值大于0.8就归成一类
回复

使用道具 举报

3

主题

38

回帖

113

积分

注册会员

积分
113
 楼主| 发表于 2020-8-10 17:11:00 | 显示全部楼层
可以联系我
回复

使用道具 举报

13

主题

65

回帖

229

积分

中级会员

积分
229
发表于 2020-8-10 17:20:11 | 显示全部楼层
回复

使用道具 举报

3

主题

38

回帖

113

积分

注册会员

积分
113
 楼主| 发表于 2020-8-10 17:16:00 | 显示全部楼层
虽然没学过,但是这么清晰的需求,合理的价格,相信会有大佬帮你做的

回复

使用道具 举报

149

主题

6786

回帖

1万

积分

论坛元老

积分
14097
发表于 2020-8-10 17:53:05 | 显示全部楼层
不明觉厉,帮顶 本帖最后由 夕日 于 2020-8-10 18:38 编辑

这个实现起来很简单的



先用 jieba 分词,然后将每个句子转成词向量,最后计算余弦距离dist:
[ol]
  • sim = np.dot(emb, new_emb.T) / (np.linalg.norm(emb) * np.linalg.norm(new_emb))
  • dist = 1 - sim[/ol]复制代码
  • 回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    关注公众号

    相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

    Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.

    在本版发帖
    关注公众号
    返回顶部