Python数据分析之Jieba分词组件

2018.07.20

介绍

如题所说,就是一款分词组件,只不过是中文的

安装及使用方法

请参考文档

自己的第一次成功

文档里没有提怎么对文件进行分词,所以稍微折腾了下,最终成功。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
import jieba
import jieba.analyse
filename="/users/tonghao/desktop/StockAnalyse/stock.txt"

def fenci(filename) :
f = open(filename,'r+')
file_list = f.read()
f.close()

seg_list = list(jieba.cut(file_list,cut_all=True))
tf={}
for seg in seg_list :
#print seg
seg = ''.join(seg.split())
if (seg != '' and seg != "\n" and seg != "\n\n") :
if seg in tf :
tf[seg] += 1
else :
tf[seg] = 1

f = open("/users/tonghao/desktop/StockAnalyse/stock_fc.txt","w+")
for item in tf:
#print item
f.write(item+" "+str(tf[item])+"\n")
f.close()

fenci(filename)

吐槽

昨天使用搜索引擎查相关资料,痛苦的不行,大部分文章都一样内容,可想而知都是随手复制放到自己博客,好几个CSDN上的文章标题写的好听,结果打开一看,到安装那一步就停止了,“如何使用”就写了个标题,真是可笑,文章没写好就发布出去。就这,还挂上了付款二维码。这几年,做开发的的确越来越多,用人单位也越来越在乎应聘者有没有自己的博客和Github是否项目满满,很多求职者就投其所好。前一段看到有收费帮点“Star”和让你的Github每天都有使用痕迹,也是吃了一惊。这种大量不走心的文章放在博客,难道不是同样的让人羞耻么,有的一个月发了几百篇,难道那个上升的数字就一定代表自己技术的增长么?过去有收藏使人安心,就觉得自己学会这个说法,估计以后要放宽范围:复制文章发到自己博客就觉得自己学会了。