附录1：电影文本内容的分词

# encoding=utf-8 from __future__ import print_function import sys import codecs sys.path.append("../") import jieba reload(sys) sys.setdefaultencoding('utf8') # 实现分词 def cuttest(test_sent): fp = open('movie_top_jieba.txt','a') result = jieba.cut(test_sent) output = " ".join(result) output = output.decode('utf8') fp.writelines(str(output)) fp.close() print (output) # 读取电影文本内容 def testcase(): fp = codecs.open('movie_top_1.txt','r','utf-8') f = fp.read() # print (f) cuttest(f) #执行程序 if __name__ == "__main__": testcase() jieba.set_dictionary("test.txt") print("================================") # testcase()