TextRank 与文本提取
in python自然语言处理 with 1 comment

TextRank 与文本提取

in python自然语言处理 with 1 comment

前情提要

最近几个月,业余作家春心泛滥,写了两篇小故事。但是我写的内容大都我忘记了,是否存在某一种方法获取某一篇文章的关键句,或者关键词?

答案是有的。

这种算法被称为 TextRank 算法,和 PageRank 算法比较类似,点击这里查看 PageRank。

当然,还是有所不同的,如果有必要我会在以后的文章中来研究 TextRank 算法。

简单尝试

TextRank 的 Python 的实现叫做 TextRank4ZH
使用之前的《上海老板》系列进行分析,嗯需要说的是在这里使用了 jieba 分词默认的词库,当然也可以指定,迫于懒:

from textrank4zh import TextRank4Sentence

with open('./story.txt', 'r') as f:
    story = f.read()

tr4s = TextRank4Sentence()
tr4s.analyze(text=story, lower=True, source='all_filters')


for item in tr4s.get_key_sentences(num=20):
    print(item.weight, item.sentence)
# 0.024046500186653316 老板说,一个人吃葱油拌面,又要吃红油抄手,吃的太多了我记住了
# 0.022074523435872587 老板没有回答,反问道,你知道他们说的是什么
# 0.02122610156052515 老板说,他们说的是很老的上海话
# 0.02045111299984583 又是一个酷热的夏天,整天待在空调房里面让人觉得呼吸有些艰难,我也想了想本帮菜馆的老板关门处理家事也有一阵时间了,不如今晚出去走走顺便看看他有没有回来
# 0.01977302242298942 这家老板很执拗店铺的装修风格,这种老上海的装修门面在西安的街上一眼就能认出来
# 0.019603902287516045 到了西安后,我仍在想念葱油拌面和红油抄手带来的美味,我在西安寻找了很久却是没有找到本帮面馆
# 0.019375168130885724 不就我便要回西安了,我说老板我要走了,老板说那今天就不收你钱了
# 0.019152633514952735 又过了几天,还是很想吃面,就发短信问他能不能来西安发展,毕竟把临街店铺租出去来内地旅旅游也算很惬意的生活
# 0.01912492089011472 这是在几年前我去上海出差时认识的老板,在七宝开了一家本帮面
# 0.01899492829361398 于是,当晚我便没有让老板失望,走进了他的本帮面馆
# 0.01897431371283309 我吃面时老板坐在另一边的桌子上玩儿着手机,时不时问我一些诸如时事看法,或手机电脑怎么用才不卡的问题
# 0.01878770966994786 我走进了店铺坐在靠近里面的位置,说道,老板,葱油拌面加素鸡和大排,一瓶冰啤酒
# 0.018162678739293347 我也不清楚为什么,面很好吃,老板很和善,但是每次都是我一个人坐在店里,从来没有看到过除了老板以外的任何一个人
# 0.017116388914934135 我常去的面馆是一家上海面馆,这位上海老板和我很投缘
# 0.016587744119919357 结账时老板告诉我一共十三块,我也对我自己的选择十分满意,毕竟刚刚参加革命不久就来了上海支援建设,实在囊中羞涩啊
# 0.015520923431544088 再一次回到了西安,我跟老板发去了问候的信息
# 0.015252818810236485 “老板,葱油拌面”,我说道,“再加一个素鸡和大排”
# 0.014874732164524057 是一对母子,男孩说,妈妈妈妈我想吃那个人
# 0.014665583750425561 老板乐了,但还是给我多加了一份抄手
# 0.014213834079838266 最开始我甚至都没有理睬他的店铺,因为我觉得食堂里面的上海面食对我伤害太大了

我原本认为我只是一个胖子,但是其实根据上面的栗子我发现我是一个很穷的胖子。
:joy:

Comments are closed.
  1. 你天爸爸

    滑动到某些位置时右侧目录栏会半遮状态~
    友情建议鼠标下滑时也显示最下方的标签栏~
    友情再建议~留言可以带图片~