快速、准确地统计出词频数据是解读类文章的基础,要想事半功倍必须熟练掌握统计工具。

简单堆砌词频数据很难吸引读者,第一步要筛选出最能支持观点的数据,第二步要对所选数据进行合理分析。

将数据可视化更利于读者阅读和记忆,数据和可视化编辑是相辅相成、缺一不可的。

词频解读类文章是典型的技术加内容双轮驱动的作品。解读依然是重点,而数据是不可或缺的观点支持。

近几年,以词频为主线的解读类文章不断涌现,其新颖、易读的形式深受读者喜爱。再通过可视化处理和新媒体的传播,可以轻松收获可观的阅读量和转发量,因此也成为全媒体记者写作时的标配。

此种写法多见于对政策、报告的解读,如《十个关键词解读2016年政府工作报告:改革与创新是高频词》《2017政府工作报告高频词出炉:改革最多》《31地政府工作报告:“创新”成高频词 提及1322次》,等等。这些文章一般在会议结束、报告发布后的半小时内快速推出,在第一时间对几万字的内容进行关键词梳理,使读者加深记忆和理解。

这是词频效应在起作用。词频效应(word frequency effect)在各种文字系统中,都得到了大量证实,它是指人们对高频词的识别快于对低频词的识别。心理学家福斯特的搜索模式认为,在心理词典中,词条的排列顺序是从高频词到低频词,而词的认知是通过搜索达到的。由于高频词比低频词较早被搜索,所以高频词比低频词被认知得更快。心理学家高夫则认为,人们在认知高频词时可能只需通过视觉表征而达到心理词典的词条,所以认知高频词比认知低频词快。

另外,词频解读在生活、娱乐方面也被大量使用,主要是对名人或其作品进行分析,从而提升读者对关注对象的认知。如文章《我爬了咪蒙的278篇文章做词频统计》;再如,有人统计过歌手汪峰的117首歌曲中最常用的词语,如形容词排名前五的分别是孤独、自由、迷惘、坚强和绝望,名词排名前五的是生命、路、夜、天空和孩子,就此分析其作品风格为“在忧郁中呼唤希望”。

这种写作方法的好处不言而喻,通过词频统计将关键词出现的次数进行排序,可以清晰地勾勒出所要解读内容的重点并加以分析。其表现形式要么是直接使用词语出现的次数强调关键词的重要性,要么是通过次数选出前几位的关键词并加以深度解读。前者的代表作有2018年《新京报》的《政府工作报告“改革”一词出现97次 是历年最多一次》和2015年《华商报》的《盘点政府工作报告高频词:发展提134次改革86次》;后者可参见2018年《新京报》的《一图读懂政府工作报告 今年政府工作有10大关键词》和2017年《湖北日报》的《政府工作报告关键词:“改革”一马当先》。

这些文章首先满足了读者快阅读的习惯,现代读者需要更为便捷、快速地了解所读内容的重点,通过软件排出的词频能在极短的时间内进行发布,满足读者需求;其次,在面对信息量较大的政策、报告或是多篇文章时,词频统计可以很好地加深读者的印象;再次,作为解读的一种方式可以和其他信息相互补充,形成立体的信息传播格局。

笔者曾对全国妇联常委扩大会议上的讲话进行词频分析与解读。此次会议召开的时间节点放在中办印发《全国妇联改革方案》一周年之际,其总结经验、谋划未来、督查问效、狠抓落实之意非常明显,重要性不言而喻。

一万多字的讲话通过词频排序,前十位的词语分别是:改革175次、妇女95次、工作79次、组织71次、基层58次、群众55次、网络新媒体48次、推进37次、服务28次、建设21次。它们全面地表现了落实并推动《全国妇联改革方案》的经验与思考。

此文在会议结束10分钟后用《中国妇女报》公众号和长微博推送给与会人员、妇联干部和广大妇女群众,在及时、精准的同时,创新的形式更缩短了传统会议新闻给读者造成的距离感。此文发出后不但得到了读者广泛认可,更获得了同行的青睐与关注,400多个公众号、80多家网络媒体予以转载转发,使一篇工作新闻得到了很好的推广,让更多人了解了全国妇联的工作与努力,形成了良好的舆论氛围。

可以看出,不管是统计方法还是发布速度,在没有新技术支持的条件下都很难做出精准的解读、分析和传播,这就给记者提出更全面的要求。那么需要掌握什么技能才能写好词频解读类文章呢?

笔者认为,尽管词频解读所用的数据仅是单一维度,但写作过程也分为数据的收集(挖掘)、数据的分析整理、可视化的呈现三步,完全符合数据新闻的制作流程,因此需要具体注意以下3点:

熟悉词频统计工具。快速、准确地统计出词频数据是此类文章的基础,要想事半功倍必须熟练掌握统计工具。现在可以利用的工具有三大类,第一类是传统办公软件,如微软Office系列的word、excel和WPS Office中的WPS文字、WPS表格都能完成词频统计,缺点是必须熟练使用软件中的功能和函数。第二类是专业词频统计软件,如AntConc、词频等,尽管它们比较专业,但水平参差不齐。第三类是在线平台,如清博大数据、图悦等,相对以上两类,在线平台具有操作简便、升级快、生产的产品种类较多(可生成词云和数据图)等优点。因此,初学者使用在线平台是不错的选择。

数据解读才是重点。尽管词频数据可以更为直观地证明作者观点,但是简单的堆砌很难吸引读者,因此第一步要筛选数据,即选出最能支持观点的数据;第二步要对所选数据进行合理分析,以起到解读作用。笔者认为,词频解读以使用词频的数据作为基础进行客观分析,从而使读者加深印象并得到帮助,这就要求作者对所分析的数据和内容非常熟悉,也就是我们常说的内容为王。

学会可视化编辑手段。可视化也可称之为图形化,将数据可视化更利于读者阅读和记忆。词频的表现有词云、柱状图、饼状图、曲线图等基本形式,也可制作成表格。这些手段都是为了读者更加易读、文章更容易传播。数据和可视化编辑是相辅相成、缺一不可的。前面说到的统计工具都可以完成图形的制作,初学者可直接使用。

综上所述,词频解读类文章是典型的技术加内容双轮驱动的作品。解读依然是重点,而数据是不可或缺的观点支持。

(信息来源:中国新闻出版广电报)