计算机辅助大数据政治话语分析
《中共中央党校(国家行政学院)学报》
原标题:佟德志:计算机辅助大数据政治话语分析
政治话语体系在政治学的研究当中居于非常重要的地位,是我们分析政治知识、观念、价值以及意识形态的重要工具。伴随着信息通信技术的来临,越来越多的政治话语文本能够更加快捷、方便地以大数据的方式获得,并用计算机辅助进行政治话语分析。这为我们更加准确、更加科学地分析政治话语提供了基础。
从某种程度上讲,学术研究必然是以话语权为中心的。首先要明白别人讲的一套概念和命题,这些都是话语体系最重要的元素;其次,还要用一套概念和命题把自己的思想表达出来,这实际上会形成一套话语体系。随着人们的学习和交流,这些话语体系会形成一定的模式,决定了学术研究的基本样式。
事实上,我们可以把政治话语简单地分成三类。一是官方话语体系,这在中国的分析里是非常重要的。中国的话语确实有用,官方话语代表了大致的政治走向。实际上,在西方分析里,官方话语对社会的政治话语体系的影响就不像中国这么重要。二是民间话语。民间话语的分析会把话语的分析引入更为细致,也更为深入的普通民众的精神境界,理解他们的想法。更加重要的是,官方话语必须跟民间话语相互契合,如果契合度不够,必然会出现裂隙,甚至会影响到官方话语的存续。三是学术话语。它既不同于官方话语,也不同于民间话语,但又与这两种语言有着千丝万缕的联系。
传统的政治话语分析倾向于精英话语分析。比如西方政治思想史的研究,实际上就是在分析这些像柏拉图、亚里士多德、霍布斯、洛克、卢梭、孟德斯鸠这些大哲学家、大思想家的政治话语。但是,如果太过注重精英的话语,就会出现一系列问题。比如,无法理解普通民众的日常想法;更无法形成对当时时代的基本认识。官方话语的文本有限,因此更容易成为学者研究的重点。这导致真正对于民间话语的分析是比较少的。出现这种问题的关键原因是数据太多难以处理,民间话语不是几个小时或者几个T的容量,一般的学术是没办法分析海量民间话语的。现在借助互联网抓取话语并使用计算机软件进行分析,为我们运用计算机辅助进行文本分析打开了广阔天地。
最常用的方法可以包括词频分析、词云分析、情感分析、流量分析、聚类和分类分析、社会网络分析等。有一些方法已经运用得非常广泛了,比如,词频分析和词云分析。比如情感分析方法,运用的结果在社会科学领域还比较少。社会网络分析虽然运用还不多,但是潜力较大,有着广阔的运用前景。同时,这些分析方法还可以同时间、地点等组合在一起,从而分析话语体系的变迁、话语体系在空间上的不同等等。比如,使用词频的截面数据对话语体系的变迁进行分析;通过运用社会网络分析、聚类分析方法从而实现对概念结构模型的估计等等。
词频分析是计算机辅助进行大数据话语分析的基础。目前在这方面的研究,已经有了比较成熟的软件,也有一些通用的标准。比如,中国科学院计算技术研究所多年研制成功的汉语词法分析系统ICTCLAS (Institute of Computing Technology,Chinese Lexical Analysis System),功能包括了中文分词、词性标注、命名实体识别、新词识别等功能,同时支持用户词典。其内核已经升级6次,到ICTCLAS3.0。该软件分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,使用起来也很方便。
词频分析可以直接分析到特定文本内各种词出现的频率,这种分析特别适合在文本量较大的文件中快速发现出现次数较多的词语,并从中提炼出重要的主题。在大数据环境下,文本数量会变得异常庞大,可能不只是几万字,甚至是几M或者是几G,甚至是几个T的字节。我们很难想象在这样庞大的文本当中以人工阅读的方式发现规律,但如果使用计算机辅助,这样的工作就能够很轻松地完成了。比如,从新华网获取十八届四中全会公报,分词后对词频进行统计后我们发现,“法治”出现50次、“依法”出现46次、“推进”出现33次、“法律”出现29次,“社会主义”出现29次。这是全部文本中出现次数最高的前5名。根据这些内容可以做出一个基本的假设,即这次全会是围绕着社会主义依法治国展开的一次全会,这与这次全会的主题是完全相符的。
词云是在词频分析基础上的一种呈现,根据词语频次、权重以可视化的方式呈现出来,在一些基本词频描述中十分常见。它以大小、颜色、形状等方式对词频进行可视化的处理,能够十分直观、形象地反映文档中词频的分布情况,在话语文本分析中应用非常多。比如,把1990至2000年间的以民主为题的论文摘要做一个词频统计然后再做词频分析,我们会得到这样一个词云图:
图1 民主的词云(略)
通过此词云图,可以非常形象地发现,在这些文本当中,民主出现的频率是最高的,其次是民主派、政治、国家、公共、经济等词。当然,这个词云也会把“between”、“other”这样一些没有实际意义的词算在里面。一般软件会允许我们就这些内容的列表进行编辑,以去除那些对研究目的可能没什么贡献的词,以使词云更具有启发性。
在政治话语分析中,词频分析与时间序列的结合,会使我们更清晰地看到关键词的变迁,并从这些关键词的变迁来理解政治话语的变迁,甚至进而理解理论的变迁,把握一个时代的政治知识、政治价值、政治观念和意识形态。比如,改革开放以来,中国的经济与社会发生了巨大变化,这直接带来了政治话语的变化。比如,“专政”这一概念就不再被人们提起,逐渐淡出政治话语体系。在词频分析当中,我们可以印证这一结果。比如,“专政”在词频分析的结果中呈现不断的下降趋势。十二大“专政”出现最多,十三大有所下降,十四大又有所回升,但在十五大以后直线下降,直到十八大完全消失。目前来看,“专政”这个词基本已经淡出中国政治的关键词。
在这些纷繁复杂的变化当中,仍然有很多东西是不变的。比如,“人民”这个词语在中国革命期间就是一个关键词。随着改革开放的不断深入,这一概念并没有出现淡化的现象而是呈现出不断发展的态势。如果用覆盖率进行分析,改革开放的过程中,这一概念呈现不断攀升的趋势。
从这些变与不变当中,我们发现,中国的话语变迁不是否定性的革命,而是替代性的变革。在不否定原有话语体系的前提下,中国特色社会主义政治话语体系当中不断有新的话语被创造出来。比如,不否定“革命”,但用“改革”进行了替代;不否定“专政”,但用“法治”进行替代。
另外,还可以对不同群体的话语体系进行分析。比如,在中国政治传播的过程中,一直存在着官方话语体系、学术话语体系和民间话语体系的争论。但是,当我们就某些主题进行话语体系的文本分析时我们会发现,这些话语体系会共享某些关键词,出现学术话语体系和官方话语体系高度契合的状况。
针对不同的话语分析要求,应该使用不同的政治话语分析手段。词共现指的是“一个句子中相邻或相近的单词之间极大可能存在语法或语义上的相关”,基于这种现象而进行的词共现分析广泛地运用于基于关键词的信息检索、话题与热点问题发现、文本分类聚类、领域文本分析、社团挖掘等自然语言处理领域。[1]
可以运用文本挖掘的方法对文本的语义进行分析,根据词频建立起模型,进行综合分析。比如,对“全面从严治党”进行词频结构模型的分析,可以看到,在提及“全面从严治党”的145个段落当中,提到“群众基础”、“群众路线”是163次,“执政能力”73次,“反腐败”123次,“先进性统一”56次。这样,我们基本可以得到以下这样一个模型,以反映全面从严治党的必然性。
图2 全面从严治党必然性的文本模型与词频分析(略)
词频分析的基本原理在于词频与重要性成正比,也就是说,词频越高,词的重要性就越高;相反,词频越低,重要性越低。一般来讲,这个原理是成立的。从前面举的例子,我们也能发现这一规律。有一句流行语叫:“重要的话要说三遍”,说的就是说得越多,越重要。但是,这并不是在任何条件下都是成立的。有的时候,词频较低的关键词也可能正是重要的主题,只是这一主题没有被强调出来而已。因此,词频分析必须要辅以定性的理论基础。
计算机辅助大数据政治话语分析是综合运用语言学、信息管理学、政治学等多个学科的知识,将定性与定量结合起来的一种研究方法,在政治学研究的领域还是比较新鲜的事物。如何更好地把自然语言处理与信息检索等信息通信技术运用到政治话语的分析当中来,既需要政治学定性研究的积累,同时也需要其他学科定量研究的成果。也就是说,这一分析路径还存在着很多值得进一步深入探讨的问题,其缺点也很多,不能代替人工分析,需要进一步完善。比如,如何更好地建立数据库,获取要研究的全部文本。还有就是这种词共现的分析方法本身也存在着一系列的问题,比如,不能简单地用计算机统计的词频来反映词与词之间关联的紧密性,仍然需要更为精细的人工分析。最重要的是,计算机辅助进行话语分析有量化的特点,必须跟定性的分析相结合。如果没有强大的知识基础和规范性的理论体系,在进行定量分析的时候容易走偏。此外,必须承认计算机辅助进行大数据文本分析是有意义的,必须要有理论的范式和模型。
[作者简介]佟德志,天津师范大学政治文化与政治文明建设研究院教授,政治与行政学院院长。
政治话语体系在政治学的研究当中居于非常重要的地位,是我们分析政治知识、观念、价值以及意识形态的重要工具。伴随着信息通信技术的来临,越来越多的政治话语文本能够更加快捷、方便地以大数据的方式获得,并用计算机辅助进行政治话语分析。这为我们更加准确、更加科学地分析政治话语提供了基础。
从某种程度上讲,学术研究必然是以话语权为中心的。首先要明白别人讲的一套概念和命题,这些都是话语体系最重要的元素;其次,还要用一套概念和命题把自己的思想表达出来,这实际上会形成一套话语体系。随着人们的学习和交流,这些话语体系会形成一定的模式,决定了学术研究的基本样式。
事实上,我们可以把政治话语简单地分成三类。一是官方话语体系,这在中国的分析里是非常重要的。中国的话语确实有用,官方话语代表了大致的政治走向。实际上,在西方分析里,官方话语对社会的政治话语体系的影响就不像中国这么重要。二是民间话语。民间话语的分析会把话语的分析引入更为细致,也更为深入的普通民众的精神境界,理解他们的想法。更加重要的是,官方话语必须跟民间话语相互契合,如果契合度不够,必然会出现裂隙,甚至会影响到官方话语的存续。三是学术话语。它既不同于官方话语,也不同于民间话语,但又与这两种语言有着千丝万缕的联系。
传统的政治话语分析倾向于精英话语分析。比如西方政治思想史的研究,实际上就是在分析这些像柏拉图、亚里士多德、霍布斯、洛克、卢梭、孟德斯鸠这些大哲学家、大思想家的政治话语。但是,如果太过注重精英的话语,就会出现一系列问题。比如,无法理解普通民众的日常想法;更无法形成对当时时代的基本认识。官方话语的文本有限,因此更容易成为学者研究的重点。这导致真正对于民间话语的分析是比较少的。出现这种问题的关键原因是数据太多难以处理,民间话语不是几个小时或者几个T的容量,一般的学术是没办法分析海量民间话语的。现在借助互联网抓取话语并使用计算机软件进行分析,为我们运用计算机辅助进行文本分析打开了广阔天地。
最常用的方法可以包括词频分析、词云分析、情感分析、流量分析、聚类和分类分析、社会网络分析等。有一些方法已经运用得非常广泛了,比如,词频分析和词云分析。比如情感分析方法,运用的结果在社会科学领域还比较少。社会网络分析虽然运用还不多,但是潜力较大,有着广阔的运用前景。同时,这些分析方法还可以同时间、地点等组合在一起,从而分析话语体系的变迁、话语体系在空间上的不同等等。比如,使用词频的截面数据对话语体系的变迁进行分析;通过运用社会网络分析、聚类分析方法从而实现对概念结构模型的估计等等。
词频分析是计算机辅助进行大数据话语分析的基础。目前在这方面的研究,已经有了比较成熟的软件,也有一些通用的标准。比如,中国科学院计算技术研究所多年研制成功的汉语词法分析系统ICTCLAS (Institute of Computing Technology,Chinese Lexical Analysis System),功能包括了中文分词、词性标注、命名实体识别、新词识别等功能,同时支持用户词典。其内核已经升级6次,到ICTCLAS3.0。该软件分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,使用起来也很方便。
词频分析可以直接分析到特定文本内各种词出现的频率,这种分析特别适合在文本量较大的文件中快速发现出现次数较多的词语,并从中提炼出重要的主题。在大数据环境下,文本数量会变得异常庞大,可能不只是几万字,甚至是几M或者是几G,甚至是几个T的字节。我们很难想象在这样庞大的文本当中以人工阅读的方式发现规律,但如果使用计算机辅助,这样的工作就能够很轻松地完成了。比如,从新华网获取十八届四中全会公报,分词后对词频进行统计后我们发现,“法治”出现50次、“依法”出现46次、“推进”出现33次、“法律”出现29次,“社会主义”出现29次。这是全部文本中出现次数最高的前5名。根据这些内容可以做出一个基本的假设,即这次全会是围绕着社会主义依法治国展开的一次全会,这与这次全会的主题是完全相符的。
词云是在词频分析基础上的一种呈现,根据词语频次、权重以可视化的方式呈现出来,在一些基本词频描述中十分常见。它以大小、颜色、形状等方式对词频进行可视化的处理,能够十分直观、形象地反映文档中词频的分布情况,在话语文本分析中应用非常多。比如,把1990至2000年间的以民主为题的论文摘要做一个词频统计然后再做词频分析,我们会得到这样一个词云图:
图1 民主的词云(略)
通过此词云图,可以非常形象地发现,在这些文本当中,民主出现的频率是最高的,其次是民主派、政治、国家、公共、经济等词。当然,这个词云也会把“between”、“other”这样一些没有实际意义的词算在里面。一般软件会允许我们就这些内容的列表进行编辑,以去除那些对研究目的可能没什么贡献的词,以使词云更具有启发性。
在政治话语分析中,词频分析与时间序列的结合,会使我们更清晰地看到关键词的变迁,并从这些关键词的变迁来理解政治话语的变迁,甚至进而理解理论的变迁,把握一个时代的政治知识、政治价值、政治观念和意识形态。比如,改革开放以来,中国的经济与社会发生了巨大变化,这直接带来了政治话语的变化。比如,“专政”这一概念就不再被人们提起,逐渐淡出政治话语体系。在词频分析当中,我们可以印证这一结果。比如,“专政”在词频分析的结果中呈现不断的下降趋势。十二大“专政”出现最多,十三大有所下降,十四大又有所回升,但在十五大以后直线下降,直到十八大完全消失。目前来看,“专政”这个词基本已经淡出中国政治的关键词。
在这些纷繁复杂的变化当中,仍然有很多东西是不变的。比如,“人民”这个词语在中国革命期间就是一个关键词。随着改革开放的不断深入,这一概念并没有出现淡化的现象而是呈现出不断发展的态势。如果用覆盖率进行分析,改革开放的过程中,这一概念呈现不断攀升的趋势。
从这些变与不变当中,我们发现,中国的话语变迁不是否定性的革命,而是替代性的变革。在不否定原有话语体系的前提下,中国特色社会主义政治话语体系当中不断有新的话语被创造出来。比如,不否定“革命”,但用“改革”进行了替代;不否定“专政”,但用“法治”进行替代。
另外,还可以对不同群体的话语体系进行分析。比如,在中国政治传播的过程中,一直存在着官方话语体系、学术话语体系和民间话语体系的争论。但是,当我们就某些主题进行话语体系的文本分析时我们会发现,这些话语体系会共享某些关键词,出现学术话语体系和官方话语体系高度契合的状况。
针对不同的话语分析要求,应该使用不同的政治话语分析手段。词共现指的是“一个句子中相邻或相近的单词之间极大可能存在语法或语义上的相关”,基于这种现象而进行的词共现分析广泛地运用于基于关键词的信息检索、话题与热点问题发现、文本分类聚类、领域文本分析、社团挖掘等自然语言处理领域。[1]
可以运用文本挖掘的方法对文本的语义进行分析,根据词频建立起模型,进行综合分析。比如,对“全面从严治党”进行词频结构模型的分析,可以看到,在提及“全面从严治党”的145个段落当中,提到“群众基础”、“群众路线”是163次,“执政能力”73次,“反腐败”123次,“先进性统一”56次。这样,我们基本可以得到以下这样一个模型,以反映全面从严治党的必然性。
图2 全面从严治党必然性的文本模型与词频分析(略)
词频分析的基本原理在于词频与重要性成正比,也就是说,词频越高,词的重要性就越高;相反,词频越低,重要性越低。一般来讲,这个原理是成立的。从前面举的例子,我们也能发现这一规律。有一句流行语叫:“重要的话要说三遍”,说的就是说得越多,越重要。但是,这并不是在任何条件下都是成立的。有的时候,词频较低的关键词也可能正是重要的主题,只是这一主题没有被强调出来而已。因此,词频分析必须要辅以定性的理论基础。
计算机辅助大数据政治话语分析是综合运用语言学、信息管理学、政治学等多个学科的知识,将定性与定量结合起来的一种研究方法,在政治学研究的领域还是比较新鲜的事物。如何更好地把自然语言处理与信息检索等信息通信技术运用到政治话语的分析当中来,既需要政治学定性研究的积累,同时也需要其他学科定量研究的成果。也就是说,这一分析路径还存在着很多值得进一步深入探讨的问题,其缺点也很多,不能代替人工分析,需要进一步完善。比如,如何更好地建立数据库,获取要研究的全部文本。还有就是这种词共现的分析方法本身也存在着一系列的问题,比如,不能简单地用计算机统计的词频来反映词与词之间关联的紧密性,仍然需要更为精细的人工分析。最重要的是,计算机辅助进行话语分析有量化的特点,必须跟定性的分析相结合。如果没有强大的知识基础和规范性的理论体系,在进行定量分析的时候容易走偏。此外,必须承认计算机辅助进行大数据文本分析是有意义的,必须要有理论的范式和模型。
[作者简介]佟德志,天津师范大学政治文化与政治文明建设研究院教授,政治与行政学院院长。
责任人编辑:万鹏、谢磊
- 标签:
上一篇: 中国道路与中国话语建构
下一篇: 中国话语与中国实践