《如何用R作语言学研究：数据探索与统计分析》评介

doi:10.12002/j.bisu.248

《如何用R作语言学研究：数据探索与统计分析》评介

陈巧云¹, 江桂英²

1. 集美大学外国语学院,361021

2. 厦门大学外文学院,361005

A Review on How to Do Linguistics with R: Data Exploration and Statistical Analysis

Chen Qiaoyun¹, Jiang Guiying²

1. School of Foreign languages, Jimei University, Xiamen 361021, China

2. School of Foreign Languages and Cultures, Xiamen University, Xiamen 361005, China

收稿日期: 2018-02-22 网络出版日期: 2019-10-15

基金资助:

本文为2015年国家社科基金项目“非言语情绪交互与外语课堂教学有效性研究”(项目编号：15BYY082)

Received: 2018-02-22 Online: 2019-10-15

作者简介 About authors

陈巧云,集美大学外国语学院,361021,研究方向：认知语言学电子邮箱：chenchen.cqyfj@163.com 。

江桂英,厦门大学外文学院教授,博士生导师,361005,研究方向：认知语言学电子邮箱：gyjiang118@126.com 。

摘要

在语言学研究定量转向趋势日益显著的背景下,《如何用R作语言学研究：数据挖掘与统计分析》一书的推出受到广泛关注和好评。该著作以R环境为操作平台,通过实例为语言学研究梳理了一系列数据挖掘和统计分析的方法。本书用平实易懂的语言,循序渐进地引介了各类研究方法,是一本为语言研究者量身打造的方法论工具书。本文对该书进行评介,简述书中四个主要组成部分的内容,评价该书的学术贡献并指出其不足之处,以期为国内的语言学研究提供方法论支持,推动和促进语言学领域实现更进一步的定量转向。

关键词： 语言学方法论 ; 定量研究方法 ; 多元分析 ; R语言

Abstract

Under the background of increasingly prominent quantitative turn in linguistic studies, the introduction of How to Do Linguistics with R: Data Exploration and Statistical Analysis has been widely concerned and praised. Taking R environment as the operation platform, this book presents through examples a series of methods of data exploration and statistical analysis for linguistic investigations, ranging from descriptive statistics through regression analysis to multidimensional scaling. Techniques of data visualization have been given much emphasis throughout the book and corresponding R scripts are provided. Another notable characteristic is that the introduction of the methods centers on solving intriguing linguistic problems. As a methodology reference book tailored for language researchers, it consists of four major parts that guide readers, in a step-by-step manner, through a variety of statistical methods and insightful analyses. Written in plain and friendly language, this book is particularly useful for linguists, whether they are experienced or inexperienced in statistical computing. It is also a valuable pedagogical resource for quantitative linguistics. This paper reviews the book by summarizing the contents of its four main parts, discussing its contributions and pointing out the limitations, with an aim to provide methodological support for domestic linguistic studies and promote the trend of quantitative turn.

Keywords： linguistic methodology ; quantitative research methods ; multivariate analysis ; R-language

PDF (1266KB) 摘要页面多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

引用本文

陈巧云, 江桂英. 《如何用R作语言学研究：数据探索与统计分析》评介. 北京第二外国语学院学报, 2019, 41(5): 126-132. DOI:10.12002/j.bisu.248

Chen Qiaoyun, Jiang Guiying. A Review on How to Do Linguistics with R: Data Exploration and Statistical Analysis. JOURNAL OF BEIJING INTERNATIONAL STUDIES UNIVERSITY, 2019, 41(5): 126-132. DOI:10.12002/j.bisu.248

引言

近年来,语言学研究的定量转向趋势日益显著,定量分析法的使用在国际语言学研究中比比皆是。Levshina N所著《如何用R作语言学研究：数据挖掘与统计分析》一书（How to Do Linguistics with R：Data Exploration and Statistical Analysis,2015）展示了如何将探索性和验证性统计分析方法应用到语言学各个领域的研究,旨在为语言学研究,尤其是基于使用的语言学（usage-based linguistics）和功能语言学领域提供普适性的方法论支持。作者以R环境作为操作平台,通过语言学案例引导读者如何从语言学数据中挖掘有价值的信息。鉴于该书介绍的研究方法能够助力国内的语言研究,本文拟对其进行介绍和简要评价。

一、内容简介

全书分为四大部分,第一部分（1~2章）和第二部分（3~4章）简要介绍相关基础知识,第三部分（5~14章）介绍假设检验有关的统计方法,第四部分（15~20章）聚焦探索性统计分析方法在语言学研究中的应用。

第一部分为本书的铺垫章节。第1章介绍基本统计概念,如p值和显著性水平,探讨如何提出和检验假设。第2章通过演示一些基本操作,如R的下载安装、数据的导入与导出等,引导读者了解并开始使用该统计软件。

第二部分介绍对定量变量和定性变量进行描述性分析的方法,以实现对原始数据的初步整理。第3章重点讨论如何在R环境中衡量定量变量的集中和离散趋势,如何以图示化手段揭示数据的分布情况并发现极端值。第4章指出,分析定性变量可借助统计和图示化工具,涉及的重要概念有频数和比例等。整理和分析数据是统计分析的起点,这一部分的内容为后面的章节奠定了基础。

第三部分篇幅最大,包含10个章节,主要探讨假设检验和衡量效应值的方法。第5章关注两组样本的平均数差异检验,包括t检验、Wilcoxon检验和Mann-Whiteney检验。本章详细列举了各类检验需要满足的条件,指出研究者需视情况选取合适的检验方法。第6章解释线性相关分析的原理,探索两个定量变量之间的关系。相关分析大致步骤如下：整理数据并图示化,了解变量间的大体关系;计算相关系数,考量相关程度的强弱;检验相关的显著性,即进行相关系数的假设检验。第7章承上启下,深入探讨线性回归分析。本章讨论的重点是多元线性回归建模、结果解读和模型拟合优度测试。线性回归建模一方面能够确立和解释一个因变量（须为定量变量）和一个或多个自变量（可为定量或定性变量）之间的定量关系,揭示自变量间的交互关系;另一方面利用求得的回归方程式,能够预测新数据可能产生的结果。其他重要内容包括线性回归建模需满足的条件、自变量的选择、极端值的检测和处理等。最后,基于自抽样的回归分析等非参数回归模型,能够应对线性回归分析条件得不到满足时的情况。第8章主题为实验语言学中广泛使用的方差分析,它考察不同组别之间的差异。本章着重介绍了独立单因素方差分析、独立多因素方差分析、重复测量方差分析和混合方差分析。作者指出,方差分析同样需要满足某些特定条件,通过事后检验,它可以帮助研究者发现存在显著差异的具体组别。第9章讨论两个分类变量之间的关联强度,其量化方式有比值比、克拉默V系数（Cramér’s V）和ϕ系数,即所谓的效应值。衡量关联强度显著性可借助卡方检验和Fisher精确检验。第10章将关联分析应用到词汇搭配分析和构式搭配分析。作者介绍了词汇与其他语言结构间关联性的量化和图示化方式。第11章着重讨论了区别性词位分析法,它属于构式搭配分析法的范畴。此分析法通过统计方法确定构式的区别性词位,从而对比两个或多个近义构式。第12和13章分别介绍二元和多元逻辑斯蒂回归建模、其结果的解读和模型拟合优度评估。与多元线性回归模型不同的是,该方法的因变量为二元或多元分布的分类变量,在多元概率语法和词汇（multifactorial probabilistic grammar and lexicology）研究中得到广泛应用。第14章介绍两种非参数回归和分类模型——条件推断决策树和随机森林。当自变量间存在复杂的交互关系,或者样本规模较小但自变量数目较多时,这两种方法可以发挥作用。

第四部分介绍探索性多元统计分析方法,旨在揭示数据的潜在结构。第15章的内容涵盖行为档案（behavioral profile）分析法、距离度量和聚类分析。使用行为档案分析法研究词汇或构式语义时,研究者需要从语料库中提取一定数量的实例,然后以句子为单位对其进行人工标注,编码语义、句法等反映语境特征的信息。将这些信息转换成为行为档案矢量,在此基础上进一步计算距离矩阵（如近义词之间或多义词各个义项之间的距离矩阵）。最后利用距离矩阵进行聚类分析,探索研究对象之间的聚类情况。本章还介绍了确定最优聚类方案和验证聚类结果的方法。第16章探讨语义向量空间模型,它源于自然语言处理领域,以数据驱动和自下而上的方式研究语义。该方法与行为档案分析法的相同之处在于,它同样关注研究对象所处的语境特征;不同之处在于,研究对象与语境中其他单位的共现信息是自动提取的,也无需人工标注。大致步骤如下：以加权共现频率为基础生成语义向量;以余弦距离作为相似性的度量方式,计算语义向量相似度;探索语义向量相似度,或将其转化为距离矩阵,进而使用聚类分析等方法挖掘更多信息。第17章介绍了处理多元数据常用方法之一的多维尺度分析。这是一种降维的方法,它将多维空间的研究对象借助算法呈现在低维空间里（通常为二维或三维空间）,方便进行距离测算、定位、分析和归类。该方法已在变异语言学的研究中得到应用。本章另外介绍了衡量多维尺度分析拟合优度的重要指标、多维尺度分析方案的评估和诊断等内容。第18章以语域差异的多维分析为例,阐述了针对定量变量的主成分分析法和因素分析法。这两种方法都旨在简化数据结构,体现了降维的思想。前者在尽量保留原始变量信息的前提下,将多个交互相关的变量进行变换后,导出少数几个互不相关的主成分,以便于分析解释原始变量间的关系。后者需事先指定因素的个数,然后将诸多原始变量综合为数个影响因素,力求用这些因素反映原始变量间的关系。第19章与范畴理论相结合,介绍针对定性变量的简单对应分析和多重对应分析,演示了词汇范畴结构和变异的研究案例。对应分析也是一种降维方法,将多个分类变量以点集合的形式展现在二维或三维的关联图上,方便研究者直观地描述和分析变量间的对应关系,以及同一变量各分类水平间的差异性或相似性。本书最后一章研究如何使用动图追踪和对比两个构式的搭配变化。

二、学术贡献

总体而言,本书的重要贡献在于为语言学研究梳理了可利用的统计分析方法,并引介作为开源编程语言和操作环境的R,特色鲜明地将三者联合起来,是一本为语言研究者量身打造的方法论工具书。

首先,综观书中所引介的研究方法可知,该书以服务语言学研究为导向,很好地实现了统计学和语言学的结合。作者充分考虑目标受众的需求和用户体验,一方面旁征博引,用平实易懂的语言详细地解释基本的统计原理、程序和测试方法,并为每一种方法的介绍配套相应的语言学研究实例和数据,帮助读者快速入门,开启语言研究的新思路。另一方面,作者本人为具有实战经验的语言研究工作者,因此在介绍统计分析方法时,能够立足于语言研究的实际,阐述大数据时代统计分析如何为语言研究服务,这主要体现在以下两点：（1）本书介绍的方法紧扣语言研究的实际情况,针对性很强,如第12和13章介绍的二元和多元逻辑斯蒂回归模型。语言学研究的对象常包括两种或多种语言表达形式的选择,如两个或多个近义词、近义构式的选用。通过逻辑斯蒂回归建模,研究者能够确定多个语言及非语言因素的影响效应,进而预测说话者对语言形式的选择,为语言研究打开了新视角。又如对于语言学研究中常见的小规模数据和非正常数据,书中也提供了应对策略,如可采用非参数方法或者诸如自抽样等特殊方式进行处理。另外,对于某些方法的使用,如聚类分析,文中提供了相应的验证统计结果的方法,保证了语言研究的客观性。（2）在案例选取方面,作者颇具匠心,兼顾选例的典型性和参考性。书中使用的实例涵盖语料库语言学、实验语言学、语言本体研究、认知语言学等领域,且多数取材于作者或其他学者过去的研究,方便读者了解背景信息,根据自己的实际研究举一反三。

其次,本书介绍的方法应用面广,具有高度的实操性和可拓展性。选择R作为统计软件是本书的一大特色。R作为一种编程语言和操作环境,以其开源特征和强大的数据分析及可视化功能,受到越来越多语言学者的青睐（张炜炜、刘念,2016）。除了介绍可资利用的R软件包,作者为本书撰写了专用软件包Rling,内嵌了各个案例涉及的数据,以及多种统计、数据分析功能,供读者下载使用。作者鼓励读者动手参与实践,该书的配套网站不但提供了文中使用的所有R代码,以便读者在R平台上实际演练或在此基础上根据自己的研究实际加以修改运用,而且还提供了练习题,启发读者思考。在可拓展性方面,本书介绍的方法具有普遍适用性,为国内的定量语言研究提供了可借鉴的新方法。这些方法既可以独立使用,也可以根据实际研究情况进行组合利用,以发挥最大的功效。

最后,本书的组织结构设计合理,章节之间衔接自然,有助于读者构建系统的方法论图谱。作者以循序渐进、分门别类的方式介绍这些定量研究方法,既包括学界广受认可的方法,也包括一些目前新兴的方法。每章除了主体介绍部分,还适时提供一些实用的补充信息,以专列表框的方式呈现,帮助读者完善实际操作和拓展阅读面,如第15章附带介绍了各类距离度量、基于不同距离度量的聚类算法等,提供了更多的应用可能性。

综上,语言研究者基于此书可有效地开展实际研究工作：能够根据实际研究内容选择适当的统计方法;能够学会如何提出和检验语言学假设;能够理解统计术语;能够以简洁而富涵信息的图表展示研究发现;能够组合利用书中所介绍的方法,从不同视角看待和研究同一语言现象等。本书致力于启迪读者的创造性,帮助读者充分挖掘和分析语言学数据。

三、美中不足

尽管本书是综合介绍语言学统计分析方法的一本理想书籍,它也不可避免地存在一些局限之处。

首先,受限于本书的引介性质和篇幅,有些方法的介绍未能全面深入地展开。例如第16章的语义向量空间模型,书中介绍基于类符（type）的语义研究方法,而基于形符（token）的语义向量空间模型（Heylen et al.,2012/2015;Hilpert & Saavedra,2017）则未作任何介绍和说明。本书只关注统计分析方法的介绍,研究案例中使用现成的内嵌在Rling中的数据,因此读者无从了解原始数据的准备程序。然而,在某些方法的使用过程中,原始数据的质量对统计分析结果的准确性和可信度至关重要。例如,如果数据来源于语料库,而读者不了解数据提取过程中的注意事项,势必会影响这些方法的使用效果。

其次,该书介绍的方法基于R环境的使用,而全书对R的介绍集中在第2章和附录部分,远不足以应对实际操作中可能碰到的问题,因此对该书的充分使用需要读者额外付出更多努力去熟悉R环境及其语言。此外,读者缺乏与作者及其他学习者互动交流的平台,这一点对于需要依赖实战演练发挥作用的书籍来说,是一个明显的不足。

最后,书中存在个别疏漏问题,如5.3.2部分第一段的than应为that,6.4部分第二句中的use为多余等。这些不必要的小错误可能会对读者的理解造成一定困难,或在权威性方面失去些许份量。

结语

综上所述,从方法论视角来看,本书填补了定量语言学研究方法论的空缺,开拓了读者运用定量统计方法进行语言学研究的视野,对推动语言学的学科建设和深入发展具有积极作用。尽管存在一些不足,但瑕不掩瑜,本书不失为一本重要的基础性方法论工具书,颇具推荐价值。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Heylen

, Speelman

& Geeraerts

Looking at word meaning. An interactive visualization of semantic vector spaces for Dutch synsets

[C]//Proceedings of the EACL-2012 Joint Workshop of LINGVIS & UNCLH:Visualization of Language Patters and Uncovering Language History from Multilingual Resources. Avignon,France:Association for Computational Linguistics, 2012: 16~ 24.

[本文引用: 1]

[2]

Heylen

, Wielfaert

, Speelman

& Geeraerts

Monitoring polysemy: Word space models as a tool for large-scale lexical semantic analysis

[J]. Lingua, 2015(157):153~ 172.

[本文引用: 1]

[3]

Hilpert,

& Saavedra

D C

Using token-based semantic vector spaces for corpus-linguistic analyses： From practical applications to tests of theoretical claims

[J]. Corpus Linguistics and Linguistic Theory,https://doi.org/10.1515/cllt-2017-0009,2017-09-26/2017-11-05.

URL [本文引用: 1]

[4]

Levshina

. How to Do Linguistics with R: Data Exploration and Statistical Analysis[M]. Amsterdam: Benjamins, 2015.

[本文引用: 1]

[5]

张炜炜, 刘念 .

认知语言学定量研究的几种新方法

[J]. 外国语, 2016,39(1):71~ 79.

[本文引用: 1]

Looking at word meaning. An interactive visualization of semantic vector spaces for Dutch synsets

2012

... 首先,受限于本书的引介性质和篇幅,有些方法的介绍未能全面深入地展开.例如第16章的语义向量空间模型,书中介绍基于类符（type）的语义研究方法,而基于形符（token）的语义向量空间模型（Heylen et al.,2012/2015;Hilpert & Saavedra,2017）则未作任何介绍和说明.本书只关注统计分析方法的介绍,研究案例中使用现成的内嵌在Rling中的数据,因此读者无从了解原始数据的准备程序.然而,在某些方法的使用过程中,原始数据的质量对统计分析结果的准确性和可信度至关重要.例如,如果数据来源于语料库,而读者不了解数据提取过程中的注意事项,势必会影响这些方法的使用效果. ...

Monitoring polysemy: Word space models as a tool for large-scale lexical semantic analysis

2015

Using token-based semantic vector spaces for corpus-linguistic analyses： From practical applications to tests of theoretical claims

2015

... 近年来,语言学研究的定量转向趋势日益显著,定量分析法的使用在国际语言学研究中比比皆是.Levshina N所著《如何用R作语言学研究：数据挖掘与统计分析》一书（How to Do Linguistics with R：Data Exploration and Statistical Analysis,2015）展示了如何将探索性和验证性统计分析方法应用到语言学各个领域的研究,旨在为语言学研究,尤其是基于使用的语言学（usage-based linguistics）和功能语言学领域提供普适性的方法论支持.作者以R环境作为操作平台,通过语言学案例引导读者如何从语言学数据中挖掘有价值的信息.鉴于该书介绍的研究方法能够助力国内的语言研究,本文拟对其进行介绍和简要评价. ...

认知语言学定量研究的几种新方法

2016

... 其次,本书介绍的方法应用面广,具有高度的实操性和可拓展性.选择R作为统计软件是本书的一大特色.R作为一种编程语言和操作环境,以其开源特征和强大的数据分析及可视化功能,受到越来越多语言学者的青睐（张炜炜、刘念,2016）.除了介绍可资利用的R软件包,作者为本书撰写了专用软件包Rling,内嵌了各个案例涉及的数据,以及多种统计、数据分析功能,供读者下载使用.作者鼓励读者动手参与实践,该书的配套网站不但提供了文中使用的所有R代码,以便读者在R平台上实际演练或在此基础上根据自己的研究实际加以修改运用,而且还提供了练习题,启发读者思考.在可拓展性方面,本书介绍的方法具有普遍适用性,为国内的定量语言研究提供了可借鉴的新方法.这些方法既可以独立使用,也可以根据实际研究情况进行组合利用,以发挥最大的功效. ...

〈

〉