从社交媒体的帖子和短信息,到数字政府的文件和档案,研究人员正在被大量反映社会世界的文本轰炸。这些文本数据为社会科学、人文和工业中的基本问题提供了前所未有的见解。与此同时,新的机器学习工具正在迅速改变科学和商业的开展方式。在本书中,作者对如何结合文本数据来源、机器学习工具和社会科学领域的研究提供了新的见解,探讨了如何将文本作为数据进行系统性的研究——包括表达、发现、测量、预测和因果推理,并提供了与之对应的迭代和归纳方法。

通过结合工业和学术界不同领域的学科和研究方法——计算机科学和社会科学、定性和定量,本书为当前时代分析大量文本提供了系统性的方法和资源。但作者指出,随着网络的不断深入发展以及文本信息量的增加,如何有效地使用机器学习分析文本的挑战依然存在。(《文本即数据:机器学习和社会科学的新框架》(Text as Data: A New Framework for Machine Learning and the Social Sciences)贾斯汀·格里默(Justin Grimmer)等著,普林斯顿大学出版社,2022年1月。)