第谷读书会主讲 | ASR 论文 | The Geometry of Culture

通过词向量解读文化内涵

Posted by BenYourKing on September 30, 2019

You shall know a word by the company it keeps. —J.R. Firth
You shall know a person by the companion he keeps . —Ben.YourKing


前言
本期 第谷读书会,由本人Ben.YourKing主讲发表在 ASR 上的文章。

论文信息

《The Geometry of Culture: Analyzing the Meanings of Class through Word Embeddings》
原文链接

视频回顾

详情可观看集智俱乐部,第谷读书会 ,视频链接 : The Geometry of Culture

笔记总结

笔记总结发布在,第谷读书会 微信公众号,推文链接 : 读书笔记


论文摘要

数字化时代,产生了海量的文本数据信息,但是传统的文本分析方法,诸如主题模型、语义网络分析,话语分析、编码内容分析,显然已经不适用了,无法捕捉海量文本当中蕴含的复杂又微妙的信息。这引发了对自然语言处理和机器学习工具的需求,利用这些工具可以过滤、搜索文本,并将其转换为有价值的数据。词向量是一种新型的、前沿的分析方法。

为了证明这种方法的强大:

  1. 研究者首先通过特定的语料库训练词向量语言模型,将词语嵌入到高维空间里面,从而获取词语的词向量。然后选取词对,构建文化维度(男性——女性;底层——上层;黑人——白人等等)。随后,通过对比词语在词向量空间的一些维度上的投影值,与基于人工打分调查的词语在这些文化维度上的评分,二者作相关分析,发现具有较高的一致性,借此证明了词嵌入语言模型得到的词向量,能够准确地反映出隐含的人类文化观念。

  2. 通过词向量模型,我们可以考察词语的文化内涵,例如,将职业名称放在”性别维度”上,我们发现”护士”和”保姆”等传统女性职业位于性别维度的女性化的一端,而”工程师”和”律师”等传统男性职业则位于相反的男性化一端。构建不同内涵的文化维度,可以进一步分析文化维度之间的交叉相关性,例如阶级和贫富这两个维度,存在较大的相关性,教育和贫富之间也存在很大的相关性。

  3. 除此之外,嵌入词模型不仅可以洞察特定文化系统的语义结构,而且可以有效地用于分析文化差异和变化。通过比较不同时间段的文本训练得到的词向量,可以研究词语的文化内涵是如何发生历史性转变的。在不同文化背景下产生的文本语料上训练的词向量,可以直接检验不同社会群体之间词语和类别在意义上的差异。研究者通过对20世纪美国社会性别和阶级联系共同演变的纵向分析,以及对美国和英国社会性别和阶级相关的标记词进行比较分析,来探讨文化差异和历史流变。

研究启示

Each person is a function of his social context.