本篇文章2368字,读完约6分钟
雷锋。“雷锋”的公开号码。)出版社:这篇文章是雷锋发表的。由大数据摘要|大数据摘要授权。如果您需要重印,请联系授权。
当地时间10月9日,美国总统大选两位候选人将举行第二次公开辩论,特朗普和他的对手希拉里·克林顿将在圣路易斯的华盛顿大学举行第二次大选辩论,辩论将持续90分钟。
两位候选人都有自己独特的“言语风格”,通过语义分析和自然语言处理来分析他们的言语风格是很有趣的。本文运用自然语言处理方法对他们的总统提名演讲进行分析,发现他们在用词和演讲节奏方面有不同的特点。
数据科学可以应用于许多领域。从图像处理到人工智能的一切。语义分析在社交媒体监控中非常有用。这篇文章关注的是政治,而不是推特或脸书。
今年7月21日,唐纳德?在俄亥俄州克利夫兰举行的共和党全国代表大会的最后一天,特朗普接受了共和党总统提名。一周后,28日,希拉里·克林顿?克林顿在费城接受了民主党总统提名。
在家人和数千名粉丝的支持下,他们发表了提名演讲。本文对此进行分析,以便更好地理解这种政治沟通背后的深层含义。本文主要讨论三个特征:词汇、风格和节奏。
评估谁使用的词汇量最大的方法之一是看说话者使用了多少独特的单词。因此,有必要删除英语中没有意义的单词(如“the”、“a”、“of”等)。)。这些单词也停止使用单词:具体列表请参考此链接。其次,重复的单词只能计算一次。英语名词是单数和复数,不同个人时态的动词也用雪球词干算法处理:例如,领导者和领导者被算作一个词,am和are也被算作一个词。
注意:要了解更多关于雪球茎干算法,请参考这里。
我们发现特朗普的演讲词汇中约有13%是独一无二的(7460个单词中有965个不同的主词)。每个单词平均重复7.7次。希拉里·克林顿有17%的独特单词,每个单词平均重复6次。差别是显而易见的:特朗普80%的演讲只需要480个词,而希拉里需要665个词!额外的38%意味着我们开始得到一些结果。
它占候选人演讲词汇的80%
演讲的效率部分取决于演讲者的风格。本文试图找出两位候选人最喜欢的单词。寻找“特朗普粉丝”或“希拉里粉丝”这两个词,也就是找出候选人使用频率最高、竞争对手使用频率最低的词。例如,“真的”这个词在特朗普的演讲中出现了15次,在希拉里的演讲中只出现了一次。计算方法之一是计算每个单词的“优势比”。公式如下:
分子是一个单词出现在特朗普词汇中的概率,分母是同一个单词出现在希拉里文本中的概率。取对数使我们能够有效地排序:当两者相等时,对数值为0。否则,要么是负面的(希拉里),要么是正面的(特朗普)。结果如下:
几乎只在唐纳德身上见过?特朗普的话
几乎只在希拉里身上见过?克林顿的话
我们注意到的第一件事是,特朗普喜欢使用简短的常用词,这些词被反复使用:真的、好的、伟大的和有问题的。还有一点,我们可以感受到共和党候选人的一些偏见:墨西哥、中国、伊朗。总的来说,特朗普似乎更关注国际问题。他提到的大多数外交事务都是为了煽动恐惧和寻找替罪羊。
另一方面,希拉里·克林顿的词汇量更大。“希拉里·法纳”这个词相对来说比较少见。希拉里。克林顿提到的“美国”比特朗普多得多:27: 5。“希拉里·法纳”这个词汇表明希拉里的演讲更关注国内事务。她的典型话语包括:团结、竞选和努力。唐纳德。特朗普的名字也多次出现在她的演讲中。
认真的读者会发现“特朗普”这个词并没有出现在“希拉里·法纳”的词汇中。这是因为特朗普在演讲中多次(10次)提到自己的名字,从而拉低了这个比例。相比之下,希拉里的名字只被提到过两次:一次是在希拉里自己的演讲中(指她的丈夫比尔?克林顿),特朗普曾经提到过。此外,“希拉里·法纳”的“想要”一词在批评她的对手时出现(“他想分裂我们……”“他想让我们害怕未来和彼此”)。显然,希拉里谈到了特朗普,特朗普谈到了……他自己!
每个人都在谈论特朗普
我们也可以看看双方使用的词语。它们代表了双方的共识。毫不奇怪,它们是“工作”、“国家”和“思想”。他们都说了很多次“谢谢”,但方式不同:希拉里特别感谢一些人,而特朗普主要是在观众鼓掌时感谢他们。
由于背景不同,两位候选人都有自己的节奏。要评估语言的内在节奏,一个好的开始是把讲话分成许多句子,然后把句子分成单词。我们发现特朗普的演讲很长:有625个句子和7460个单词。希拉里·克林顿只用了405个句子和6088个单词。也就是说,特朗普使用的句子比他的对手多54%,而且比对手多23%。
特朗普的平均句子长度为12个单词,而希拉里的句子略长,平均每个句子15个单词。特朗普的大部分句子都很短:21%的演讲由5-6个短句组成。希拉里的句子在长度上更加一致,12个单词是最常见的。
奥巴马的刑期是特朗普和希拉里的总和
我们看到了特朗普和希拉里之间的一个明显区别:特朗普的演讲简单明了,而希拉里则更加多元化和冷静。但是等等!她并不罕见:在他的第一次提名演讲中,奥巴马平均每句话使用25.7个词,几乎是希拉里和特朗普的总和。奥巴马使用的重复词语也比希拉里少24%,比特朗普少42%。我认为这表明,尽管希拉里的节奏更慢,句子结构更复杂,但她的演讲风格仍然非常接近她的对手。
最后,自然语言处理不是一门精确的科学。只能给我们一些线索和元素来理解演讲。语料库也很短,需要更多的分析来提取更准确的特征。但是从这篇文章的分析中,我们发现了什么?
特朗普谈论“真实”、“好”和“非常好”的一切,而希拉里则谈论如何为美国“携手合作”。
特朗普在谈论自己,希拉里在谈论特朗普。尽管希拉里使用了更多的词汇和更复杂的句子结构,但她似乎或多或少采纳了特朗普的说话方式。
奥巴马的提名演讲(两次)采用了更大的词汇量和更复杂的句子结构,这表明特朗普颠覆性地简化了这样一个全国性的演讲。