图源: phoelixDE/ShutterStock.com
2020年,超过44亿互联网用户通过社交媒体帖子、评论、推荐以及类似的互动产生了惊人的数据量。从这些数据中收集的见解对于指导企业和创新者进行产品开发、市场营销和客户支持都是无价之宝。但是,由于人类语言和文化背景的复杂性,让机器很难理解和解释客户提供的观点性数据,因此提取见解极具挑战性。自然语言处理(NLP)和机器学习(ML)等工具使计算机能够理解人类语言以及含义。此外,情感分析是人工智能(AI)研究的一个前沿领域,它可以帮助机器理解客户提供的非结构化数据,并将观点解释为肯定、否定或中立。
01
语义分析中的语言复杂性
为了解自然语言处理中的情感分析,让我们先来看看餐厅点评中的一个简单表述:“汤很不错”,对其中情感的分析包括三个步骤:
STEP-1
确定表述、语句或全文中是否包含观点。
STEP-2
了解这些观点是肯定、否定还是中立的(也就是所谓的极性)。
STEP-3
确定观点的目标。
在本例中,对于餐厅提供的特定餐品,情感分析得出的无疑是正面结论。但是,其他例子则不太直接,例如与之类似的另一个表述:“啤酒很凉”。许多人会认为这种观点是正面的,因为他们喜欢这样的啤酒,但是凉这个词如果换到其他语境中,它的“极性”可能就是负面的。例如,“咖啡很凉”这个表述的结构和形容词完全相同,但许多人都不会认为咖啡凉了是一件好事。
其他语言复杂性也带来了更多的挑战,例如包含多种情感的表述,比如说:“菜不错,就是汤有点凉”。在这里,我们根据客户对汤冷、汤热的偏好,会得出正面、负面和模棱两可的情绪。同样,如果说“汤热乎乎的,但是啤酒很凉”,对大多数人来说这都是一种正面表述,但在某种潜在的客户语境下却模棱两可。
修饰语进一步模糊了“极性”之间的界限。例如,可以想象一下这样一条意见:“工作人员太过热情了”,此时,我们还必须考虑讽刺、嘲讽或修辞手法,这也就为正确识别情绪带来了难题。例如“我们等了一个多小时了,这服务也太好了吧!”这种表述在训练数据中往往不多见,并且很难通过系统性的方式来手动编码。
02
语义分析中的文化变量
将个人、文化或环境偏好纳入考量后,判断观点的“极性”就变得更具挑战性。例如,现在我们来分析一下客户对日式旅馆的评论。传统的日式旅馆往往都豪华昂贵,但配备的沐浴设施是公共洗浴区而非独立浴室。
将有无某种东西归类为正面或负面看起来似乎直截了当。例如:“淋浴间有污垢”或“有一个儿童游泳池”。然而日式旅馆的例子说明了为什么将文化变量和个人喜好纳入考虑对于获得有用的数据见解至关重要。在日本,客人认为公共洗浴区是一个正面的属性;相比之下,大多数欧洲游客会对此持负面看法,对费用较高的酒店而言尤其如此。这个例子所表现的还只是一个特征和两种文化。
03
解决自然语言处理中的语言和文化多样性问题
在自然语言处理中,可能需要在整个文档级别以及段落和句子级别分析情感,往往做完了这一步才能汇总出结果。全文档分析非常有用,而段落和句子级别的分析可以产生更细粒度和相对准确的结果(即除了可以识别对产品整体的情感外,还可以识别有关特定产品特征的情感)。这一过程的挑战来自于如何制订出一套词汇,并将这套词汇作为一组规则,让机器用它来将情感分类为正面、负面或中立。
对此,我们可以先从许多免费工具和资源入手,它们都已经在公开数据上进行过训练。例如,Natural Language Toolkit、spaCy和TextBlob等软件库都包括情绪模型,而且还允许使用用户数据进行再训练。如果您不喜欢写代码,那么Google Cloud Platform或Microsoft Azure等云服务也可以让您立即开始进行情绪分析:只需将需要分析的文本粘贴到浏览器中,然后就可以构建您的应用了。
除了原型之外,数据集和机器学习模型还应进一步解决语言和文化复杂性的问题。这就意味着:
在计划上:需要找出一种结构化的方法来发现多样性和有用的深入见解。例如,分析您的数据以了解深层的语言和文化、语气、来源、作者群体特征,然后咨询语言学家以解释这些要素。通过采访与作者同属一个群体的人来进一步细化您的方法,以准确了解微妙差别和语境。
在训练数据上:需要确定多样化处理所需的示例,并添加人工提供的注释。这也可能意味着查阅诸如词典等知识库、为特定问题添加更多训练数据,或者在某些情况下,从数据中删除对结果的客观真实性构成损害的不良或误导性内容。
在建模上:需要找到相应的方法,以数学上可处理的方式来表示句子。例如,将任意文本表示为数值向量的词嵌入,这种方法可用来将语境中使用的单词映射为相应的正面、负面或中立情绪。
理想情况下,数据分析会显式或隐式地基于各客户的偏好进行。但是,这种分析相当麻烦,而且在许多情况下,如果用户资料无法辨识,就无法进行分析。更易采用的方法是根据地区和语言分析数据,然后使用单独的训练示例对文化差异进行建模。
04
结论
客户在媒体帖子、评论、推荐中提供的数据为企业和创新者提供了宝贵的见解。自然语言和文化的复杂性让由人工智能驱动的机器难以理解客户的观点;但是,情感分析可以帮助确保这些方面被捕获并反映在见解中。
您可以从使用免费工具和资源入手,但是解决语言和文化复杂性的问题具有挑战性,需要大量的计划、数据准备和建模。提高对语言和文化复杂性的认识是获得有用的见解的良好起点,也是一条极有价值的途径,让您能够进一步了解客户和他们的需求。