Selecting Relevant Documents for Multilingual Content Analysis: An Evaluation of Keyword and Semantic Similarity Search Approaches

Sean Palicki; Stefanie Walter; Wouter van Atteveldt; Alice Beazer; Isaac Bravo

doi:10.5117/CCR2023.2.5.PALI

E-ISSN: 2665-9085

oa Selecting Relevant Documents for Multilingual Content Analysis: An Evaluation of Keyword and Semantic Similarity Search Approaches
Authors: Sean Palicki¹, Stefanie Walter², Wouter van Atteveldt³, Alice Beazer⁴ & Isaac Bravo⁵
View Affiliations Hide Affiliations

¹ Technical University of Munich ² Technical University of Munich ³ Vrije University Amsterdam ⁴ Technical University of Munich ⁵ Technical University of Munich
Publisher: Amsterdam University Press
Source: Computational Communication Research, Volume 5, Issue 2, Jan 2023, p. 1
DOI: https://doi.org/10.5117/CCR2023.2.5.PALI
Language: English

Abstract

Comparative research in communication often involves selecting and analyzing documents in multiple languages. Machine translation is an effective pre-processing step for automated content analysis, however its impact on data collection remains under-examined. Using a parallel language corpus of European Parliament debates, this paper evaluates machine translation as an approach for multilingual document retrieval, i.e., selecting documents for analysis. We compare several strategies for retrieving relevant multilingual documents, including 1) expert-validated search queries, 2) machine translated search queries, and 3) multilingual semantic similarity search, comparing them against monolingual searches, and describing how these strategies can impact results from topic modeling. Results show that expert-validated search queries achieve reliable results across languages, while the accuracy of machine translated search queries varies significantly between languages and impacts further analyses. Whereas semantic similarity search retrieved a similar subset of relevant documents across languages, results were less accurate than keyword approaches. In sum, validated translations of search queries can be effective for multilingual document retrieval, but errors can lead to systematic bias in further analysis results. These results are important for researchers seeking opportunities to introduce, validate and generalize findings and theories beyond English-speaking countries.

Article metrics loading...

/content/journals/10.5117/CCR2023.2.5.PALI

2023-01-01

2025-06-01

Full text loading...

/content/journals/10.5117/CCR2023.2.5.PALI

Article Type: Research Article

Keyword(s): computational social science; information retrieval; machine translation; multilingual text analysis; sampling; semantic search

oa Selecting Relevant Documents for Multilingual Content Analysis: An Evaluation of Keyword and Semantic Similarity Search Approaches

Abstract

Most Read This Month

Most Cited Most Cited RSS feed

A framework for privacy preserving digital trace data collection through data donation

The 4CAT Capture and Analysis Toolkit: A Modular Tool for Transparent and Traceable Social Media Research

Fifteen Seconds of Fame: TikTok and the Supply Side of Social Video

OSD2F: An Open-Source Data Donation Framework

Conversational Agent Research Toolkit

Computational observation

Detecting Impoliteness and Incivility in Online Discussions

The Pervasive Presence of Chinese Government Content on Douyin Trending Videos

Four best practices for measuring news sentiment using ‘off-the-shelf’ dictionaries: a large-scale p-hacking experiment

How Document Sampling and Vocabulary Pruning Affect the Results of Topic Models