Personal experience with AI-generated peer reviews: A case study
Nicholas Lo Vecchio. 2025. “Personal experience with AI-generated peer reviews: A case study.” Research Integrity and Peer Review 10:4. DOI: 10.1186/s41073-025-00161-3
Abstract
Background: While some recent studies have looked at large language model (LLM) use in peer review at the corpus level, to date there have been few examinations of instances of AI-generated reviews in their social context. The goal of this first-person account is to present my experience of receiving two anonymous peer review reports that I believe were produced using generative AI, as well as lessons learned from that experience.
Methods: This is a case report on the timeline of the incident, and my and the journal’s actions following it. Supporting evidence includes text patterns in the reports, online AI detection tools and ChatGPT simulations; recommendations are offered for others who may find themselves in a similar situation. The primary research limitation of this article is that it is based on one individual’s personal experience.
Results: After alleging the use of generative AI in December 2023, two months of back-and-forth ensued between myself and the journal, leading to my withdrawal of the submission. The journal denied any ethical breach, without taking an explicit position on the allegations of LLM use. Based on this experience, I recommend that authors engage in dialogue with journals on AI use in peer review prior to article submission; where undisclosed AI use is suspected, authors should proactively amass evidence, request an investigation protocol, escalate the matter as needed, involve independent bodies where possible, and share their experience with fellow researchers.
Conclusions: Journals need to promptly adopt transparent policies on LLM use in peer review, in particular requiring disclosure. Open peer review where identities of all stakeholders are declared might safeguard against LLM misuse, but accountability in the AI era is needed from all parties.
Keywords: peer review, generative AI, ChatGPT, large language models, LLMs, academic misconduct
➔ ➔ Links to all documentation discussed in the above article can be found in the blog page here (“Generative AI and peer review: Summary”).
Nicholas Lo Vecchio. 2025. “Personal experience with AI-generated peer reviews: A case study.” Research Integrity and Peer Review 10:4. DOI: 10.1186/s41073-025-00161-3
Résumé
Contexte: Bien que certaines études récentes aient étudié l’utilisation des grands modèles de langage (LLMs) dans l’évaluation scientifique par les pairs (peer review) à l’échelle du corpus, il n’y a pas eu jusqu’à présent d’études qui situent une telle utilisation dans son contexte social. L’objectif de ce témoignage est de présenter mon expérience concernant la réception de deux rapports d’évaluation anonymes qui, selon moi, ont été produits à l’aide d'un outil d’IA générative, ainsi que certaines leçons que j’en ai tirées.
Méthodes: Il s’agit d’un rapport de cas sur la chronologie de l’incident, et sur les actions prises par moi-même et par la revue dans la foulée. Les preuves à l’appui comprennent les structures de texte figurant dans les rapports, les résultats d’outils de détection d’IA en ligne et les simulations effectuées dans ChatGPT; des recommandations sont proposées pour d’autres personnes qui pourraient se trouver dans une situation similaire. La principale limite méthodologique de cet article est qu’il est basé sur l’expérience personnelle d’un individu.
Résultats: Suite à l’allégation d’utilisation de l’IA générative en décembre 2023, des échanges ont eu lieu pendant deux mois entre moi-même et la rédaction de la revue, ce qui m’a conduit à retirer ma soumission. La rédaction de la revue a nié toute violation éthique, sans prendre de position explicite sur les allégations d’utilisation de LLM. Compte tenu de cette expérience, je recommande aux chercheureuses d’ouvrir le dialogue avec les revues sur l’utilisation de l'IA dans l’évaluation scientifique en amont de la soumission; en cas de suspicion d’utilisation non déclarée de l’IA, les auteurices devraient proactivement rassembler des preuves, demander un protocole d’enquête, faire remonter l’affaire si nécessaire, solliciter des instances indépendantes si possible et partager leur expérience avec d’autres membres de la communauté scientifique.
Conclusions: Il faut que les revues scientifiques adoptent immédiatement des politiques transparentes sur l’utilisation des LLMs dans l’évaluation scientifique, en exigeant notamment la divulgation de son usage. L’adoption de l'évaluation ouverte (open peer review), où l’identité de toutes les parties prenantes est déclarée, pourrait protéger contre l’utilisation abusive des LLMs, mais la responsabilité scientifique est l'affaire de toustes à l’ère de l’IA.
Mots-clés: peer review, évaluation scientifique, évaluation par les pairs, IA générative, ChatGPT, grands modèles de langage, LLM, conduite académique contraire à l'éthique
➔ ➔ Les liens vers la documentation abordée dans l’article ci-dessus se trouvent dans un blog ici (“Generative AI and peer review: Summary”).