Wybierz język
pl gb
22.02.2022, 14:57

Zastosowanie algorytmów uczenia maszynowego do klasyfikacji artykułów naukowych - seminarium online QFRG i DSLab [28.02.2022]

Serdecznie zapraszamy do wzięcia udziału w kolejnym seminarium w ramach cyklu comiesięcznych spotkań organizowanych wspólnie przez QFRG (Quantitative Finance Research Group) oraz DSLab (Data Science Lab).

Podczas spotkania prof. dr hab. Paweł Baranowski i dr Szymon Wójcik z Katedry Ekonometrii Uniwersytetu Łódzkiego zaprezentują badanie „Textual content and academic journals selectiveness. A case of economic journals”.

Naukowcy zbadali możliwości zastosowania algorytmów uczenia maszynowego do klasyfikacji treści artykułów naukowych pod względem opublikowania w wiodącym, standardowym lub drapieżnym czasopiśmie (publikującym artykuły naukowe, zwykle w formie otwartego dostępu w zamian za uiszczenie przez autora opłaty).

Spotkanie odbędzie się online, 28 lutego 2022 r. o godz. 17:00 za pośrednictwem platformy Google Meet i będzie prowadzone w języku angielskim.

Link do spotkania: https://meet.google.com/gde-sacr-xaz

Streszczenie wystąpienia:

Currently observed vast influx of papers obstructs the editorial procedures in scientific journals. This phenomenon applies explicitly to top-quality academic journals with high scientific impact. Moreover, it stimulates the emergence of low- (or non-) selective journals, attracting authors with short editorial procedures in exchange for high fees. We argue that introducing machine learning-based solutions can help distinguish the papers worth reading by the editor from those whose scientific quality does not meet the standards of the journal. To test this hypothesis, we apply state-of-art Natural Language Processing (NLP) models, i.e. bidirectional encoder representations from transformers (BERT). Our sample consists of approximately 400 academic papers representing the fields of economics, finance and business (from the pre-COVID period). The papers were collected from journals of different levels of selectiveness, namely: highly selective (top-tier journals), moderately selective (journals listed on DOAJ list), non-selective ("predatory" journals). More specifically, we used a pre-trained Sci-BERT model on anonymized and pre-processed texts of academic papers. The results show that the pure textual content may give more than 80% out-of-sample accuracy in classifying texts into the abovementioned three levels of selectiveness. The outcomes of the study prove the usefulness of NLP in distinguishing the scientific quality of the paper and supports Beall's classification of "predatory" journals.

Serdecznie zapraszamy!