Können Sie statistische Daten zu Einreichungen und Veröffentlichungen von Forschungsarbeiten erhalten?

Für ein Klassenprojekt zum maschinellen Lernen erwäge ich den Aufbau einer Reihe von Prädiktoren, bei denen der Funktionssatz Informationen zum Thema, Schlüsselwörter im Titel, die Autoren, das Datum usw. enthält und die Ergebnisse die Wahrscheinlichkeit der Veröffentlichung sind erwartet Zitationseffekt usw.

Ich möchte eine einzelne Zeitschrift wie zum Beispiel Nature auswählen . Wird es möglich sein, die dafür erforderlichen Daten zu erheben? Hat jemand Tipps, wo ich statistische Daten zu bestimmten Forschungszeitschriften finden kann?

Würde es ausreichen, gegen akzeptierte Arbeiten zu trainieren, ohne eingereichte Arbeiten einzubeziehen?

Antworten (2)

IMHO, das ist unwahrscheinlich zu fliegen. Einige Zeitschriften geben Ihnen möglicherweise Statistiken über die Anzahl der eingereichten und angenommenen Veröffentlichungen. Aber die Einreichung bei einer Zeitschrift ist normalerweise vertraulich, und als Autor wäre ich ziemlich verärgert, wenn Nature diese Informationen an jemand anderen weitergeben würde.

Wo Sie möglicherweise ähnliche Analysen durchführen können, ist eine Website wie arXiv.org. Es wird in der Physik in anderen Bereichen als Preprint-Service stark genutzt, und es gibt normalerweise Hinweise, wo und wann eine Einreichung bei einer Zeitschrift angenommen wird. Schlüsselwörter sind ebenfalls enthalten. Der Unterschied besteht darin, dass nicht jeder, der bei Phys Rev einreicht , unbedingt arXiv.org verwendet.

Wenn Sie nur mit Metadaten umgehen können (dh ohne Veröffentlichungsdatensatz), ist arXiv eine wunderbare Datenbasis für den Anfang. Sie haben ein AIP, aber was Sie verwenden möchten, ist die API der Open Archive Initiative, siehe meinen Beitrag (und meine Antwort): Getting a dump of arXiv metadata . Insbesondere erhalten Sie selbstberichtete Publikationsdaten (Journal, DOI).

Für einen noch relevanteren Datensatz hat die American Physics Society (Physical Review) einen etablierten Weg zum Teilen von Daten: http://journals.aps.org/datasets :

[...] Anfragen werden schnell geprüft und die Daten werden bei Genehmigung zum Download zur Verfügung gestellt, nachdem Sie die nachstehenden Bedingungen akzeptiert haben. [...] Der Korpus von Physical Review Letters, Physical Review und Reviews of Modern Physics besteht aus über 450.000 Artikeln und geht auf das Jahr 1893 zurück. [...]

1) Artikelpaare zitieren: Dieser Datensatz besteht aus Paaren von APS-Artikeln, die sich gegenseitig zitieren. Wenn beispielsweise Artikel A Artikel B zitiert, gibt es einen Eintrag im Datensatz, der aus dem DOI-Paar für A und B besteht. Dieser Datensatz wird als Datei mit kommagetrennten Werten (CSV) formatiert, die aus dem DOI besteht Paare, ein Paar pro Linie.

2) Artikel-Metadaten: Dieser Datensatz besteht aus den grundlegenden Metadaten aller APS-Zeitschriftenartikel. Die bereitgestellten Metadaten umfassen die folgenden Felder: DOI, Zeitschrift, Band, Ausgabe, erste Seite und letzte Seite ODER Artikel-ID und Seitenzahl, Titel, Autoren, Zugehörigkeiten, Veröffentlichungsgeschichte, PACS-Codes, Überschrift des Inhaltsverzeichnisses, Artikeltyp und Urheberrechtsinformation.

Ich weiß nicht, ob ein Klassenprojekt zählt, aber es könnte einen Versuch wert sein.