Alle Texte auf der Website

Haben wir ein Programm, das den gesamten Text einer Website übernimmt? Ich wollte es wissen, weil ich eine ganze Website im Text sehen und ein wenig ändern möchte.

Meinen Sie den tatsächlich lesbaren Text oder eine Textdarstellung einer Webseite (HTML)?
Meinen Sie auch den gesamten Text auf einer Webseite oder, wie gefragt, den gesamten Text auf einer Website (was, wenn die Website Stack Exchange wäre, Millionen von Seiten ausmachen würde).
Ich frage nach dem gesamten Text auf einer Website. Glaubst du, Pandoc wird das tun?
@MrPublic Ich denke über eine Textdarstellung einer Website nach. Kennen Sie etwas, das den gesamten Text auf der Website übernimmt?
@SteveBarnes Kennen Sie ein Programm, das den gesamten Text einer Website übernimmt?
Ja – ein Web-Crawler wie Scrapy kann die Website crawlen und nach dem gesamten Inhalt fragen.
Wird der gesamte Text auf einer Seite/Datei angezeigt?
@SteveBarnes Ich weiß nicht, was ich mit Scrapy machen soll. Zeigen Sie, was ich tun würde, bevor ich den gesamten Text auf der Website bekomme?
@user6779864: Es gibt eine nette Anleitung unter doc.scrapy.org/en/latest/intro/tutorial.html
@SteveBarnes Wo zeigen sie, wohin der gesamte Text auf der Website zu führen ist? Ich sehe es nicht.
@SteveBarnes Hast du es auf Scrapy gesehen?
@user6779864 - doc.scrapy.org/en/latest/intro/tutorial.html speichert den gesamten Inhalt von Seiten (als HTML) im ersten Spider-Abschnitt und demonstriert die Verwendung der Scrapy-Shell, um den Text von einer Seite zu erhalten.
Braucht es alles oder jeden Text einer Website oder nur eine Seite?
@SteveBarnes..
@SteveBarnes Hast du die Frage gesehen/verstanden, die ich dir gezeigt habe?
@ user6779864 - Ja: Haben Sie versucht, dem Walk Through zu folgen, der Ihnen genau zeigt , wie Sie das tun, wonach Sie fragen?
@SteveBarnes Oh, ich verstehe. Ich habe nichts getan oder wurde kratzig, weil ich nichts darüber gesehen habe, wie man den gesamten Text auf der Website nimmt. Aber ich werde sehen, was es bringt.

Antworten (1)

Pandoc - "ein universeller Dokumentenkonverter" sollte in fast jeder Werkzeugkiste enthalten sein.

Es ist:

  • Kostenlos, kostenlos & Open Source
  • Geradezu unbezahlbar

Damit können Sie von einem Format in ein anderes konvertieren, einschließlich von Online-Webseiten in reinen Text.

Zum Beispiel:

pandoc https://en.wikipedia.org/wiki/Pandoc -f html -t plain -o soq.txt

Fordert pandoc auf, die hmtl-Seite über sich selbst von Wikipedia herunterzuladen und in einfachen Text zu konvertieren, der in eine Datei namens soq.txt ausgegeben wird. Das Ergebnis sieht folgendermaßen aus:

PANDOK

Aus Wikipedia, der freien Enzyklopädie

Springe zu: Navigation, Suche

Pandoc Originalautor(en) John MacFarlane Erstveröffentlichung 10. August 2006 (vor 10 Jahren) (2006-08-10) Stabile Veröffentlichung 1.19 / 1. Dezember 2016 (vor 3 Monaten) (2016-12-01)

Repository github.com/jgm/pandoc Entwicklungsstatus Aktiv Geschrieben in Haskell Betriebssystem Unix-ähnlich, OS X, Windows Lizenz GNU GPLv2 Website pandoc.org - []Portal für kostenlose Software

PANDOC ist ein kostenloser Open-Source-Software-Dokumentkonverter, der häufig als Schreibwerkzeug (insbesondere von Wissenschaftlern) 1 [3][4] und als Grundlage für Veröffentlichungs-Workflows verwendet wird.[5][6][7] Es wurde ursprünglich von John MacFarlane, einem Philosophieprofessor an der University of California, Berkeley, entwickelt.[8]

Inhalt

  • 1 Unterstützte Dateiformate
  • 2 Integration mit Referenzmanagern
  • 3 Referenzen
  • 4 Externe Links

Unterstützte Dateiformate[Bearbeiten]

Das am umfassendsten unterstützte Dateiformat von Pandoc ist eine erweiterte Version von Markdown, aber es kann auch viele andere Formen leichter Markup-Sprachen, HTML, ReStructuredText, LaTeX, OPML, Org-mode, DocBook und Office Open XML (Microsoft Word .docx) lesen. .

Es kann verwendet werden, um Dateien in vielen weiteren Formaten zu erstellen, darunter Office Open XML, OpenDocument, HTML, Wiki-Markup, InDesign ICML, webbasierte Diashows,[9] E-Books,[10] OPML und verschiedene TeX-Formate (durch die es kann ein PDF erstellen). Es verfügt über eine integrierte Unterstützung für die Konvertierung von mathematischen LaTeX-Gleichungen in MathML und MathJax, neben anderen Formaten.

Plug-Ins für benutzerdefinierte Formate können auch in Lua geschrieben werden, das verwendet wurde, um ein Exporttool für die Journal Article Tag Suite zu erstellen.[11]

Integration mit Referenzmanagern[Bearbeiten]

Ein enthaltenes Modul, pandoc-citeproc, ermöglicht es dem Programm, Daten aus Literaturverwaltungssoftware wie BibTeX, EndNote, Mendeley oder Papers zu verwenden. Es kann direkt in Zotero integriert werden.[12] Die Informationen werden mithilfe einer Implementierung der Citation Style Language automatisch in ein Zitat in verschiedenen Stilen (z. B. APA, Chicago oder MLA) umgewandelt. Dadurch kann das Programm als einfachere Alternative zu LaTeX für die Erstellung akademischer Texte dienen.[13]

Referenzen[Bearbeiten]

  1. ^ Mullen, Lincoln (2012-02-23). „Pandoc konvertiert alle Ihre (Text-)Dokumente“ . Die Chronik der Hochschulblogs: ProfHacker . Abgerufen am 27.06.2014. 

  2. ^ McDaniel, W. Caleb (2012-09-28). "Warum (und wie) ich mein akademisches Buch im Klartext geschrieben habe". W. Caleb McDaniel an der Rice University . Abgerufen am 27.06.2014. 

  3. ^ Healy, Kieran (2014-01-23). "Klartext, Papiere, Pandoc". Abgerufen am 27.06.2014. 

  4. ^ Ovadia, Steven (2014). "Markdown für Bibliothekare und Akademiker". Bibliothekar für Verhaltens- und Sozialwissenschaften . 33 (2): 120–124. doi:10.1080/01639269.2014.904696. ISSN 0163-9269. 

  5. ^ Bis, Kaitlyn; Simas ablegen; Velma Larkai (2014-04-14). "The Flying Narwhal: Workflow für kleine Zeitschriften". Verlag @ SFU . Abgerufen am 27.06.2014. 

  6. ^ Maxwell, John (01.11.2013). "Erstellen von Veröffentlichungsworkflows mit Pandoc und Git". Verlag @ SFU . Abgerufen am 27.06.2014. 

  7. ^ Maxwell, John (2014-02-26). "Auf Pandoc". eBound Canada: Digital Production Workshop, Vancouver, BC. Abgerufen am 27.06.2014. 

  8. ^ "John MacFarlane". Institut für Philosophie . Universität von Kalifornien, Berkeley. Abgerufen am 25. Juli 2014. 

  9. ^ Siehe als Beispiel MacFarlane, John (2014-05-17). "Pandoc für Haskell-Hacker". BayHac 2014, Mountain View, CA. Abgerufen am 27.06.2014. Die Quelldatei ist in Markdown geschrieben.

  10. ^ Mullen, Lincoln (20.03.2012). "Erstellen Sie Ihre eigenen E-Books mit Pandoc". Die Chronik der Hochschulblogs: ProfHacker . Abgerufen am 27.06.2014. 

  11. ^ Fenner, Martin (12.12.2013). "Von Markdown zu JATS XML in einem Schritt". Gobbledygook . Abgerufen am 27.06.2014. 

  12. ^ Hetzner, Erik (2014-06-25). "Zotxt". Abgerufen am 27.06.2014. 

  13. ^ Tenen, Dennis; Grant Wythoff (2014-03-19). "Nachhaltige Autorenschaft im Klartext mit Pandoc und Markdown". Der Programmierhistoriker . Abgerufen am 27.06.2014. 

Externe Links[Bearbeiten]

  • Offizielle Website
  • PanDoc und Wikiversity – PanDocElectron

[]

Abgerufen von " https://en.wikipedia.org/w/index.php?title=Pandoc&oldid=756329870 "

Kategorien: - Software von 2006 - Freie Software, die in Haskell programmiert ist - Technische Kommunikationswerkzeuge - Workflow-Software

Versteckte Kategorien: - Offizielle Website unterschiedlich in Wikidata und Wikipedia

Navigationsmenü

Persönliche Werkzeuge

  • Nicht eingeloggt

Sprechen

Beiträge

Benutzerkonto erstellen

Log in

Namensräume

  • Artikel

    Sprechen

Varianten

Ansichten

  • Lesen

Bearbeiten

View history

Mehr

Suchen

Navigation

  • Hauptseite

Inhalt

Ausgewählte Inhalte

Aktuelle Ereignisse

Zufälliger Artikel

Spende an Wikipedia

Wikipedia store

Interaktion

  • Hilfe

Über Wikipedia

Gemeinschaftsportal

Kürzliche Änderungen

Contact page

Werkzeug

  • Was hier verlinkt

Verwandte Änderungen

Datei hochladen

Sonderseiten

Permanenter Link

Seiteninformationen

Wikidata-Element

Cite this page

Drucken/Exportieren

  • Erstellen Sie ein Buch

Als PDF herunterladen

Printable version

Sprachen

  • Deutsch
  • Spanisch
  • Französisch
  • Русский
  • 中文

Verknüpfungen bearbeiten

  • Diese Seite wurde zuletzt am 23. Dezember 2016 um 14:17 Uhr geändert.

    Der Text ist unter der Creative Commons Attribution-ShareAlike License verfügbar; Es können zusätzliche Bedingungen gelten. Durch die Nutzung dieser Website stimmen Sie den Nutzungsbedingungen und der Datenschutzrichtlinie zu. Wikipedia® ist eine eingetragene Marke der Wikimedia Foundation, Inc., einer gemeinnützigen Organisation.

 

Datenschutz-Bestimmungen

Über Wikipedia

Haftungsausschlüsse

Wenden Sie sich an Wikipedia

Entwickler

Cookie-Erklärung

Mobile view

 

[Wikimedia-Stiftung]

[Powered by MediaWiki]