Textsortenbestimmung Musterlösung reportage

In den Methoden plot() und tatabu() können wir optional angeben, welche Bedingungen mit einem parameter conditions= angezeigt werden sollen. Wenn wir es weglassen, bekommen wir alle Bedingungen. Ebenso können wir die Anzeigen der Samples mit einem Samples=-Parameter einschränken. Dies ermöglicht es, eine große Menge von Daten in eine bedingte Frequenzverteilung zu laden und sie dann zu untersuchen, indem sie ausgewählte Bedingungen und Beispiele zeichnen oder tabellen. Es gibt uns auch die volle Kontrolle über die Reihenfolge der Bedingungen und Proben in allen Displays. Beispielsweise können wir die kumulativen Frequenzdaten nur für zwei Sprachen und für Wörter mit einer Länge von weniger als 10 Zeichen tabellarisch darstellen, wie unten gezeigt. Wir interpretieren eine letzte Zelle in der obersten Zeile, um zu bedeuten, dass 1.638 Wörter des englischen Textes 9 oder weniger Buchstaben haben. Der Prozess der Kodierung eines elektronischen Textes hat viel mit dem Prozess der Bearbeitung eines Manuskripts oder eines anderen Textes für die gedruckte Veröffentlichung gemein. In beiden Fällen kann ein gewissenhafter Redakteur sowohl den ursprünglichen Zustand der Quelle als auch jede redaktionelle Korrektur oder andere darin vorgenommene Änderungen aufzeichnen.

Die in diesem und im nächsten Abschnitt behandelten Elemente bieten einige Möglichkeiten, um diesen Bedürfnissen gerecht zu werden. Angenommen, Sie arbeiten an der Analyse von Text, der verschiedene Formen desselben Wortes umfasst, und dass ein Teil des Programms die Pluralform eines bestimmten Singularsubstons ausarbeiten muss. Angenommen, es muss diese Arbeit an zwei Stellen erledigen, einmal, wenn es einige Texte verarbeitet, und wieder, wenn es Benutzereingaben verarbeitet. Wenn Sie über eine eigene Sammlung von Textdateien verfügen, auf die Sie mit den oben genannten Methoden zugreifen möchten, können Sie diese ganz einfach mit Hilfe von NLTKs PlaintextCorpusReader laden. Überprüfen Sie den Speicherort Ihrer Dateien auf Ihrem Dateisystem; im folgenden Beispiel haben wir dies als das Verzeichnis /usr/share/dict angenommen. Unabhängig vom Speicherort, legen Sie dies auf den Wert von corpus_root . Der zweite Parameter des PlaintextCorpusReader-Initialisierers kann eine Liste von Dateiiden wie [`a.txt`, `test/b.txt`] oder ein Muster sein, das allen Fileiden entspricht, z. B. `[abc]/.*`.txt` (siehe 3.4 für Informationen zu regulären Ausdrücken). Die folgenden Elemente werden für die Beschreibung von tabellarischen Materie, häufig in vielen Arten von narrativen Text gefunden. Beachten Sie, dass TEI simplePrint keine ausgeklügelten Möglichkeiten bietet, das detaillierte Layout einer Tabelle über ihre Organisation hinaus in Zeilen und Spalten zu beschreiben. Hervorgehobene Wörter oder Phrasen sind solche, die sich sichtbar vom Rest des Textes unterscheiden, typischerweise durch eine Änderung der Schriftart, des Handschriftstils, der Tintenfarbe usw., die die Aufmerksamkeit des Lesers auf eine damit verbundene Änderung lenken soll.

Die wichtigste Informationsquelle für diejenigen, die einen Katalogeintrag oder ein bibliographisches Zitat für eine elektronische Datei erstellen möchten.