Junge Sprachwissenschaft e. V.

W3.CSS

Die Anmeldung is geschlossen!

Der Workshop hat bereits stattgefunden.

Einführung in Webscraping – Data Mining mit Python

Tobias Gretenkort (Universitat Oberta de Catalunya)

24. Juni, 2022, 16:00-19:00 + 25. Juni, 10:30-16:30

Workshopsprache: Deutsch

Um Sprachdaten analysieren und interpretieren zu können, muss man an solche auch herankommen. Sprachwissenschaftler*innen generieren Daten heutzutage in Experimenten und Umfragen, aber auch gut konstruierte Beispielsätze werden nach wie vor in grammatischen Studien genutzt. Allerdings liegt sprachliches Material in schriftlicher Form im Internet bereits im Überfluss vor. Dieser sprichwörtlichen „Datengrube“ wollen wir uns in diesem Kurs widmen und dabei zwei Fragen beantworten: 1) Komme ich an Textdaten (wie Wikipedia-Artikel, Tweets, Foreneinträge, etc.) überhaupt heran, ohne die Texte händisch in eine Exceltabelle hineinzukopieren – und wenn ja, wie? 2) Wie bringe ich diese Daten aus der unsortierten in die sortierte Form, sodass ich auch statistische Methoden auf sie anwenden kann?

Diese Fragen werden wir an einigen Beispielen erläutern und sehen, dass es viele Möglichkeiten gibt, an Sprachdaten aus dem Internet heranzukommen. An der großen Datamining Werkzeugkiste werden wir uns dann bedienen, um einen konkreten, simplen Workflow für die Extraktion von Filmtiteln aus der IMDB (Internet Movie Database) zu definieren und durchzuführen. Hierfür werden wir hauptsächlich zwei Python Libraries benutzen: BeautifulSoup4 für die Extraktion des Textes aus dem Webbrowser; und Pandas, um die Daten in ein sauberes Tabellenformat zu bringen. Zum Schluss werden wir die Daten einfach aber effektiv illustrieren und lernen, wie man eine schicke Wordcloud für Präsentationen erstellt.

Vorkenntnisse sind nicht erforderlich. Es ist aber nicht schlecht, wenn Ihr zumindest Kernkonzepte des Programmierens schon einmal in einem unserer Kurse gesehen habt. Weiterhin solltet Ihr Python bereits auf Eurem Rechner installiert haben. Ich empfehle die „Anaconda“ Distribution, damit Ihr eine benutzer*innenfreundliche Entwicklungsumgebung („Spyder“) habt, in der sich übersichtlich arbeiten lässt. Ich werde alle nötigen Programmierschritte einzeln erläutern. Ihr braucht also keine Sorge zu haben, dass es zu schwierig wird, solange Ihr mit grundlegenden Begriffen des Programmierens konzeptuell vertraut seid.

Zurück zur Workshopübersicht