@misc{Kreuzer.2022, author = {Kreuzer, Thomas M.}, year = {2022}, title = {Concept for the development of an integrated landslide inventory system: technical implementation and automation methods}, publisher = {Universität Vechta}, doi = {10.23660/voado-341}, language = {en}, abstract = {In der Rutschungsforschung sind Datenbanken (hier synonym zu Inventaren) von besonderer Bedeutung, da in ihnen Informationen erfasst und dokumentiert werden, die für statistische und prozessorientierte Analysen notwendig sind. Die dabei eingesetzten Datenbanken reichen in ihrer Art von analogen Dokumentenablagen bis hin zu komplexen Software-Anwendungen. Letztere werden in diesem Zusammenhang aufgrund ihrer technisch bedingten Eignung zur effizienten Datenverarbeitung bevorzugt eingesetzt. Unter den Software-Anwendungen haben sich in den letzten Jahren sogenannte „Relationale Datenbanksysteme“ (RDBS) etabliert. Jedoch werden derzeit Rutschungsdaten weitgehend unabhängig vom Datenbanksystem erhoben und analysiert, obwohl durch ein RDBS ein zentraler Ort der Datenverarbeitung vorhanden wäre. Der Betrieb einer Datenbank findet somit auf zwei getrennten Ebenen statt: einerseits auf der Ebene der Datengewinnung und -analyse durch Betreiber und Nutzer der jeweiligen Datenbank und andererseits auf der Ebene der zentralen Datenspeicherung und -verteilung durch ein entsprechendes Datenbanksystem. Betreiber und Nutzer sind dadurch mit den Problematiken ihrer Betriebsebene konfrontiert, ohne eine Unterstützung durch das RDBS erhalten zu können. Eine besondere Herausforderung besteht an dieser Stelle darin, dass Rutschungen zeitlich sowie räumlich weit verteilt und durch komplexe Prozesse entstanden sind. Umfassende Datenerhebungen beinhalten infolgedessen einen hohen Arbeitsaufwand, der sich überdies auf Analysen auswirkt, die auf das Vorhandensein aktueller und zahlreicher Daten angewiesen sind. Für Betreiber und Nutzer einer Rutschungsdatenbank führt dies daher regelmäßig zu selbstauferlegten Einschränkungen in ihren Fragestellungen, um auf diese Weise den benötigten Datenumfang und, infolgedessen, den damit einhergehenden Aufwand der Datenerhebung zu begrenzen. Das übergeordnete Ziel der vorliegenden Arbeit ist, der dargestellten Problematik entgegenwirkend, die Minimierung des Aufwands für den Betrieb und die Nutzung einer Rutschungsdatenbank, sodass selbstauferlegte Einschränkungen an Bedeutung verlieren. Zu diesem Zweck wird ein „Integriertes Rutschungsinventarsystem“ (IRIS) entwickelt, welches die Ebene der Datenerhebung und -analyse mittels einer weitgehenden Automatisierung in ein RDBS integriert. Die Anwender dieses Systems werden nun in dem Maße entlastet, als sie lediglich die Funktionen überwachen müssen, die automatisiert umgesetzt werden. Im Kontext dieser Zielsetzung wurde, im Rahmen der Publikation „A Landslide Inventory System as a Base for Automated Process and Risk Analyses“, die technische Grundlage für das IRIS geschaffen. Hierfür sind zunächst die Anforderungen an ein derartiges Verfahren herausgearbeitet worden. Es galt eine Software zu finden, welche die gängigen Datenverarbeitungsmethoden eines RDBS umsetzt, zusätzlich räumliche Daten verarbeiten kann und bei der es möglich ist, Veränderungen an der Programmlogik vorzunehmen, um automatisierte Erhebungs- und Analysemethoden zu integrieren. Daneben war darauf zu achten, dass es Betreibern der Datenbank weiterhin möglich ist, Daten — digital wie analog — aus dezentralen Erhebungen (bspw. Feldarbeit, manuelle Internetrecherche) in das System einzupflegen. Zu diesem Zweck musste die eingesetzte Software die Digitalisierung analoger Daten unterstützen, die daraufhin auch der automatisierten Datenverarbeitung zur Verfügung stehen können. Mit der Software „PostgreSQL“ ist dementsprechend eine Umgebung gewählt worden, die diese Anforderungen erfüllt und damit ein RDBS darstellt, welches um gängige GIS-Funktionalität ergänzt wurde mittels der Erweiterung „PostGIS“. PostgreSQL/PostGIS ist deshalb in der Lage, neben den primären Daten der Rutschungen, auch unterstützende Daten, wie beispielsweise digitale Karten und Geländemodelle, zu speichern und zu verarbeiten. Eine weitere Besonderheit im Kontext der gestellten Anforderungen besteht darin, dass die Software quelloffen zur Verfügung gestellt wird und beliebig modifiziert werden darf. Unter diesen Voraussetzungen konnte die Software um Möglichkeiten der Eingabe selbsterhobener Daten sowie um eine Analyse zur Risikobewertung erweitert werden. Dem folgend wurde anhand eines Fallbeispiels in der Fränkischen Alb, eine Karte automatisiert erzeugt, in der das Risiko für in dem im Untersuchungsraum vorhandene Infrastrukturobjekte dargestellt wird, durch in der Nähe befindliche, aktive Rutschungen bedroht zu sein. Dazu war es zunächst notwendig, analoge Rutschungsdaten aus vorangegangenen Arbeiten über die Eingabeschnittstelle zu digitalisieren sowie digitale Infrastrukturkarten und digitale Geländemodelle in das System einzuspeisen, wobei sämtliche Daten im System hinterlegt bleiben. Sobald dem System ergänzende/aktuellere Daten aus den unterschiedlichsten Erhebungsarten zur Verfügung stehen, kann daher auch die Analyse ohne weitere Bemühungen des Betreibers „per Knopfdruck“ angepasst werden. Mithilfe dieser technischen Grundlage, inklusive der automatischen Analysemöglichkeiten, gilt es weiter, den Betreiber einer Datenbank bei der Datenaufnahme zu unterstützen. Dies geschah zunächst im Zuge der Publikation „Automated Digital Data Acquisition for Landslide Inventories“ durch die Entwicklung einer Prozesskette zur automatisierten Datenakquise digitaler Texte und den ihnen beiliegenden Bildern — die Texte und Bilder entstammen beispielsweise wissenschaftlichen Arbeiten, Polizeiberichten, Gutachten oder auch Zeitungsartikeln. Anhand einer weiteren Modifikation von PostgreSQL/PostGIS wurde eine Prozesskette in das IRIS integriert, um das System auf diese Art zentral und kontinuierlich mit möglichst aktuellen Daten zu versorgen. Diese Prozesskette selbst besteht dabei aus vier Gliedern, die schließlich wiederkehrend in bestimmen Zeitabständen, rutschungsrelevante Texte aus dem Internet sammeln und diese dem Betreiber einer Datenbank zur Verfügung stellen. Im Hinblick darauf ist es die Hauptaufgabe dieser Prozesskette, große Mengen anfallender und irrelevanter Texte auszusortieren und Textduplikate zu identifizieren, um die Datenmenge auf relevante Informationen zu begrenzen. Der Ablauf der Prozesskette gliedert sich dabei wie folgt: Zunächst wird jeder Text, der zum ersten Mal im Internet durch den Suchmaschinenbetreiber „Google“ registriert wird, auf vorher festgelegte Schlagwörter (z. B. Erdrutsch, Hangrutsch, Steinschlag) und deren Flexionen überprüft. Das Vorhandensein eines der Schlagwörter in einem Text ist eine notwendige Bedingung für rutschungsbezogene Inhalte, deshalb werden nur solche Texte an das nächste Glied weitergereicht. Dieses überprüft dann, ob sich die gefundenen Schlagwörter in grammatikalisch vollständigen Sätzen befinden. Auf diese Weise wird sichergestellt, dass es sich bei den rutschungsbezogenen Inhalten um abgeschlossene Informationseinheiten handelt. Zusätzlich werden in diesem Schritt auch vorhandene Bilder als weitere Informationseinheit extrahiert. Sämtliche gefundene Informationseinheiten werden daraufhin im nächsten Glied der Prozesskette mittels Methoden des maschinellen Lernens als relevant oder irrelevant bezüglich Rutschungen klassifiziert — irrelevant wäre beispielsweise ein Text über einen politischen „Erdrutschsieg“ oder ein Bild einer zerstörten Windschutzscheibe aufgrund eines Steinschlags. Das letzte Glied entscheidet dann darüber, ob es sich bei einem vorher als relevant eingeordneten Text um ein Duplikat eines bereits erfassten Textes aus einer anderen Quelle handelt. Als Duplikat gilt, wenn es mittels einer Metrik zur Inhaltsähnlichkeit einen gewissen Schwellenwert überschreitet, wobei aufgrund von möglicherweise beinhaltenden Zusatzinformationen das identifizierte Duplikat nicht gänzlich verworfen, sondern zunächst vor dem Betreiber verborgen wird. Infolgedessen wird die Datenmenge weiter reduziert, es bleibt jedoch jederzeit die Möglichkeit, sich bei Bedarf Duplikate anzeigen zu lassen. Insgesamt wurden über die Testlaufzeit von 87 Wochen 4381 Dokumente mittels der implementierten Prozesskette analysiert und davon 90 % irrelevante Dokumente aussortiert. Infolgedessen konnten somit 385 Textquellen (exkl. Duplikate) zu Rutschereignissen direkt zur Verfügung gestellt werden. Im Hinblick auf die zweigleisige Verwendungsmöglichkeit des IRIS (dezentral/manuell und zentral/automatisiert, s. o.), wurde im Zusammenhang mit der Publikation „Quantitative Assessment of Information Quality in Textual Sources for Landslide Inventories“ eine quantitative Bewertung der Nützlichkeit verschiedenster textlicher Quellenarten (bspw. Zeitungsartikel, Polizeibericht, wissenschaftliche Publikation, technisches Gutachten) durchgeführt, um insbesondere die manuelle Datenaufnahme zu optimieren. Dem liegt zugrunde, dass eine manuelle Sichtung möglicher Quellen einen hohen Aufwand bedeutet und dieser durch eine, auf Nützlichkeit basierende Vorauswahl der Quellenart gesenkt werden kann. Es stellt sich insbesondere die Frage, ob eine bestimmte Quellenart nützlich für Rutschungsinventare ist, wenn deren enthaltene Informationen nicht von Rutschungsexperten stammen, sondern beispielsweise von Journalisten, Polizisten oder Förstern. Zur Beantwortung dieser Frage wurde eine „Nützlichkeit“ definiert, die der quantitativen Wahrscheinlichkeit entspricht, festgelegte Rutschungsinformationen, gewichtet nach deren jeweilig auftretenden Detailgraden, zu finden. Häufiges Vorkommen eines hohen Detailgrades schlägt sich dementsprechend in einer höheren Nützlichkeit nieder verglichen mit Quellenarten, die zwar die gleiche Art Information beinhalten, aber häufiger mit einem niedrigeren Detailgrad. Da die Nützlichkeit hier einer mathematischen Wahrscheinlichkeit entspricht, gelten gleichfalls die bekannten Regeln der Kombinatorik. Auf diese Weise kann die Nützlichkeit nicht nur für eine Quellenart angegeben werden, sondern auch für deren beliebige Kombinationen. Beispielhaft wurde ein Datensatz eines deutschen Rutschungsinventars untersucht, der neben ausgewählten Rutschungsinformationen zu einzelnen Rutschprozessen, auch deren originäre Quellenart beinhaltet. Konkret wurden die vermerkten Quellenarten nach Inhalten zu Lokation, Datum und Prozesstyp einer Rutschung in verschiedensten Detailgraden analysiert. Es zeigte sich, dass die drei nützlichsten Quellenarten in Kombination eine über 86 %ige Wahrscheinlichkeit zur Findung verwertbarer Informationen aufweist. Bei den drei Quellenarten handelt es sich in absteigender Reihenfolge der einzelnen Nützlichkeit um: Zeitungsartikel, Gutachten und administrative Dokumente. Weiter zeigte sich, dass die Einbindung weiterer Quellenarten diese Wahrscheinlichkeit lediglich logarithmisch erhöhen würde, sodass, bezüglich eines effizienten Einsatzes vorhandener Ressourcen, zunächst darauf verzichtet werden kann. Die drei angeführten Arbeiten bilden zusammen das technologische und konzeptionelle Fundament des IRIS. Dieses Fundament ermöglicht es, die vormals getrennte Ebene des Betreibens und Nutzens einer Datenbank mit der Ebene der Datenverarbeitung zu verbinden, wobei die Automatisierung der Datenakquise sowie die Risikoanalyse erhobener Daten in das relationale Datenbanksystem integriert wurden. Das Wissen um die Nützlichkeit verschiedener Quellenarten ermöglicht die effiziente Steuerung und Fokussierung der manuellen, aber auch digitalen Datenaufnahme. Es handelt sich bei IRIS folglich um ein quasi-abgeschlossenes, erweiterbares und autarkes System, welches durch den Betreiber kontrolliert wird und die Verwaltung großer und kontinuierlich anfallender Rutschungsdaten erlaubt. Zukünftige Arbeiten bezügliche einer erweiterten Datenerhebung könnten die automatisierte Erfassung der, in den gefundenen Textquellen enthaltenden Informationen sein und/oder die Integration automatisierter Landformenerkennung mittels fernerkundlicher Methoden. Bezüglich der Datenanalyse würde eine zukünftige Integration weiterer etablierter Analysemethoden die Möglichkeiten zur Gefahrenerkennung und -bewertung steigern. Zusammen erscheint in dieser Form ein vollautomatisches, „lebendes“ Rutschungsinventar möglich, das auf der regionalen bis globalen Ebene kontinuierlich aktuelle und umfassende Informationen und Prognosen zu Rutschereignissen liefern kann.; In landslide research, databases (here synonymous with inventories) are of particular importance, as they are used to record and document information necessary for statistical and process-oriented analyses. The databases used in these circumstances range in type from analogue document repositories to complex software applications. The latter are preferred in this context due to their technical suitability for efficient data processing. Among software applications, so-called ‟relational database systems” (RDBS) have distinguished themselves in recent years. However, landslide data are currently collected and analysed largely independently of such a database system, although an RDBS would provide a central location for data processing. The operation of a database thus takes place on two separate levels: on the one hand, on the level of data acquisition and analysis by operators and users of the respective database and, on the other hand, on the level of central data storage and distribution by a corresponding database system. Operators and users are thus confronted with problems of their operational level without being able to receive support from a RDBS. A particular challenge at this point is that landslides are widely distributed in time as well as in space and are the result of complex processes. Comprehensive data collection consequently involves a large amount of work, which moreover affects analyses that depend on the availability of up-to-date and numerous data. For operators and users of a landslide database, this therefore regularly leads to self-imposed restrictions in their problem definitions in order to limit the required scope of data, and hence the associated effort of data collection. The overall objective of the present work is to counteract the presented problems by minimizing the effort for operation and use of a landslide database, so that self-imposed restrictions become less important. For this purpose, an ‟Integrated Landslide Inventory System” (IRIS) is developed, which integrates the level of data collection and analysis into an RDBS by means of automation. The users of this system are thus relieved to the extent that they only have to monitor automated processes. In the context of this objective, the technical basis for IRIS was created within the framework of the publication ‟A Landslide Inventory System as a Base for Automated Process and Risk Analyses”. For this purpose, the requirements for such a technical basis were first worked out. It was necessary to find a software that implements the common data processing methods of an RDBS, can additionally process spatial data and for which it is possible to make changes to the program logic in order to integrate automated collection and analysis methods. In addition, it had to be ensured that it is still possible for database operators to enter data — digital as well as analogue — from decentralised surveys (e.g. fieldwork, manual internet research) into the system. Therefore, the applied software solution had to support the digitisation of analogue data, which could then be made available for automated data processing. The software ‟PostgreSQL” was chosen accordingly, which fulfills these requirements and thus represents a RDBS, which was further enhanced for common GIS functionality by means of the extension ‟PostGIS”. PostgreSQL/PostGIS is therefore able to store and process not only the primary landslide data but also supports data such as digital maps and digital terrain models. Another special feature in the context of the requirement set is that the software is made available as Open Source and may be modified as desired. Under these conditions, the software was extended to include the possibility of entering self-collected data as well as an automated analysis for risk assessment. Following this, a case study in the Franconian Alb was used to automatically generate a map showing the risk of infrastructure objects being threatened by active landslides in the vicinity. In this respect, it was first necessary to digitise analogue landslide data from previous work via the input interface and to feed digital infrastructure maps and digital terrain models into the system, with all data remaining stored in the system. As soon as supplementary or more up-to-date data from the various types of surveys are available to the system, the analysis can therefore also be updated ‟at the touch of a button” without any further effort on the part of the operator. In accordance with the overarching goal and after the establishment of a technical basis, including the automatic analysis possibilities, it is further necessary to support the operator of a database in data acquisition. This was initially done in the course of the publication ‟Automated Digital Data Acquisition for Landslide Inventories” by developing a process chain for the automated data acquisition of digital texts and their accompanying images — the texts and images originate, for example, from scientific papers, police reports, expert opinions, or even newspaper articles. Using a further modification of PostgreSQL/PostGIS, a process chain was integrated into IRIS in order to supply the system centrally and continuously with the most up-to-date data possible. This process chain itself consists of four links, which finally, recurrently in certain time intervals, collect landslide-relevant texts from the internet and make them available to the operator of a database. In view of this, the main task of this process chain is to sort out large quantities of accumulating and irrelevant texts and to identify text duplicates in order to limit the data to relevant information. The process chain is structured as follows: First, each text that is registered for the first time on the Internet by the search engine operator ‟Google” is checked for predefined keywords (e. g., landslide, mudflow, rockfall) and their inflections. The presence of one of the keywords in a text is a necessary condition for landslide-related content, so only such texts are passed on to the next link, which then checks whether the keywords found are in grammatically complete sentences. In this way, it is ensured that the landslide related content is a self-contained information unit, in addition, existing images are extracted as further information units. Using machine learning methods, all information units found are then classified in the next link of the process chain as relevant or irrelevant with respect to landslides — irrelevant would be, for example, a text about a political ‟landslide victory”, or a picture of a destroyed windscreen due to a rockfall. The final link then decides whether a text previously classified as relevant is a duplicate of an already recorded text from another source. A duplicate is considered to be a duplicate if it exceeds a certain threshold using a content similarity metric, however, due to additional information that may be included, the identified duplicate is not discarded entirely but is just hidden from the operator. As a result, the amount of data is further reduced, but the ability to view duplicates remains possible at all times. In total, over the test period of 87 weeks, 4381 documents were analyzed using the implemented process chain and 90 % of these irrelevant documents were sorted out, with the result that 385 text sources (excl. duplicates) on slide events could be made directly available to the operator of IRIS. With regard to the two-pronged use of IRIS (decentralized/manual and centralized/automated, see above), a quantitative evaluation of the usefulness of various textual source types (e.g. newspaper article, police report, scientific publication, technical report) was carried out in connection with the publication ‟Quantitative Assessment of Information Quality in Textual Sources for Landslide Inventories”, particularly to optimize manual data acquisition. This is because a manual sifting of possible sources means a high effort and this effort can be reduced by a preselection of the source type based on usefulness. In particular, the question arises whether a certain type of source is useful for landslide inventories if the information it contains does not come from landslide experts but, for example, from journalists, police officers, or foresters. To answer this question, a ‟usefulness” was defined, which corresponds to the quantitative probability of finding specified landslide information, weighted according to their respective degrees of detail. Frequent occurrence of a high level of detail accordingly translates into higher usefulness compared to source types that contain the same type of information but more frequently with a lower level of detail. Since usefulness here corresponds to a mathematical probability, the well-known rules of combinatorics also apply. In this way, usefulness can be specified not only for one type of source, but also for any combination. As an example, a data set of a German landslide inventory was investigated, which contains not only selected landslide information on individual landslide processes, but also their original source type. Specifically, the noted source types were analyzed according to the content of location, date and process type of a landslide in various degrees of detail. It was found that the three most useful source types had a greater than 86 % probability of finding the required information when combined. The three source types, in descending order of individual usefulness, are: newspaper articles, expert opinions, and administrative documents. It was further shown that the inclusion of additional source types would only increase this probability logarithmically, so that, with regard to an efficient use of available resources, it can be dispensed with for the time being. Together, the three works listed above form the technological and conceptual foundation of IRIS. This foundation makes it possible to link the previously separate level of operating and using a database with the level of data processing, whereby the automation of data acquisition and the risk analysis of collected data have been integrated into a relational database system. Thus, knowledge of usefulness of different types of sources enables the efficient control and focus in manual, as well as digital, data acquisition. Consequently, the IRIS is a quasi-closed, extensible, and self-sufficient system controlled by the operator that allows for the management of large and continuously accumulating landslide data. Future work to extend the system with respect to data acquisition could be the automated extraction of information contained in the retrieved text sources and/or the integration of automated landforms recognition using remote sensing methods. With respect to data analysis, future integration of other established analysis methods would increase hazard detection and assessment capabilities. Together, a fully automated, ‟living” landslide inventory appears possible in this form, which can continuously provide up-to-date and comprehensive information and forecasts on landslide events on the regional to global scale.}, keywords = {Gravitative Massenbewegung; Datenbank; Maschinelles Lernen}, type = {DoctoralThesis}, howpublished = {application/pdf}, note = {https://voado.uni-vechta.de/page/Rechte_20170412} }