Titelaufnahme

Titel
Automated discovery of secure website domains / von Dominik Frühwirt
VerfasserFrühwirt, Dominik
Begutachter / BegutachterinWeippl, Edgar ; Huber, Markus ; Mulazzani, Martin
Erschienen2015
UmfangXI, 73 S. : Ill., graph. Darst.
HochschulschriftWien, Techn. Univ., Dipl.-Arb., 2015
Anmerkung
Zsfassung in dt. Sprache
SpracheEnglisch
DokumenttypDiplomarbeit
Schlagwörter (EN)Security / Web Security
URNurn:nbn:at:at-ubtuw:1-81963 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist frei verfügbar
Dateien
Automated discovery of secure website domains [3.11 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Durch bekannt gewordene Abhörprogramme, wie das der NSA, rückt die Verschlüsselung von Daten, die über das Internet gesendet werden, immer mehr in den Vordergrund. Viele Webseiten unterstützen mittlerweile das HTTPS Protokoll, das den Traffic zwischen Browser und Webserver mittels TLS absichert. Unglücklicherweise gibt es keine zuverlässige Möglichkeit herauszufinden, ob ein Server HTTPS Verbindungen zulässt. Daher entwickelte die Electronic Frontier Foundation (EFF) die Browser Extension HTTPS Everywhere, die das Upgraden einer HTTP Verbindung auf HTTPS automatisiert, wenn es durch den entsprechenden Server unterstützt wird. Dies geschieht durch manuell erstellte und gewartete URL-rewriting Regeln, die mit der Erweiterung mitgeliefert werden. Diese Diplomarbeit befasst sich mit der Problematik der automatisierten Generierung solcher Regeln. Dafür wurde eine Software implementiert, die eine große Anzahl an Domains auf HTTPS Unterstützung prüft und die zugehörigen Regeln erstellt. Die Websites, die über das HTTPS Protokoll erreicht werden können, werden mit den Versionen, die über HTTP erreichbar sind, verglichen, um equivalenten Inhalt und korrekte rewriting-Regeln garantieren zu können. Daher wurden 15 verschiedene Similarity-Matching Methoden implementiert und evaluiert. Das Crawlen der Top Million Websites aus dem Alexa Ranking ermöglichte die Generierung von etwa 190000 einzelner Regeln für fast 129000 verschiedene Domains.

Zusammenfassung (Englisch)

Since the large-scale surveillance programs of intelligence agencies like the NSA became known, privacy concerns got in focus of the general public. Many websites support encryption via the HTTPS protocol securing the data transmitted between browsers and webservers by using TLS. Unfortunately, there is no reliable possibility to find out whether a website is available via HTTPS as well. Therefore, the Electronic Frontier Foundation (EFF) developed the browser extension HTTPS Everywhere that automates upgrading HTTP connections to secured HTTPS connections if this is supported by the corresponding server. The extension uses manually created and maintained URL-rewriting rules that are shipped with the extension. This diploma thesis investigates the possibilities of automatic rule set generation. For this purpose, a software that checks a large set of domains on HTTPS support and generates the corresponding rules has been implemented. The websites reachable via HTTPS get compared to the versions available via HTTP in order to ensure their equality and correct rewriting rules. Therefore, we implemented and evaluated 15 different similarity matching methods. The large-scale crawl of the Alexa top million websites allowed the generation of about 190,000 single rules for nearly 129,000 different domains.