Bibliographic Metadata

Title
Automated discovery of secure website domains / von Dominik Frühwirt
AuthorFrühwirt, Dominik
CensorWeippl, Edgar ; Huber, Markus ; Mulazzani, Martin
Published2015
DescriptionXI, 73 S. : Ill., graph. Darst.
Institutional NoteWien, Techn. Univ., Dipl.-Arb., 2015
Annotation
Zsfassung in dt. Sprache
LanguageEnglish
Document typeThesis (Diplom)
Keywords (EN)Security / Web Security
URNurn:nbn:at:at-ubtuw:1-81963 Persistent Identifier (URN)
Restriction-Information
 The work is publicly available
Files
Automated discovery of secure website domains [3.11 mb]
Links
Reference
Classification
Abstract (German)

Durch bekannt gewordene Abhörprogramme, wie das der NSA, rückt die Verschlüsselung von Daten, die über das Internet gesendet werden, immer mehr in den Vordergrund. Viele Webseiten unterstützen mittlerweile das HTTPS Protokoll, das den Traffic zwischen Browser und Webserver mittels TLS absichert. Unglücklicherweise gibt es keine zuverlässige Möglichkeit herauszufinden, ob ein Server HTTPS Verbindungen zulässt. Daher entwickelte die Electronic Frontier Foundation (EFF) die Browser Extension HTTPS Everywhere, die das Upgraden einer HTTP Verbindung auf HTTPS automatisiert, wenn es durch den entsprechenden Server unterstützt wird. Dies geschieht durch manuell erstellte und gewartete URL-rewriting Regeln, die mit der Erweiterung mitgeliefert werden. Diese Diplomarbeit befasst sich mit der Problematik der automatisierten Generierung solcher Regeln. Dafür wurde eine Software implementiert, die eine große Anzahl an Domains auf HTTPS Unterstützung prüft und die zugehörigen Regeln erstellt. Die Websites, die über das HTTPS Protokoll erreicht werden können, werden mit den Versionen, die über HTTP erreichbar sind, verglichen, um equivalenten Inhalt und korrekte rewriting-Regeln garantieren zu können. Daher wurden 15 verschiedene Similarity-Matching Methoden implementiert und evaluiert. Das Crawlen der Top Million Websites aus dem Alexa Ranking ermöglichte die Generierung von etwa 190000 einzelner Regeln für fast 129000 verschiedene Domains.

Abstract (English)

Since the large-scale surveillance programs of intelligence agencies like the NSA became known, privacy concerns got in focus of the general public. Many websites support encryption via the HTTPS protocol securing the data transmitted between browsers and webservers by using TLS. Unfortunately, there is no reliable possibility to find out whether a website is available via HTTPS as well. Therefore, the Electronic Frontier Foundation (EFF) developed the browser extension HTTPS Everywhere that automates upgrading HTTP connections to secured HTTPS connections if this is supported by the corresponding server. The extension uses manually created and maintained URL-rewriting rules that are shipped with the extension. This diploma thesis investigates the possibilities of automatic rule set generation. For this purpose, a software that checks a large set of domains on HTTPS support and generates the corresponding rules has been implemented. The websites reachable via HTTPS get compared to the versions available via HTTP in order to ensure their equality and correct rewriting rules. Therefore, we implemented and evaluated 15 different similarity matching methods. The large-scale crawl of the Alexa top million websites allowed the generation of about 190,000 single rules for nearly 129,000 different domains.