Plagiatserkennung als praktische Anwendung des Suffix-Arrays

Beschreibung

Das Suffix-Array ist einer der bekanntesten Textindizes. Es kann unter anderem zur Suche in Texten genutzt werden. Im Rahmen dieser Bachelorarbeit soll das Suffix-Array für die deutschsprachige Wikipedia konstruiert und anschließend zum Auffinden von Plagiaten in anderen Texten (z.B. Bachelorarbeiten) genutzt werden. Die Qualität der Treffen muss anschließend analysiert werden. Zudem soll der Ansatz mit existierende Lösungen (z.B. Apache Lucene) verglichen werden.

Typ

Bachelorarbeit.

Das sollten Sie mitbringen

  • Spaß an algorithmischen Problemstellungen
  • gute Programmierkenntnisse in C++
  • Im Idealfall bereits Kenntnisse in String-Algorithmen (z.B. aus unserer Vorlesung “Text-Indexierung”) oder die Bereitschaft, sich selbständig einzuarbeiten

Betreuer

Die Arbeit wird betreut von Johannes Fischer und Patrick Dinklage.

 
Last modified: 2019-12-11 08:51 (external edit)
DokuWikiRSS-Feed