Infos

news.furt.at (nf) ist ein Nachrichten-Aggregator für Österreich. Er funktioniert recht simpel: Alle 15 Minuten werden RSS-Feeds österreichischer Medien auf neue Inhalte geprüft, anschließend werden sie in die (nf) importiert, ausgewertet und ihre Anreißer chronologisch aufgelistet.

Die (nf) soll lernen zusammenhängende Artikel zu erkennen und zu clustern, so soll mensch in Zukunft auf einen Blick die unterschiedlichen Standpunkte der Medien zu einem Thema sehen können und auch Trends soll sie daraus ableiten können (wie bei Twitter).

Im Prinzip soll es die (nf) erleichtern den Überblick über mehrere Medien und unterschiedliche Themen zu behalten. Bald soll man auch Profile anlegen können, anhand derer die (nf) dir dann aus der Fülle an Informationen vorschlägt was dich interessieren könnte.

Die news.furt.at ist ein nicht kommerzielles Projekt einer Einzelperson, es steht kein Unternehmen oder sonstige gewinnorientierte Absichten dahinter.

/devlog

Dezember 2016
  • Kleinezeitung hat nun „Plus-Inhalte“. Überlegung diese zu erkennen und aus dem Index zu schmeißen.
  • Da Profil und News keine Feeds haben kann die (nf) ab sofort crawlen. Alle 15 Minuten werden ihre Homepages besucht und nach neuen Links gesucht. Bild vom og:image Tag, Ramsch von Inhalt wird durch URL-Regex gefiltert. Bei News ganz leicht: substr($link, 0, 3) == '/a/'), Profil naja: preg_match('#/.+?/.+?-[0-9]+#', $link)
  • (nf) hat begonnen die Artikel-Seiten zu besuchen und versucht in dem graußligen Code der Medien den Haupt-Text zu finden. Probleme mit den Zeichensätzen und wirklich echt massiv graußligem Code (heute.at schlägt alles, deren Artikel sind extrem kurz, dafür mit Umfragen, Bildershows und anderem Ramsch vollgepflastert, bei ersten Versuchen gab System null als Inhalt ^_^ - kommt hin :D).
  • Kurier liefert Bilder mit korrupter URL aus - werden ab jetzt ignoriert (könnte natürlich die URL parsen und reparieren aber wozu, selber schuld). Stattdessen eingebaut, dass sich die Vorschaubilder onerror selber ein display:none; setzen.
  • Benutzt jetzt images.weserv.nl als Proxy für die Bilder da Medien dazu übergehen die Bilder in Originalgröße auszuliefern (brauchma aber nit).
  • Datenbank-Probleme: aufgrund der doch schon recht stattlichen Zahl an Artikeln kam es zu Server-Auslastungsproblemen, wenn ein neuer Artikel reinkommt wird nur mehr unter den letzten 14 (da kann leobennews nicht mithalten) 28 Tagen überprüft ob der Artikel schon bei uns existiert.
  • NEU: Script durchkrabbelt jetzt die Datenbank nach Dubletten (davon gibt es ca. 20000). Jeder einzelne Artikel wird mit allen anderen auf Ähnlickkeit verglichen. Ein Durchlaf dauert 12 Tage :/
  • Jetzt 500.000 Artikel indiziert.
Mai 2016
  • Erste Ansätze eingebaut, bei der ähnliche Artikel erkannt werden sollten. Funzt aber nicht, da mit Titel und Beschreibung zu wenig aussagekräftiger Inhalt vorhanden ist um Texte zu vergleichen. Müssen also den kompletten Markup vom Original-Artikel einsaugen, darin den gesamten Artikel finden (Horror!! Die Medien haben echt graußligen Code und teilwese so viel Schrott im Code dass irgendwelche Hinweise mehr Text haben als der eigentliche Artikel!!), den Rest wegschmeißen, aus dem Gesamt-Artikel dann die stopwords rausschießen, sodass wir dann die eigentlichen Signalwörter erkennen können, die wir brauchen um zu vergleichen.
Lade..