Anzeige - [Interessiert an einer Anzeige?]
(?) Tags raten (?) (edit)
 
Reply to this topicStart new topicStart Poll
> News zum gleichen Thema, Algorithmus gesucht
cr4m0
Geschrieben am: Mi 6.08.2008, 21:31
Report PostQuote Post

AyomRank 4
********

Gruppe: Member (aktiv)
Beiträge: 178
Mitglied seit: 30.07.2007


Ich suche einen Algorithmus, der Texte aus meiner Nachrichten-Datenbank über das gleiche Thema gruppiert. Bisher habe ich es so gemacht:
1) Titel des aktuellen Textes genommen
2) MySQL-Volltext-Suche nach ähnlichen Texten in der DB gemacht
3) Die fünf ähnlichsten Texte als "News zum gleichen Thema" genommen
Dabei gibt es natürlich oft Texte, die gar nicht passen. Denn nicht jeder ähnliche Text behandelt auch das gleiche Thema.

Es muss aber möglich sein, News zum gleichen Thema zu finden und nicht nur ähnliche News. Schließlich schaffen Google News und Wikio das auch.

Bitte helft mir, ist mir sehr wichtig! Danke im Voraus!
Top
PMEmail Poster
Top
 
 
Alain_Aubert
#2 Geschrieben am: Mi 6.08.2008, 21:48 (+00:17)
Report PostQuote Post

Ayom Slave
Group Icon

Gruppe: Admin
Beiträge: 4721
Mitglied seit: 25.09.2003


Hüstel. Was Du da machen möchtest ist relativ einfach. Es so zu machen wir Google es macht wird für Dich unmöglich sein.
Das konventionelle Verfahren ist einen Text in einen Term-Vektor zu zerlegen, diesen zu säuber und aus ihm mit anderen Termvektoren Skalarprodukte oder dem Kosinuss-Mass (weiss nicht mehr so genau) [1]. Es ist sinnvoll eine erste Sondierung der zu vergleichenden Vektoren zu machen um performant zu bleiben.

Eine Variante die mir persönlich besser gefällt impliziert den Aufbau von Ontologien und deren Gebrauch für o.g. Methode.

[1] Hab mal gegoogelt: http://information-retrieval.de/irb/ir.par...pic_5.subdiv1_2
Top
PMEmail PosterUsers Website
Top
 
cr4m0
#3 Geschrieben am: Mi 6.08.2008, 23:36 (+01:47)
Report PostQuote Post

AyomRank 4
********

Gruppe: Member (aktiv)
Beiträge: 178
Mitglied seit: 30.07.2007


Danke schonmal! Ich will das auch gar nicht so gut machen wie Google, aber ich suche eben eine bessere Lösung als die Volltext-Suche.

Zu deinem Vorschlag:
Der scheint sehr gut zu sein, nur leider verstehe ich ihn noch nicht ganz! biggrin.gif
Man zeichnet also - nur theoretisch - zwei Vektoren: Einen Vektor für den aktuellen Text und einen für einen anderen Text. Wie der Vektor verläuft, bestimmen die einzelnen Wörter im Text. Je höher das Skalarprodukt der beiden Vektoren ist, desto höher ist die Ähnlichkeit der Texte. Richtig?
Leider verstehe ich noch nicht, wo ich was in dieser komplizierten Formel einsetzen muss. Kann mir das bitte jemand erklären?
Top
PMEmail Poster
Top
 
cr4m0
#4 Geschrieben am: Do 7.08.2008, 11:17 (+11:40)
Report PostQuote Post

AyomRank 4
********

Gruppe: Member (aktiv)
Beiträge: 178
Mitglied seit: 30.07.2007


OK, ich habe jetzt mal einige englische Seiten zu diesem Thema gelesen. Ich hab mal versucht, den Algorithmus für mich umzuschreiben:
http://paste.bradleygill.com/index.php?paste_id=2351
Ist die Rechnung so richtig?
Top
PMEmail Poster
Top
 
Thema wird von 0 Benutzer(n) gelesen (0 Gäste und 0 anonyme Benutzer)
0 Mitglieder:
Trackback-Url: http://www.ayom.com/track/t/25679

Topic Options Reply to this topicStart new topicStart Poll

 


> Ähnliche Themen
Suche Content zum Thema Wien selfbusiness 11 0 So 7.09.2008, 01:11
[B] Texte zum Thema Hochzeit und Online-Auktionen sylvia73 48 0 Di 2.09.2008, 10:53
Linktausch Thema Finanzen! Yannick 65 1 Mo 1.09.2008, 14:51
DNnetz News cr4m0 154 1 Mo 18.08.2008, 20:58
Content zum Thema Weihnacht Fredi Noser 116 1 So 17.08.2008, 11:51
[S] Link- und Werbepartner - Thema Reisen Chrischii 89 0 Di 12.08.2008, 22:27
Linkpartner Thema Handy gesucht flown 79 0 Fr 8.08.2008, 15:20
(B) Biete Linkaufbau zum Thema Deutschland (Touris the_stranger 87 0 Di 5.08.2008, 17:50
Presse / News / Finanz Werbung zum saugeilen Preis firstlevel 72 0 Do 31.07.2008, 12:47
(S) Linktausch Thema Spielkonsolen Yannick 59 0 Mi 30.07.2008, 14:01




Anzeige - [Interessiert an einer Anzeige?]



Anzeigen


[Interessiert an einer Anzeige?]