| cr4m0 |
Geschrieben am: Mi 6.08.2008, 21:31
|
|
AyomRank 4 ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() Gruppe: Member (aktiv) Beiträge: 178 Mitglied seit: 30.07.2007 |
Ich suche einen Algorithmus, der Texte aus meiner Nachrichten-Datenbank über das gleiche Thema gruppiert. Bisher habe ich es so gemacht:
1) Titel des aktuellen Textes genommen 2) MySQL-Volltext-Suche nach ähnlichen Texten in der DB gemacht 3) Die fünf ähnlichsten Texte als "News zum gleichen Thema" genommen Dabei gibt es natürlich oft Texte, die gar nicht passen. Denn nicht jeder ähnliche Text behandelt auch das gleiche Thema. Es muss aber möglich sein, News zum gleichen Thema zu finden und nicht nur ähnliche News. Schließlich schaffen Google News und Wikio das auch. Bitte helft mir, ist mir sehr wichtig! Danke im Voraus! |
![]() |
| Alain_Aubert |
#2 Geschrieben am: Mi 6.08.2008, 21:48 (+00:17)
|
|
Ayom Slave Gruppe: Admin Beiträge: 4721 Mitglied seit: 25.09.2003 |
Hüstel. Was Du da machen möchtest ist relativ einfach. Es so zu machen wir Google es macht wird für Dich unmöglich sein.
Das konventionelle Verfahren ist einen Text in einen Term-Vektor zu zerlegen, diesen zu säuber und aus ihm mit anderen Termvektoren Skalarprodukte oder dem Kosinuss-Mass (weiss nicht mehr so genau) [1]. Es ist sinnvoll eine erste Sondierung der zu vergleichenden Vektoren zu machen um performant zu bleiben. Eine Variante die mir persönlich besser gefällt impliziert den Aufbau von Ontologien und deren Gebrauch für o.g. Methode. [1] Hab mal gegoogelt: http://information-retrieval.de/irb/ir.par...pic_5.subdiv1_2 |
![]() |
| cr4m0 |
#3 Geschrieben am: Mi 6.08.2008, 23:36 (+01:47)
|
|
AyomRank 4 ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() Gruppe: Member (aktiv) Beiträge: 178 Mitglied seit: 30.07.2007 |
Danke schonmal! Ich will das auch gar nicht so gut machen wie Google, aber ich suche eben eine bessere Lösung als die Volltext-Suche.
Zu deinem Vorschlag: Der scheint sehr gut zu sein, nur leider verstehe ich ihn noch nicht ganz! Man zeichnet also - nur theoretisch - zwei Vektoren: Einen Vektor für den aktuellen Text und einen für einen anderen Text. Wie der Vektor verläuft, bestimmen die einzelnen Wörter im Text. Je höher das Skalarprodukt der beiden Vektoren ist, desto höher ist die Ähnlichkeit der Texte. Richtig? Leider verstehe ich noch nicht, wo ich was in dieser komplizierten Formel einsetzen muss. Kann mir das bitte jemand erklären? |
![]() |
| cr4m0 |
#4 Geschrieben am: Do 7.08.2008, 11:17 (+11:40)
|
|
AyomRank 4 ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() Gruppe: Member (aktiv) Beiträge: 178 Mitglied seit: 30.07.2007 |
OK, ich habe jetzt mal einige englische Seiten zu diesem Thema gelesen. Ich hab mal versucht, den Algorithmus für mich umzuschreiben:
http://paste.bradleygill.com/index.php?paste_id=2351 Ist die Rechnung so richtig? |
![]() |
Thema wird von 0 Benutzer(n) gelesen (0 Gäste und 0 anonyme Benutzer)
0 Mitglieder:
« MySQL Datenbankoptimierung | Programmierung Allgemein | Word file download und im (IE)-Word öffnen »
Trackback-Url: http://www.ayom.com/track/t/25679
![]() |
![]() ![]() ![]() |
| Themen Titel | Autor | Views | Antworten | Letzte Aktion |
| Suche Content zum Thema Wien | selfbusiness | 11 | 0 | So 7.09.2008, 01:11 |
| [B] Texte zum Thema Hochzeit und Online-Auktionen | sylvia73 | 48 | 0 | Di 2.09.2008, 10:53 |
| Linktausch Thema Finanzen! | Yannick | 65 | 1 | Mo 1.09.2008, 14:51 |
| DNnetz News | cr4m0 | 154 | 1 | Mo 18.08.2008, 20:58 |
| Content zum Thema Weihnacht | Fredi Noser | 116 | 1 | So 17.08.2008, 11:51 |
| [S] Link- und Werbepartner - Thema Reisen | Chrischii | 89 | 0 | Di 12.08.2008, 22:27 |
| Linkpartner Thema Handy gesucht | flown | 79 | 0 | Fr 8.08.2008, 15:20 |
| (B) Biete Linkaufbau zum Thema Deutschland (Touris | the_stranger | 87 | 0 | Di 5.08.2008, 17:50 |
| Presse / News / Finanz Werbung zum saugeilen Preis | firstlevel | 72 | 0 | Do 31.07.2008, 12:47 |
| (S) Linktausch Thema Spielkonsolen | Yannick | 59 | 0 | Mi 30.07.2008, 14:01 |
Anzeige - [Interessiert an einer Anzeige?]












