| cr4m0 |
Geschrieben am: Sa 2.08.2008, 00:22
|
|
AyomRank 5 ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() Gruppe: Member (aktiv) Beiträge: 202 Mitglied seit: 30.07.2007 |
Ich suche eine Möglichkeit, um das folgende Problem zu lösen:
Man hat Texte in einer Datenbank. Diese sollen automatisch kategorisiert werden. Dafür stehen 6 Kategorien bereit. Das System soll aus den alten Kategorisierungen lernen und so die neuen vornehmen. Den Anfang muss man also selbst machen: Man teilt einigen Texten Kategorien zu. Das System erkennt so ein Muster und nimmt die Kategorisierungen selbst so vor. Beispiel: Bisher wurden alle Texte, in denen fünf Mal "Sport" und drei Mal "China" vorkam, der Kategorie "Olympia" zugeordnet. Also wird auch dieser Text der Kategorie "Olympia" zugeordnet. Meine Ansätze: 1) Aus der Datenbank wird mit einer Volltext-Suche der ähnlichste Text rausgesucht. Dessen Kategorie ist auch die Kategorie für den aktuellen Text. 2) Alle Texte der einzelnen Kategorien werden verkettet. Die Kette, die mit dem aktuellen Text die höchste Übereinstimmung hat, gibt die Kategorie an. Welchen der beiden Ansätze findet ihr besser? Habt ihr noch bessere Ansätze? Danke im Voraus! |
![]() |
| G.P. |
#2 Geschrieben am: Sa 2.08.2008, 00:38 (+00:16)
|
|
AyomRank 6 ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() Gruppe: Member (aktiv) Beiträge: 801 Mitglied seit: 21.10.2004 |
Lies dich mal in "Bayessche Filter" ein.
Diesesn Algorythmus verwende ich fuer solche Systeme. MfG GP -------------------- |
![]() |
| cr4m0 |
#3 Geschrieben am: Sa 2.08.2008, 12:59 (+12:20)
|
|
AyomRank 5 ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() Gruppe: Member (aktiv) Beiträge: 202 Mitglied seit: 30.07.2007 |
OK, danke für den Tipp! Ich hab mal bei Wikipedia gelesen. Und da stand, dass der Markow-Filter eine Weiterentwicklung ist. Also hab ich mir mal den Algorithmus angesehen. Ich verstehe aber nicht genau, was ich wo einsetzen muss. Kann mir da einer weiterhelfen?
http://upload.wikimedia.org/math/4/0/3/403...1a289dd5768.png Beim Analysieren des Textes sollen nachher nur Wörter mit 3-30 Zeichen beachtet werden. Reine Zahlen werden übersprungen. |
![]() |
| cr4m0 |
#4 Geschrieben am: So 3.08.2008, 13:38 (+24:39)
|
|
AyomRank 5 ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() Gruppe: Member (aktiv) Beiträge: 202 Mitglied seit: 30.07.2007 |
Ich hab mir den Filter jetzt mal genauer angeguckt. So wie ich das verstanden habe, funktioniert der Filter aber nur bei zwei Kategorien. Ich habe sechs Kategorien.
Ich habe auf jeden Fall mehrere Stunden lang probiert, den Algorithmus für mehrere Kategorien zu finden, habe es aber nicht geschafft. Stimmt das so, oder kann man den auch für mehr als zwei Kategorien benutzen? |
![]() |
| jAuer Jürgen Auer - freiberufl. Programmierer |
#5 Geschrieben am: So 3.08.2008, 13:47 (+00:08)
|
|
AyomRank 9 Gruppe: Experten Entwicklung Beiträge: 2432 Mitglied seit: 4.02.2006 |
x gehört zur Kategorie 1 - ja / nein
x gehört zur Kategorie 2 - ja / nein x gehört zur Kategorie 3 - ja / nein -------------------- Web-Anwendung 3.0: Ein Online-Kalender für Termine vieler Filialen.
server-daten - die Single-Data-Solution: Web-Datenbanken als Online - CRM - Lösung. Ihre Geschäftsprozesse entscheiden, was Ihre Online-Datenbank macht. Sie konzentrieren sich auf Ihr Kerngeschäft - Ihre Datenbank funktioniert. |
![]() |
| cr4m0 |
#6 Geschrieben am: Mi 6.08.2008, 21:25 (+3d 07:37)
|
|
AyomRank 5 ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() Gruppe: Member (aktiv) Beiträge: 202 Mitglied seit: 30.07.2007 |
@jAuer: Danke für den Tipp! Das hätte ich auch so machen können. Aber ich habe doch noch eine schnellere Methode gefunden:
Mit dem Algorithmus, den G.P. empfohlen hat, errechne ich jetzt für jede Kategorie die Wahrscheinlichkeit. Die Kategorien werden mit Wahrscheinlichkeit in ein Array eingefügt. Das Array ordne ich dann und nehme die Kategorie mit der höchsten Wahrscheinlichkeit. |
![]() |
Thema wird von 0 Benutzer(n) gelesen (0 Gäste und 0 anonyme Benutzer)
0 Mitglieder:
Trackback-Url: http://www.ayom.com/track/t/25593
![]() |
![]() ![]() ![]() |
| Themen Titel | Autor | Views | Antworten | Letzte Aktion |
| Programmieren lernen | sylvia73 | 629 | 33 | Mi 27.08.2008, 13:01 |
| seo "lernen"? | jodokus | 990 | 19 | Do 18.10.2007, 18:18 |
| php Sprache lernen | finanzcheck | 434 | 18 | Mo 6.08.2007, 23:29 |
| Grundschule / Lesen lernen Werbemöglichkeiten | markusroth | 413 | 2 | Fr 12.01.2007, 21:01 |
| Content-Kategorisierung | TSc | 256 | 0 | Mo 27.11.2006, 21:02 |
| vokabeln-lernen.com | enforcer | 377 | 2 | Mi 2.08.2006, 20:25 |
| Ich möchte PHP lernen | Exorcist | 3185 | 20 | Do 30.03.2006, 14:20 |
| Wie lange braucht man um JavaScript zu lernen? | IronMan | 986 | 7 | So 1.01.2006, 15:54 |
Anzeige - [Hier werben / Mediadaten]













