Anzeige - [Hier werben / Mediadaten]
(?) Tags raten (?) (edit)
 
Reply to this topicStart new topicStart Poll
> Kategorisierung mit Lernen
cr4m0
Geschrieben am: Sa 2.08.2008, 00:22
Report PostQuote Post

AyomRank 5
**********

Gruppe: Member (aktiv)
Beiträge: 202
Mitglied seit: 30.07.2007


Ich suche eine Möglichkeit, um das folgende Problem zu lösen:

Man hat Texte in einer Datenbank. Diese sollen automatisch kategorisiert werden. Dafür stehen 6 Kategorien bereit. Das System soll aus den alten Kategorisierungen lernen und so die neuen vornehmen.
Den Anfang muss man also selbst machen: Man teilt einigen Texten Kategorien zu. Das System erkennt so ein Muster und nimmt die Kategorisierungen selbst so vor.

Beispiel:
Bisher wurden alle Texte, in denen fünf Mal "Sport" und drei Mal "China" vorkam, der Kategorie "Olympia" zugeordnet. Also wird auch dieser Text der Kategorie "Olympia" zugeordnet.

Meine Ansätze:
1) Aus der Datenbank wird mit einer Volltext-Suche der ähnlichste Text rausgesucht. Dessen Kategorie ist auch die Kategorie für den aktuellen Text.
2) Alle Texte der einzelnen Kategorien werden verkettet. Die Kette, die mit dem aktuellen Text die höchste Übereinstimmung hat, gibt die Kategorie an.
Welchen der beiden Ansätze findet ihr besser? Habt ihr noch bessere Ansätze?

Danke im Voraus!
Top
PMEmail Poster
Top
 
 
G.P.
#2 Geschrieben am: Sa 2.08.2008, 00:38 (+00:16)
Report PostQuote Post

AyomRank 6
************

Gruppe: Member (aktiv)
Beiträge: 801
Mitglied seit: 21.10.2004


Lies dich mal in "Bayessche Filter" ein.
Diesesn Algorythmus verwende ich fuer solche Systeme.

MfG
GP


--------------------
SnEO.de - PR4 Domains ab 1 Euro
GoodBoard.de - Kostenlose Foren
FSJ-ADiA.de - Zivildienst im Ausland
Top
PMEmail PosterUsers Website
Top
 
cr4m0
#3 Geschrieben am: Sa 2.08.2008, 12:59 (+12:20)
Report PostQuote Post

AyomRank 5
**********

Gruppe: Member (aktiv)
Beiträge: 202
Mitglied seit: 30.07.2007


OK, danke für den Tipp! Ich hab mal bei Wikipedia gelesen. Und da stand, dass der Markow-Filter eine Weiterentwicklung ist. Also hab ich mir mal den Algorithmus angesehen. Ich verstehe aber nicht genau, was ich wo einsetzen muss. Kann mir da einer weiterhelfen?

http://upload.wikimedia.org/math/4/0/3/403...1a289dd5768.png

Beim Analysieren des Textes sollen nachher nur Wörter mit 3-30 Zeichen beachtet werden. Reine Zahlen werden übersprungen.
Top
PMEmail Poster
Top
 
cr4m0
#4 Geschrieben am: So 3.08.2008, 13:38 (+24:39)
Report PostQuote Post

AyomRank 5
**********

Gruppe: Member (aktiv)
Beiträge: 202
Mitglied seit: 30.07.2007


Ich hab mir den Filter jetzt mal genauer angeguckt. So wie ich das verstanden habe, funktioniert der Filter aber nur bei zwei Kategorien. Ich habe sechs Kategorien.
Ich habe auf jeden Fall mehrere Stunden lang probiert, den Algorithmus für mehrere Kategorien zu finden, habe es aber nicht geschafft.
Stimmt das so, oder kann man den auch für mehr als zwei Kategorien benutzen?
Top
PMEmail Poster
Top
 
jAuer
Jürgen Auer - freiberufl. Programmierer
#5 Geschrieben am: So 3.08.2008, 13:47 (+00:08)
Report PostQuote Post

AyomRank 9
Group Icon

Gruppe: Experten Entwicklung
Beiträge: 2432
Mitglied seit: 4.02.2006


x gehört zur Kategorie 1 - ja / nein
x gehört zur Kategorie 2 - ja / nein
x gehört zur Kategorie 3 - ja / nein


--------------------
Web-Anwendung 3.0: Ein Online-Kalender für Termine vieler Filialen.

server-daten - die Single-Data-Solution: Web-Datenbanken als Online - CRM - Lösung.
Ihre Geschäftsprozesse entscheiden, was Ihre Online-Datenbank macht. Sie konzentrieren sich auf Ihr Kerngeschäft - Ihre Datenbank funktioniert.
Top
PMEmail PosterUsers Website
Top
 
cr4m0
#6 Geschrieben am: Mi 6.08.2008, 21:25 (+3d 07:37)
Report PostQuote Post

AyomRank 5
**********

Gruppe: Member (aktiv)
Beiträge: 202
Mitglied seit: 30.07.2007


@jAuer: Danke für den Tipp! Das hätte ich auch so machen können. Aber ich habe doch noch eine schnellere Methode gefunden:
Mit dem Algorithmus, den G.P. empfohlen hat, errechne ich jetzt für jede Kategorie die Wahrscheinlichkeit. Die Kategorien werden mit Wahrscheinlichkeit in ein Array eingefügt. Das Array ordne ich dann und nehme die Kategorie mit der höchsten Wahrscheinlichkeit.
Top
PMEmail Poster
Top
 
Thema wird von 0 Benutzer(n) gelesen (0 Gäste und 0 anonyme Benutzer)
0 Mitglieder:
Trackback-Url: http://www.ayom.com/track/t/25593

Topic Options Reply to this topicStart new topicStart Poll

 


> Ähnliche Themen
Programmieren lernen sylvia73 629 33 Mi 27.08.2008, 13:01
seo "lernen"? jodokus 990 19 Do 18.10.2007, 18:18
php Sprache lernen finanzcheck 434 18 Mo 6.08.2007, 23:29
Grundschule / Lesen lernen Werbemöglichkeiten markusroth 413 2 Fr 12.01.2007, 21:01
Content-Kategorisierung TSc 256 0 Mo 27.11.2006, 21:02
vokabeln-lernen.com enforcer 377 2 Mi 2.08.2006, 20:25
Ich möchte PHP lernen Exorcist 3185 20 Do 30.03.2006, 14:20
Wie lange braucht man um JavaScript zu lernen? IronMan 986 7 So 1.01.2006, 15:54




Anzeige - [Hier werben / Mediadaten]



Anzeigen


[Hier werben / Mediadaten]