ARD-PAN führt Textmining-System von picturesafe ein
14.12.2011
Medien & Kommunikation
Das PresseArchivNetzwerk hat Ende 2010 unter Federführung des
Westdeutschen Rundfunks (WDR) eine neue, von allen Mitgliedern gemeinsam genutzte und mehrere Millionen Artikel umfassende Textdatenbank eingeführt. Ergänzend wurde die von picturesafe gelieferte Textmining-Komponente dio:semantic installiert und nach Abschluss der Abnahmetests Mitte 2011 in den Produktionsworkflow übernommen.
Das neue picturesafe-System umfasst die maschinelle Vorerschließung auf Basis der PAN-Klassifikation und des Regelwerks, sowie die Realisierung eines Statistik-Moduls für Qualitätsauswertungen. Darüber hinaus leistet es die Pflege der für das Textmining relevanten Filter, Parameter und das Update/Retraining der Klassifikation und der verwendeten Named Entities.
Das hierarchische PAN-Klassifikationssystem ist Basis für eine intelligente Recherche in der Textdatenbank. Über ausgereifte Suchfunktionalitäten können Artikel in den Sprachen Deutsch, Englisch, Französisch und Spanisch treffsicher und mit geringem Zeitaufwand gefunden werden. Relevantere Suchergebnisse werden auch dadurch erzielt, dass das PAN-Klassifikationssystem mit Datenfeldern der Sacherschließung, Aspekten und freien Deskriptoren in Beziehung steht. Weiterhin werden relevante Orte, Personen und Geografika anhand von Regeln identifiziert.
Das dio:semanic Textmining-System bildet diese Inhaltsstruktur vollständig ab. Um einen Artikel im PAN-Klassifikationssystem vollständig zuzuordnen, werden vier Wissensmodelle pro Sprache verwendet.
Bei vier unterstützten Sprachen im PAN-System werden insgesamt 16 Klassifizierung-Wissensmodelle eingesetzt, um eine optimale Analyse der Presseartikel zu gewährleisten.
Trotz der komplexen Aufgabe ist die notwendige Infrastruktur für die Anbindung des picturesafe-Textmining-Systems verhältnismäßig einfach gehalten, was zur Kostensenkung beiträgt. Das speicher- und performanceoptimierte Verfahren ermöglicht es dem dio:sematic pro Stunde über 300.000 Artikel zu analysieren oder in der Wissensbasis zu trainieren.
Die Ergebnisqualität des Textmining-Systems ist von zentraler
Wichtigkeit. Schon im Vorfeld wurden die Pressedaten des PAN vom Fraunhofer Institut wissenschaftlich analysiert, und damit die Qualitätsstandards für die Auftragsvergabe festgelegt. picturesafe erfüllte diese Standards und konnte sie im Produktivbetrieb nochmals steigern.
"Besonders erfreulich ist die produktive und angenehme Zusammenarbeit zwischen den Mitarbeitern des PAN und dem picturesafe Team" sagt Entwicklungsleiter Gerhard Wendorf. "Neben der technischen Leistungsfähigkeit des Systems, ist es wichtig das wir in allen Bereichen einen guten Draht zum Kunden haben. Auch im dokumentarischen Umfeld funktioniert die Abstimmung reibungslos. Unsere Diplom-Bibliothekare und Dokumentare sprechen die gleiche Sprache wie die Mitarbeiter in den Fachabteilungen des Kunden."
Apropos Sprache: dio:semantic beinhaltet mehrsprachige Linguistikmodule zur Analyse und Aufbereitung unstrukturierter Dokumente, welche die Basis für Klassifizierung, Clusterung, Ähnlichkeitsanalyse und zur Generierung von Tag Clouds und Textsummarys bilden.
http://www.copyclick.de
picturesafe media/data/bank
Simon-von-Utrecht-Str. 31-37 20359 Hamburg
Pressekontakt
http://www.jansass.com
jansass GmbH
Lemsahler Dorfstr. 4 22397 Hamburg
Diese Pressemitteilung wurde über PR-Gateway veröffentlicht.
Für den Inhalt der Pressemeldung/News ist allein der Verfasser verantwortlich. Newsfenster.de distanziert sich ausdrücklich von den Inhalten Dritter und macht sich diese nicht zu eigen.
Weitere Artikel von Jan Sass
23.10.2013 | Jan Sass
Urlaub in St. Peter-Ording an der Nordsee
Urlaub in St. Peter-Ording an der Nordsee
11.09.2013 | Jan Sass
Private Ferienwohnung im Haus Nis Randers in St. Peter-Ording
Private Ferienwohnung im Haus Nis Randers in St. Peter-Ording
28.05.2013 | Jan Sass
GETTINGS und BrandCapture starten strategische Kooperation
GETTINGS und BrandCapture starten strategische Kooperation
27.01.2012 | Jan Sass
Picturesafe bringt den FOCUS auf den Amazon Kindle
Picturesafe bringt den FOCUS auf den Amazon Kindle
14.12.2011 | Jan Sass
Hamburger FanGator liefert maßgeschneiderte Fangates auf Facebook
Hamburger FanGator liefert maßgeschneiderte Fangates auf Facebook
Weitere Artikel in dieser Kategorie
22.11.2024 | Radio Nordpfalz
Radio Nordpfalz: Der Webradiosender aus der Pfalz
Radio Nordpfalz: Der Webradiosender aus der Pfalz
21.11.2024 | ANINOVA e.V.
"Preis der Herzlosigkeit" 2024 geht an die größte Kaninchenzucht Deutschlands, Dr. Zimmermann GbR in Abtsgmünd
"Preis der Herzlosigkeit" 2024 geht an die größte Kaninchenzucht Deutschlands, Dr. Zimmermann GbR in Abtsgmünd
19.11.2024 | TEXTER & SEO Österreich
Website-Content für Google KI-Suche fit machen
Website-Content für Google KI-Suche fit machen
18.11.2024 | Die Menschenleserin aus Franken
Schwierig sind immer die anderen
Schwierig sind immer die anderen
16.11.2024 | Dr. Harald Hildebrandt
Neu: Qara Urman - über das Schicksal des tatarischen Nationalhelden Mussa Djalil und seiner Mitstreiter!
Neu: Qara Urman - über das Schicksal des tatarischen Nationalhelden Mussa Djalil und seiner Mitstreiter!