Lernen von Konzeptdetektoren mit Trainings-daten aus dem WWW

Khalid Ballafkir

Die fort­ge­schrit­te­ne Ent­wick­lung digi­ta­ler Kame­ras und geeig­ne­ter Kom­pri­mie­rungs­ver­fah­ren für Mul­ti­me­dia­da­ten, sowie die stän­dig sin­ken­den Kos­ten von Spei­cher­hard­ware und die ver­bes­ser­ten Zugriffs­mög­lich­kei­ten dar­auf füh­ren zu dem bis­her unge­lös­ten Pro­blem des Suchens und Fin­dens von Mul­ti­me­dia­da­ten in rie­si­gen Men­gen an Infor­ma­tio­nen. Inhalts­ba­sier­te Bild-Such­ma­schi­nen (Con­tent-Based Image Search Engi­nes) benö­ti­gen für die Erstel­lung von Inde­xen anno­tier­te Trai­nings­da­ten, die in müh­sa­mer Hand­ar­beit gesam­melt wer­den. Die­se Daten wer­den zum Trai­nie­ren von soge­nann­ten Kon­zept- bzw. Objekt­de­tek­to­ren ein­ge­setzt; Bei­spie­le für Kon­zep­te sind: Auto, Strand, Stadt, Fuß­ball, Men­schen­men­ge, usw.

Das ange­streb­te Ziel die­ser Arbeit war die Ent­wick­lung einer ska­lier­ba­ren Metho­de zum Web-basier­ten und inkre­men­tel­len Ler­nen von Objekt­de­tek­to­ren, um die manu­el­le Anno­ta­ti­on von Trai­nings­da­ten zu ver­mei­den. Ent­spre­chend wur­de im Rah­men der Diplom­ar­beit ein Pro­to­typ einer web­über­wach­ten inkre­men­tel­len Lern­me­tho­de für ein Sys­tem ent­wi­ckelt, das kon­ti­nu­ier­lich Kon­zept­de­tek­to­ren mit Infor­ma­tio­nen aus dem Web lernt und sie kon­ti­nu­ier­lich ver­bes­sert. Ange­sto­ßen wird die­ser Vor­gang ledig­lich durch die Ein­ga­be des Namens des Kon­zepts, mit­hil­fe des­sen Trai­nings­da­ten in Form von Bil­dern aus dem Web gesam­melt wer­den. Die­se durch­lau­fen tex­tu­el­le und visu­el­le Clus­te­rungs­me­tho­den, um Spam­bil­der her­aus­zu­fil­tern. Im Rah­men der Diplom­ar­beit wur­den hier­zu ver­schie­de­ne Clus­te­rungs­ver­fah­ren eva­lu­iert. Nach­dem Clus­te­rungs­pro­zess kön­nen aller­dings immer noch Spam­bil­der vor­han­den sein. Dies wird dadurch kom­pen­siert, dass zu einem Objekt eine sehr gro­ße Men­ge an Bil­dern aus dem Web gesam­melt wer­den kann, im Gegen­satz zu manu­ell anno­tier­ten Daten­men­gen. Um die Hete­ro­ge­ni­tät der Web­bil­der ange­mes­sen zu berück­sich­ti­gen, wer­den die ver­blie­be­nen Clus­ter der visu­el­len Clus­te­rung als Sub­kon­zep­te inter­pre­tiert. Für jedes non-Spam Clus­ter wird jeweils ein „Ran­dom Forest“ gelernt. Alle die­se Model­le bil­den zusam­men eine soge­nann­te „Ran­dom Savan­na“. Für die Klas­si­fi­ka­ti­ons­auf­ga­be wer­den die­se Model­le mit ver­schie­de­nen Stra­te­gi­en kom­bi­niert. Das so gelern­te Ensem­ble-Modell ist beson­ders fle­xi­bel und unter­stützt in natür­li­cher Wei­se das inkre­men­tel­le Ler­nen der Objekt­mo­del­le. Dies ist wich­tig, da stän­dig neue Bild­da­ten im Web gefun­den wer­den.

Die Per­form­anz der ein­zel­nen Kom­po­nen­ten und des Gesamt­sys­tems wur­de durch zahl­rei­che Expe­ri­men­te auf unter­schied­li­chen Test­men­gen über­prüft. Im Rah­men die­ser Expe­ri­men­te wur­de die erreich­te Leis­tungs­fä­hig­keit unter ande­rem mit ver­schie­de­nen Sta­te-of-the-Art Metho­den (z.B. Sup­port Vec­tor Machi­ne: SVM) hin­sicht­lich der Erken­nungs­ra­te und dem vor­he­ri­gen Lern­auf­wand ver­gli­chen. Die Ergeb­nis­se der durch­ge­führ­ten Expe­ri­men­te in Bezug auf die Spam­fil­te­rung zeig­ten eine Stei­ge­rung der Prä­zi­si­on um 10 Pro­zent bei den gefil­ter­ten gegen­über den Roh-Web­trai­nings­da­ten und haben somit die Wich­tig­keit der Spam­fil­te­rung unter­stri­chen. Die posi­ti­ve Wir­kung der Clus­te­rung zu Sub­kon­zep­ten wur­de eben­falls expe­ri­men­tell gezeigt. Ins­ge­samt haben die Expe­ri­men­te zum einen die Mach­bar­keit und die Güte der vor­ge­stell­ten Lern­me­tho­de gezeigt, ins­be­son­de­re wur­de eine mit SVM ver­gleich­ba­re Per­form­anz erreicht. Zum ande­ren wur­de demons­triert, dass die inkre­men­tel­le Erwei­te­rung der Model­le zu einer Ver­bes­se­rung der Detek­ti­on füh­ren kann, außer­dem lässt sich das Sys­tem für eine ver­teil­te Aus­füh­rung leicht par­al­le­li­sie­ren.

Das in der Diplom­ar­beit vor­ge­schla­ge­ne Sys­tem kann die Ent­wick­lungs­kos­ten einer kom­mer­zi­el­len Soft­ware­lö­sung für die inhalts­ba­sier­te Bild­su­che wesent­lich redu­zie­ren, da der manu­el­le Anno­ta­ti­ons­auf­wand für die Trai­nings­da­ten weg­fällt. Durch die leich­ter zu ler­nen­den Detek­to­ren kann auf ein­fa­che­re Art eine Mul­ti­me­dia-Such­ma­schi­ne erstellt wer­den, die eine gro­ße Men­ge von Kon­zep­ten zur inhalts­ba­sier­ten Suche abdeckt. Das bie­tet wie­der­um einen Mehr­wert im Ver­gleich zu her­kömm­li­chen Such­ma­schi­nen, die bis­lang nur auf oft­mals sub­jek­ti­ven oder unvoll­stän­di­gen Meta-Infor­ma­tio­nen basier­ten.