Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Self-supervised language grounding by active sensing combined with Internet acquired images and text
Umeå universitet, Teknisk-naturvetenskapliga fakulteten, Institutionen för datavetenskap.
Umeå universitet, Teknisk-naturvetenskapliga fakulteten, Institutionen för datavetenskap.
Umeå universitet, Teknisk-naturvetenskapliga fakulteten, Institutionen för datavetenskap.
2017 (Engelska)Ingår i: Proceedings of the Fourth International Workshop on Recognition and Action for Scene Understanding (REACTS2017) / [ed] Jorge Dias George Azzopardi, Rebeca Marf, Málaga: REACTS , 2017, 71-83 s.Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

For natural and efficient verbal communication between a robot and humans, the robot should be able to learn names and appearances of new objects it encounters. In this paper we present a solution combining active sensing of images with text based and image based search on the Internet. The approach allows the robot to learn both object name and how to recognise similar objects in the future, all self-supervised without human assistance. One part of the solution is a novel iterative method to determine the object name using image classi- fication, acquisition of images from additional viewpoints, and Internet search. In this paper, the algorithmic part of the proposed solution is presented together with evaluations using manually acquired camera images, while Internet data was acquired through direct and reverse image search with Google, Bing, and Yandex. Classification with multi-classSVM and with five different features settings were evaluated. With five object classes, the best performing classifier used a combination of Pyramid of Histogram of Visual Words (PHOW) and Pyramid of Histogram of Oriented Gradient (PHOG) features, and reached a precision of 80% and a recall of 78%.

Ort, förlag, år, upplaga, sidor
Málaga: REACTS , 2017. 71-83 s.
Nationell ämneskategori
Datavetenskap (datalogi) Datorseende och robotik (autonoma system)
Identifikatorer
URN: urn:nbn:se:umu:diva-138290ISBN: 978-84-608-8176-6 (tryckt)OAI: oai:DiVA.org:umu-138290DiVA: diva2:1133829
Konferens
Fourth International Workshop on Recognition and Action for Scene Understanding (REACTS2017), August 25, 2017, Ystad, Sweden
Tillgänglig från: 2017-08-17 Skapad: 2017-08-17 Senast uppdaterad: 2017-11-03Bibliografiskt granskad

Open Access i DiVA

fulltext(5286 kB)1 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 5286 kBChecksumma SHA-512
cd5edd63e74155531c29f76d69a259dbbcd15557ec9560c596f9ac9bc018545bb3f23ffdf612b707cd372e30ccb4ce311e62ba5cc296140d1e16c6c2bc1ba5b7
Typ fulltextMimetyp application/pdf

Övriga länkar

URL

Sök vidare i DiVA

Av författaren/redaktören
Bensch, SunaHellström, Thomas
Av organisationen
Institutionen för datavetenskap
Datavetenskap (datalogi)Datorseende och robotik (autonoma system)

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 1 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

Totalt: 82 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf