Holistic Grasping: Affordances, Grasp Semantics, Task Constraints
2019 (English)Doctoral thesis, monograph (Other academic)
Abstract [en]
Most of us perform grasping actions over a thousand times per day without giving it much consideration, be it from driving to drinking coffee. Learning robots the same ease when it comes to grasping has been a goal for the robotics research community for decades.
The reason for the slow progress lays mainly in the inferiority of the robot sensorimotor system. Robotic grippers are often non-compliant, lack the degrees of freedom of human hands, and haptic sensors are rudimentary involving significantly less resolution and sensitivity than in humans.
Research has therefore focused on engineering solutions that center on the stability of the grasp. This involves specifying complex functions and search strategies detailing the interaction between the digits of the robot and the surface of the object. Given the amount of variation in materials, shapes, and ability to deform it seems infeasible to analytically formulate such a gripper-to-shape mapping. Many researchers have instead looked to data-driven methods for learning the gripper-to-shape mapping as does this thesis.
Humans obviously have a similar mapping capability. However, how we grasp an object is determined foremost by what we are going to do with the object. We have priors on task, material, and the dynamics of objects that help guide the grasping process. We also have a deeper understanding of how shape and material relate to our own embodiment.
We tie all these aspects together: our understanding of what an object can be used for, how that affects our interaction with it, and how our hand can form to achieve the goal of the manipulation. For us humans grasping is not just a gripper-to-shape mapping it is a holistic process where all parts of the chain matters to the outcome. The focus of this thesis is thus on how to incorporate such a holistic process into robotic grasp planning.
We will address the holistic grasping process through three jointly connected modules. The first is affordance detection and learning to infer the common parts for objects that afford an action, a form of conceptualization of the affordance categories. The second is learning grasp semantics, how shape relates to the gripper configuration. And finally the third is to learn how task constrains the grasping process.
We will explore these three parts through the concept of similarity. This translates directly into the idea that we should learn a representation that puts similar types of the entities that we are describing, that is, objects, grasps, and tasks, close to each other in space. We will show that the idea of similarity based representations will help the robot reason about which parts of an object is important for affordance inference, which grasps and tasks are similar, and how the categories relate to each other. Finally, the similarity-based approach will help us tie all parts together in the conceptual demonstration of how a holistic grasping process might be realized.
Abstract [sv]
De flesta av oss greppar objekt över tusen gånger per dag utan att ge det mycket eftertanke, vare sig det är att köra bil eller att dricka kaffe. Att lära robotar liknande förmågor gällande manipulering har varit ett mål för robotforskningen i årtionden.
Anledningen till de långsamma framstegen ligger huvudsakligen i robotarnas underutvecklade sensorimotoriska system. Robothänder är ofta inflexibla, saknar möjligheter till komplexa konfigurationer jämfört med mänskliga händer. De haptiska sensorerna är rudimentära, vilket innebär betydligt lägre upplösning och känslighet vid beröring än hos människor.
Den nuvarande forskningen har därför koncentrerat sig på tekniska lösningar som fokuserar på stabiliteten i det slutgiltiga greppet. Detta innebär att man formulerar komplexa funktioner och sökstrategier som beskriver interaktionen mellan robotens fingar och objektets yta. Med tanke på mängden variation i material, former och förmåga att deformera verkar det otänkbart att kunna analytiskt formulera en sådan generell hand-till-form-funktion. Många forskare har istället börjat fokusera på metoder baserade på lärande från data, likså den här avhandlingen.
Människor har uppenbarligen en förmåga att synka hand till form. Hur vi greppar ett objekt bestäms emellertid främst av vad vi ska göra med objektet. Vi har en intern a priori uppfattning av hur handlingen, material och objektdynamiken styr grepp-processen. Vi har också en djupare förståelse för hur form och material relaterar till vår egen hand.
Vi knyter samman alla dessa aspekter: vår förståelse för vad ett föremål kan användas för, hur den användningen påverkar vår interaktion med det och hur vår hand kan formas och placeras för att uppnå målet för manipulationen. För oss är grepp-processen inte bara en hand-till-form funktion utan en holistisk process där alla delar av kedjan är lika viktiga för resultatet. Innehållet i denna avhandling handlar således om hur man införlivar en sådan process i en robots planering av maipulationsmomentet.
Vi kommer ta oss an den holistiska processen genom tre sammankopplade moduler. Den första är att låta roboten detektera interaktionsmöjligheter och förstå vilka delar av ett objekt som är viktiga för att möjliggöra interaktionen, en form a konceptualisering av interaktionsmöjligheten. Den andra modulen handlar om utlärning av grepp semantik, hur form relaterar till den egna handens förmåga. Slutligen är sista modulen fokuserad på hur man lär roboten hur målet med interaktionen påverkar möjliga grepp på objektet.Vi kommer att utforska dessa tre delar genom begreppet affinitet. Detta begrepp translateras direkt till idén att vi lär oss en representation som sätter liknande typer av entiteter, det vill säga objekt, grepp, och mål, nära varandra i representationsrymden.
Vi kommer att visa att idén om affinitetsbaserade representationer kommer att hjälpa roboten a resonera kring vilka delar av ett objekt som är viktiga för inferens, vilka grepp och mål som liknar varandra och hur de olika kategorierna relaterar till varandra. Slutligen kommer ett affinitetsbaserat tillvägagångssätt att hjälpa oss att knyta samman alla delar i en demonstrationen av en holistisk grepp-process.
Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2019. , p. 178
Series
TRITA-EECS-AVL ; 2019:48
Keywords [en]
robotics, robotic grasping, grasping, cognition, embodied cognition, computer vision, machine learning, artificial intelligence, AI, Gaussian process, Gaussian process latent variable model, GPLVM, 3D vision, point cloud features
Keywords [sv]
robotik, manipulation, datorseende, maskininlärning, artificiell intelligens, kognition
National Category
Computer graphics and computer vision
Research subject
Computer Science
Identifiers
URN: urn:nbn:se:kth:diva-251388ISBN: 978-91-7873-203-6 (print)OAI: oai:DiVA.org:kth-251388DiVA, id: diva2:1315362
Public defence
2019-06-04, D2, Lindstedtsvägen 5, 114 28 Stockholm, Stockholm, 10:00 (English)
Opponent
Supervisors
Note
QC20190514
2019-05-142019-05-132025-02-07Bibliographically approved