La spécification du MMS (Multimédia Messaging Service) utilise un sous-ensemble du SMIL 2.0 (appelé Smil Basic voir ci-dessous) comme format centrale de présentation multimédia. La spécification du 3GPP détaille tous les formats médias et codecs pouvant être utilisés dans un MMS.Sa structure peut être composée d'images, de gif animés, de texte, de son, de vidéo (3GP / MPEG4), il contient en générale plusieurs "slides" qui s'enchainent. La taille des fichiers sera fonction de 4 classes définies par les opérateurs. La taille maximum d’un MMS dépend à la foi de la capacité du terminal à qui il est adressé, et de la capacité du MMS-C de l’opérateur qui le remet (50-100K).
Le SMIL ou Synchonized Multimedia Integration Language permet de synchroniser divers éléments multimédia, tels que de la vidéo, du son, du texte...Ce langage s'appuie avant tout sur le XML, il est même entièrement basé sur celui-ci. Le W3C définit ce langage comme "une application XML qui décrit le format et le comportement temporel de présentation multimédia, et la façon dont les objets multimédias exploitent les liens hypertextes" .