Il Linguaggio HTML

Introduzione

WWW

Il World Wide Web (WWW) è una rete di risorse informative disponibili atrraverso Internet.

Le unità di informazione prendono il nome di documenti o pagine, e possono contenere collegamenti ad altri documenti che riportano informazioni correlate.

Per questa loro caratteristica, i documenti sono chiamati ipertesti o, quando contengono anche immagini, registrazioni di suoni o altri tipi di media, ipermedia.

Gli utenti possono accedere ai documenti, indipendentemente dalla loro locazione, tramite programmi interattivi, detti browser, o altri programmi multimediali.

Tali programmi permettono di trasferire i documenti, presentarne i contenuti, e navigare attraverso la rete di collegamenti ipertestuali.


Come la maggior parte delle applicazioni di rete, anche il Web adotta il paradigma client-server: il browser svolge il ruolo di client, iniziando la conversazione con un programma server in esecuzione sul calcolatore dove è memorizzato il documento richiesto dall’utente.

Il funzionamento del Web si basa sui seguenti tre meccanismi:

  1. uno schema di naming per localizzare in modo uniforme e univoco i documenti nelle rete (URI);
  2. un protocollo applicativo per il trasferimento delle informazioni fra client e server (HTTP);
  3. un linguaggio per descrivere la struttura del documento, e per definire i collegamenti ipertestuali tra documenti correlati (HTML).

Cenni storici

L'invenzione del Web, dovuta a Tim Berners Lee, può a buon diritto essere considerata una delle più importanti della storia dell'umanità.

1976
Laurea in Fisica al Queen's College, Oxford University, UK
1984
Consulente software al CERN, Geneva, Switzerland
1989
Scrive la prima proposta per un sistema ipertestuale globale
1990
Scrive il primo server e il primo browser. Le sue specifiche di URI, HTTP a HTML diventano gli elementi fondanti del WWW
2001
Fellow della Royal Society
2004
Millennium Technology Prize
2007
Order of Merit dalla Regina Elisabetta

Documenti e annotazioni

Un documento elettronico ha le seguenti caratteristiche:

Linguaggi di annotazione (mark-up)

Una tecnica per distinguere e descrivere tali caratteristiche consiste nell'utilizzare simboli di annotazione (o marcatori, o tag) "mescolandoli" al contenuto organizzato in elementi, e successivamente associare a tali elementi uno stile di presentazione.

XML, SGML, HTML, XHTML, VXML,..., RTF, TeX, .. tutti permettono di avere documenti interpretabili dal calcolatore e contemporaneamente comprensibili dagli umani.


Markup descrittivo o semantico

<titolo>Il Linguaggio HTML</titolo>
<paragrafo>blablabla</paragrafo>

oppure

<catalog>
<cd>
<title>Anime salve</title>
<artist>Fabrizio De André</artist>
...
</cd>
<cd>
...
</catalog>

Markup procedurale

<a capo>
<font size=..>
<interruzione pagina>

HTML 4.01


Sintassi di base

I documenti HTML sono costituiti da elementi.

Gli elementi di un documento HTML sono definiti dai tag, che hanno le seguenti caratteristiche:

    Questo <b> è <em> estremamente </em> </b> semplice.

Struttura di un documento HTML

I documenti sono formati da una intestazione, contenente una descrizione del documento ed eventuali informazioni di controllo, e da un corpo, contenente le informazioni strutturate in elementi. La struttura di base di un documento è:

<html>
<head>
<title> Titolo </title>
</head>
<body>
Prima pagina di esempio.
</body>
</html>

Validità di un documento

Per essere valido, un documento HTML deve dichiarare a quale versione è conforme secondo lo standard SGML (ISO8879).

HTML 4.01 prevede tre "document type definition" (DTD), una delle quali deve essere dichiarata in testa al documento con uno dei seguenti comandi:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
        "http://www.w3.org/TR/html4/strict.dtd">
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
        "http://www.w3.org/TR/html4/loose.dtd">
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Frameset//EN"
        "http://www.w3.org/TR/html4/frameset.dtd">

La dichiarazione della DTD permette di applicare al documento uno strumento validatore (validator.w3.org)


Meta Informazioni

Affinché un documento venga riferito dai motori di ricerca è opportuno fornire informazioni sul contenuto del documento. Tali informazioni, dette meta-informazioni, possono essere inserite nell'intestazione del documento usando gli elementi meta.

Ad esempio, è possibile specificare una serie di parole chiave. Per un sito che pubblicizza la vendita di frutta per corrispondenza in Italia, il meta potrà essere così impostato:

<meta name="keywords" Content="frutta,vendita per 
corrispondenza, Italia ">

Altri meta possono descrivere l'autore del documento:

<meta name="author" content="Nome e Cognome">

il titolo che apparirà alla fine della ricerca:

<meta name="description" content="Frutta per corrispondenza ">

il nome dell'editor con cui il documento è stato generato:

<meta name="GENERATOR" content="Notepad di WinXP">

Per impedire che il documento sia indicizzato nei motori di ricerca, si può inserire il seguente meta:

<meta name="ROBOTS" content="NOINDEX">

Un altro meta permette l'aggiornamento automatico di un documento dopo un dato intervallo di tempo:

<meta HTTP-EQUIV="Refresh" content="10"; url=frutta.htm">

il valore di content sono i secondi dopo i quali il documento localizzato da url=frutta.htm sarà caricato.


I commenti

Un commento è una parte di testo che non verrà visualizzata dal browser:

<!-- questo è un commento -->
<!-- e questo è un commento
che occupa più di una riga -->

Nell'intestazione si possono inserire informazioni commentate relative a:

 
inizio successiva