Über SDSS
 Die Teleskope
 Die Instrumente
 Die Daten
     - Bilder
     - Fachwortschatz
     - Spektren
     - Datenbanken
 Erste Entdeckungen
 Datenfreigabe
 Details der Daten
 www.sdss.org
Die SDSS Daten

Die Verarbeitung der Daten

In einer klaren, dunklen Nacht, berührt Licht, das seit einer Milliarde Jahren durch das All unterwegs war, eine Bergspitze in New Mexiko, und dringt in die hochentwickelte Geräteausstattung des 2,5 Meter Teleskops der SDSS ein. Das Licht beendet seine Existenz in Form von Photonen, aber es lebt weiter in den Daten, als digitale Bilder, die auf einem magnetischen Band aufgenommen werden. Jedes Bild besteht aus unzähligen Pixel (Bildelementen); jedes Pixel fängt die Helligkeit von jedem winzigen Punkt unseres Himmels ein.

Aber der Himmel setzt sich nicht aus Pixel zusammen. Die Aufgabe der Datenmanager der Sloan Digital Sky Survey besteht darin, die digitalisierten Daten zu nehmen - die Pixel, die auf der Bergspitze in New Mexiko elektronisch verschlüsselt wurden - und sie in reelle Informationen über tatsächliche Dinge umzuwandeln. Astronomen verarbeiten die Daten, um Informationen zu gewinnen, die sie dafür nutzen können, die Eigenschaften von Sternen und Galaxien zu identifizieren und zu messen. Die Astronomen müssen fähig sein die Helligkeit der Himmelsobjekte zu erfassen, zu differenzieren und zu messen, um danach die Sterne, Galaxien und Quasare in einem Verzeichnis zu sammeln.

Computerexperten sehen das Projekt so, als ob man ein Telefonbuch von Manhattan für den Himmel anlegen würde. Jeder Stern ist wie eine Person in dem Telefonbuch, mit einem Namen und einer Adresse. Es gibt selbst so was wie die Gelben Seiten in dem Himmelsverzeichnis: die Spektraldurchmusterung, ein Bereich, der eine kleinere Anzahl an Einträgen enthält, aber mit detaillierteren Informationen. Die digitalisierten Spektraldaten beinhalten Informationen über die Geschwindigkeit von Galaxien, mit der sie sich von der Erde entfernen, aus welcher wir berechnen können, wie weit entfernt sie sind.

Die Wissenschaftler müssen zunächst die Daten sehr schnell verarbeiten (innerhalb einer Woche), da die SDSS Astronomen die Informationen brauchen, um ihr Teleskop so effizient wie möglich während der nächsten dunklen Mondphase, auszurichten. Wenn zu viel Zeit vergeht, gehen die Zielobjekte während der Jahreszeit unter.

Die Wissenschaftler vom Fermilab haben das Bestreben geleitet, das zu entwickeln, was die SDSS Datenverarbeitungs-Pipelines nennt. Eine Pipeline ist ein Computerprogramm, das digitalisierte Daten automatisch verarbeitet, um bestimmte Informationen heraus zu filtern. Der Begriff "Pipeline" deutet den automatisierten Charakter der Datenverarbeitung an; die Daten "fließen" ohne menschliche Einmischung durch die Pipelines. Zum Beispiel bestimmt die Astrometrische Pipeline, die von Computerwissenschaftlern am U.S. Naval Observatorium erstellt wurde, die absolut präzisen zweidimensionalen Positionen der Sterne und Galaxien im Himmel. In diesem Fall gehen die digitalisierten Daten von den Photonen, die das 2,5 Meter Teleskop erreichen, in das eine Ende der astrometrischen Pipeline, und die objektiven Positionen kommen auf der anderen Seite heraus. Dazwischen, entlang der Pipelinelänge, wandelt die Software Pixel in tatsächliche Informationen um.

Die Datenpipelines sind eine gemeinschaftliche Leistung. Wissenschaftler der Princeton University haben eine photometrische Pipeline gebaut, und Wissenschaftler der University of Chicago erstellten eine spektroskopische Pipeline. Der Beitrag von Fermilab beinhaltet die Monitor-Teleskop Pipeline und die Pipeline, welche die Kandidaten für die spektroskopische Durchmusterung auswählt. Fermilab stimmt auch die reibungslosen Arbeitsvorgänge von all den Pipelines ab.

Die Informationsverarbeitung beginnt für die SDSS wenn die CCDs Licht aufgefangen haben. Geladene "Eimer" werden zu digitalisierten Signalen umgewandelt, und auf Band am Observatorium festgehalten. Die Bänder wandern per Eilbote vom Apache Point zum Fermilab. Sie gehen in das Feynman Computerzentrum des Fermilab, wo ihre Daten gelesen und in etliche Pipelines geschickt werden: spektroskopische Daten in die spektroskopische Pipeline, Monitor-Teleskop Daten in die Monitor Pipeline und darstellende Daten in die astrometrische und photometrische Zielauswahl, und zwei weitere Pipelines. Informationen über Sterne, Galaxien und Quasare kommen dann aus den Pipelines raus. Diese Information ist in der Unternehmensdatenbank erfasst, die in Fermilab und dem Naval Observatorium geschrieben wird, welche die nötigen Informationen darüber sammelt, um Sky Survey am laufen zu halten.

Schließlich werden die Experimentatoren die Informationen aus der Unternehmensdatenbank an die wissenschaftliche Datenbank weiterreichen, die von den Wissenschaftlern an der Johns Hopkins Universität entwickelt wurde. Die wissenschaftliche Datenbank wird die Daten bereitwillig den Wissenschaftlern an dem Projekt zur Verfügung stellen.


Der SDSS Fachwortschatz

Um zu begreifen, wie Daten verarbeitet werden, hilft es die Fachbegriffe zu verstehen, die die SDSS Wissenschaftler anwenden, um die Daten zu beschreiben:

Eine Scanline sind Daten von einer einzelnen CCD Reihe, die denselben Bereich des Himmels abtastet. Jede der fünf CCD Reihen befindet sich in einem Dewargefäß: jedes Dewargefäß hat 6 Reihen von CCDs, die durch 80% der CCD-Breite voneinander getrennt sind. Das Himmelsgebiet, das von den 6 CCD Reihen, oder auch "Camcols", abgetastet wird, heißt Streifen. Ein bestimmter Himmelsbereich wird so abgebildet, dass zwei aufeinanderfolgende Abbildungen gemacht werden, die beinahe eine CCD Breite versetzt sind, um einen Streifen auszufüllen.

Der Datenstrom von einem einzelnen CCD in einer Scanline wird in eine Folge von Bildern zerlegt, die 2048 x 1489 Pixel messen, und sich 10% mit den anschließenden Bildern überschneiden. Die Bilder in den fünf Filtern, über demselben Teil des Himmels, werden Felder genannt.

Ein Lauf ist die Folge von Daten, die von einem ununterbrochenen Durchlauf des 2,5 m Teleskops über den Himmel gesammelt werden, und einen Streifen abdecken. Normalerweise dauert ein Lauf einige Stunden.

Die Bilder

Das Ziel der SDSS ist alle Objekte, die heller als die 23. Größenordnung sind, über einem Viertel des Himmels, schätzungsweise das Gebiet der nördlich galaktischen Hemisphäre, in fünf verschiedenen Wellenlängen abzubilden. Aufgrund der Art und Weise, wie das Teleskop arbeitet, werden die Daten wie ein durchgehendes Wandbild gesammelt. Die Daten werden weitergereicht an eine Reihe abgestimmt arbeitender Pipelines, welche die Daten von Fehlern befreien, astrometrische und photometrische Einstellungen berechnen und ansetzen, den Himmelhintergrund abmessen, und Objekte erfassen, messen und verzeichnen. Da der letzte Schritt bei weitem der zeitaufwendigste ist, wird der Datenstrom in eine Folge von Feldern aufgeteilt, wobei jedes unabhängig verarbeitet wird.

Die astrometrischen Kalibrierungen (weisen jedem Objekt exakte Koordinaten zu) werden von astrometrischen Pipelines (Astrom) durchgeführt. Die photometrischen Kalibrierungen (welche den Zustand der Atmosphäre während eines jeden Laufs messen) werden von den Monitor-Teleskop Pipelines (MT) gemacht. Weil die Sterne, die in diesen Kalibrierungen verwendet werden, zu hell sind, um mit dem 2,5 m Hauptteleskop beobachtet zu werden, betrachtet man Himmelsabschnitte, die die 2,5 m Abtastungen überdecken, mit dem Monitor Teleskop. Diese zusätzlichen Füllstücke, werden dazu verwendet, um das photometrische MT System an die 2,5 m Hauptbeobachtungen zu binden.

Das Ablaufdiagramm der SDSS
Datenverarbeitung.
Für ein größeres Bild anklicken.

Die photometrische Pipeline (Photo) wandelt die darstellenden Daten in Informationen über die Himmelsobjekte, um. Die Photo besteht aus drei aufeinanderfolgenden Pipelines. Die letzte dieser Art, die Bilder-Pipeline, arbeitet an unabhängigen Reihen von fünf Bildern, die ein Feld abdecken. Die Photo korrigiert jedes Bild von Fehlern (schlechte Spalten, kosmische Lichtstrahlen etc.), beseitigt den Detektorhintergrund und Anfälligkeitsvariationen, findet Objekte auf zwei Stufen (hell und schwach), sucht nach Objekten mit niedrigeren Oberflächenhelligkeiten, und kombiniert die Objekte in den fünf Filtern. Dann misst die Photo die Objekte (Position, Größe, Form, Auszählung), klassifiziert sie, löst zusammengesetzte Objekte auf, um Informationen über die einzelnen Bestandteile zu bekommen, und schneidet Atlasbilder. Dann schreibt Photo eine Reihe von Ausgaben: Tabellen von gemessenen Parametern, korrigierte Bilder, Himmelsbilder, welche vier Pixel breite Quadrate mit einzelnen Objekten sind, Atlasbilder, Maskenbilder (um solche Fehler abzudecken, wie durchtränkte oder eingefügte Pixel), und Zusammenfassungen von Statistiken für jedes Bild.


Um diese Berechnungen auszuführen, muss die Bilder-Pipeline die Eigenschaften der Detektoren und des Himmelshintergrundes wissen. Diese Eigenschaften werden von der Postage Stamp Pipeline (PSP) ausgerechnet, welche diese Anzahl für den gesamten Lauf berechnet, und sie in die Mitte jedes Bildes einfügt. Die PSP verwendet Ausschnittsbilder von hellen (aber ungesättigten) Sternen, sortiert schlechte Sterne aus (doppelte Sterne, etc.), und berechnet die Parameter einer einfachen punktgestreuten Funktion (PSF) - die Form eines Himmelsbildes. Die Ausschnitte werden von der Serial Stamp Collecting Pipeline (SSC) gemacht, die ebenfalls die Bilder in ein Feld anpasst. Die unteren Abbildungen zeigen Beispiele von einigen Verarbeitungsschritten, die auf einem Teil eines einzigen Bildes ausgetragen werden. Um ein größeres Bild zu erhalten, klicke jede Abbildung an.

Verarbeitungsschritte

Ein Rohdatenbild. Der Unterschied der Verzerrungsstufen, von den zwei Verstärkern ist sichtbar.

Fehlerkorrigiertes Bild mit gesättigten Pixel, schlechten Spalten und kosmischen Lichtstrahlen, die grün markiert sind.

Das Bild korrigiert von gesättigten Pixeln, schlechten Spalten und kosmischen Strahlen.

Nachweise von hellen Objekten blau markiert.

Nachweise undeutlicher Objekte rot markiert.

Gemessene Objekte, verdeckt und umschlossen von Kästen. Kleine leere Kästen sind Objekte, die nur in einem anderen Streifen entdeckt wurden.

Bemessene Objekte in dem Datenbild.

Das rekonstruierte Bild mittels Postage Stamps von einzelnen Objekten und dem Himmelshintergrund des Bildes eingelagert.


Haben die Bilddaten erst einmal diese Pipelines durchlaufen, können die Bilder von den fünf Filtern zusammengesetzt werden, um wunderschöne Farbbilder zu erzeugen, die auf dieser Seite verfügbarsind. Zudem sind alle gemessenen Parameter aller Objekte in einer Datenbank gespeichert, so dass Astronomen Objekte suchen können, für die sie sich näher interessieren.

Spektren

Die spektroskopischen Untersuchungen haben drei Absichten:
Rotverschiebungen: Um von einem zweidimensionalen Bild zu einer dreidimensionalen Karte zu gelangen, müssen wir die Rotverschiebungen messen, oder wie weit sich das Spektrum des Objekts verschoben hat, im Vergleich dazu, wenn sich das Objekt nicht relativ zur Erde bewegen würde. Rotverschiebungen erlauben es uns, die Entfernungen zu Galaxien und Quasaren zu bestimmen.
Klassifikation: Wir wollen wissen welche Objekte Sterne, welche Galaxien, welche Quasare, und welche neue Objekte sind, die noch erforscht werden müssen.
Fluss/Wellenlänge: Die Spektren können uns über detaillierte Eigenschaften von Objekten Auskunft geben, so wie die chemische Zusammensetzung.

Die spektroskopische Datenpipeline wurde entwickelt, um diese wichtigen Maße zu ermitteln.

Wie die Bilddaten werden die spektroskopischen Daten von einer großen Pipeline verarbeitet, welche die Eingabedaten der CCDs nimmt, und ein völlig verarbeitetes Spektrum ausgibt. Der erste Teil der Pipeline betrifft die Korrektur der Detektorprobleme und Charakterisierungen. Diese Verbesserungen erfordern eine Anzahl weiterer Daten:
Flachfeldbilder: Bilder, die helfen zu bestimmen, wie die Teleskopoptik und das Spektrogramm auf einheitliches Licht reagieren.
Bogenlampen: Emissionslinienspektren von wohl bekannten angeregten Gasen (wie Neon in Neonschildern), die es uns ermöglichen die Position auf dem Bild mit der Wellenlänge in Verbindung zu setzen.
Himmelsspektren: etliche Fasern auf jeder Platte werden dem blanken Himmel gewidmet; diese erlauben es uns, das Hintergrundspektrum des Himmels abzuziehen.
Gewöhnliche Sterne: Sterne mit bekannten Eigenschaften, haben früher den gemessenen Stärkegrad mit den geeigneten Flussgeräten in Beziehung gesetzt.
Flachfeld
Bogenlampe
Wissenschaftliche Beobachtung

Des weiteren wird eine Korrektur vorgenommen, wegen der Abschöpfung der Erdatmosphäre (Erdkorrektur) und der Doppler-Verschiebung, aufgrund der Erdbewegung um die Sonne (heliozentrische Korrektur).

Sind erst einmal all diese Korrekturen angewendet, entnimmt die Pipeline einzelne Objektspektren, und erzeugt dann ein eindimensionales Spektrum (Fluss als eine Wellenlängenfunktion) für jedes Objekt. Diese eindimensionalen Spektren müssen auf Wellenlängen geeicht sein, ihre roten und blauen Hälften müssen hinzugefügt werden, und dann kann das Spektrum identifiziert werden.

Die letzte Aufgabe der Spektralermittlung ist wichtig, aber schwierig. Die Spektren von Galaxien können stark schwanken, und Spektren für Sterne, Quasare und andere Objekttypen sehen unterschiedlich aus. Nicht nur dass die wesentlichen Eigenschaften dieser Objekte voneinander abweichen, sondern sie können auch ganz andere Rotverschiebungen haben, was bedeutet, dass wir einen anderen Teil ihres Spektrums betrachten. Um all diese Spektren zusammen zu reimen, versucht die Software erst einmal alle Emissionslinien zu finden (Spektralbesonderheiten aufgrund von der Emission spezieller Lichtwellenlängen von Atomen oder Molekülen) und sie festzulegen. Dann wird das gesamte Spektrum mit einer Reihe von Vorlagen verglichen - gewöhnliche Spektren von verschiedenen Sorten von Objekten - die prüfen, wie gut das Spektrum zu jeder Vorlage mit unterschiedlichen Rotverschiebungen passt. Die beste Übereinstimmung sagt uns, was für einen Objekttyp wir betrachten, und gleichzeitig auch die Rotverschiebung des Objekts.

Ein Galaxiespektrum mit vier unterschiedlichen Rotverschiebungen
(0,0; 0,05; 0,10; 0,15; 0,20)

Die Datenbanken

Der logische Aufbau der Datenbanken

Die verarbeiteten Daten werden in Datenbanken gespeichert. Der sinngemäße Aufbau einer Datenbank enthält fotografische und spektrografische Objekte. Sie sind organisiert in ein Paar von Schneeflocken-Übersichten. Ausgewählte Ansichten und viele Verzeichnisse ermöglichen einen bequemen Zugang zu den herkömmlichen Untermengen (so wie Sterne und Galaxien). Vorgänge und Verzeichnisse sind so festgelegt, dass sie regionale Zugriffe zuverlässig und schnell ermöglichen.

Die Datenbankdarstellung für die SDSS DR1 Datenbanken

Da sich die Datenverarbeitungssoftware erheblichen Umänderungen seit dem Beginn der Durchmusterung unterziehen musste, speichern wir zwei verschiedene Versionen von unseren bearbeiteten Bildern. Zum einen speichern wir die Version der verarbeiteten Daten, die seit dem Moment eingefroren wurde, an dem die Ziele für die spektroskopischen Untersuchungen ausgewählt wurden. Diese Datenbank heißt TARGDR1, wobei DR1 die Versionsnummer bezeichnet: Datenfreigabe 1 (Data Release 1).

Als die Daten mit der besten verfügbaren Softwareversion verarbeitet wurden, speicherte man diese Objekte in die Datenbank BESTDR1. Die Darstellung der beiden Datenbanken ist identisch, und viele der Objekte kommen in beiden vor, aber aufgrund der besseren Handhabung von Störanfälligkeiten, ist die Anzahl der Objekte in BESTDR1 etwas größer.

Der technische Aufbau der Datenbanken

SkyServer hat zunächst einen einfachen Ansatz von dem Aufbau einer Datenbank durchgeführt - und da dieser funktionierte, hörten wir da auf. Der Aufbau zählt auf die SQL Aufbewahrung und den Abfrageoptimierer, um all diese intelligenten Entscheidungen über Datenentwurf und Datenzugriff zu machen.

Der Gesamtbetrag der Daten in den beiden Datenbanken beträgt 818 GB, und die Gesamtanzahl der Reihen überschreitet 3,4 Milliarden.

Dateigruppen BESTDR1TARGDR1
data 1 200
PhotoOther 18.1  
PhotoObjAll 165.4  
PhotoTag 78.1 73.7
PhotoTagIndex 53.6  
PhotoObjIndex 66.3  
PhotoObjProfile 80  
PhotoObjMask 22 17.2
SpecObj 6  
Neighbors 24.2  
Frame 30 30
Log 4.2 2
Gesamt 495.3 322.9
Die Anzahl der Datensätze und Bytes in den
Haupttabellen. Die Verzeichnisse verdoppeln
den Raum ungefähr.

Die Datentabellen wurden alle in etlichen Ordnergruppen erzeugt. Die Datenbankdateien sind über einen einzigen RAIDO Datenträger verteilt. Jede Dateigruppe enthält etliche Datenbankdateien, die jeweils auf ungefähr 50 GB beschränkt sind. Die log-Dateien und vorläufigen Datenbanken sind auch auf dieser Platte verteilt. Der SQL Server streift die Tabellen über diese Dateien und daher über all diese Platten. Er erfasst den sequenziellen Zugriff, erzeugt die parallelen Threads, und verwendet mehrere Prozessoren, um die Daten so schnell analysieren zu können, wie die Platten sie produzieren. Egal, ob man liest oder schreibt, dieses Verfahren gibt die Zusammenfassung der Festplattenbandbreite (über 400 MB/s maximal, 180 MB/s normalerweise) ohne ein spezielles Benutzerprogramm verwenden zu müssen.

Über dieses Dateigruppenstreifen hinaus, verwendet SkyServer alle vorgegebenen SQL Möglichkeiten. Es gibt keine besondere Abstimmung. Das ist das Markenzeichen des SQL Servers - das System bezweckt "keine Knöpfe" zu haben, so dass die Leistung recht gut ist. Der SkyServer ist ein Zeugnis dieses Ziels.

Der persönliche SkyServer

Eine 1%ige Teilmenge der SkyServer Datenbank (in etwa 1,3 GB der SQL Server Datenbank) hat (komprimiert) auf einer CD Platz, oder kann im Internet runtergeladen werden. Das beinhaltet die Webseite und all die Bilder und spektrographischen Objekte in einem 6º Quadrat des Himmels. Dieser persönliche SkyServer passt auf Laptops und Desktops. Es ist sinnvoll mit Erkundigungen zu experimentieren, um die Webseite zu entwickeln und Vorführungen zu veranstalten. Im Wesentlichen kann jedes Klassenzimmer einen kleinen SkyServer für jeden Schüler haben. Durch die Verbesserungen der CD Technik, wird bis 2005 ein größerer Teil der öffentlichen Daten auf eine einzige CD passen.