Sobre o SDSS
 Os Telescópios
 Os Instrumentos
 Os Dados
     - Imagens
     - Termos
     - Espectros
     - Bases de Dados
 Primeiras Descobertas
 Data Releases
 Detalhes dos Dados
 www.sdss.org
Dados do SDSS

Processando os Dados

Em uma noite limpa e escura, a luz que viajou através do espaço durante bilhões de anos, chega ao topo das montanhas do sul do Novo México e entra na sofisaticada instrumentação do telescópio de 2,5 metros do SDSS. A luz deixa de existir como fótons, mas a informação nela contida persiste sob a forma de imagens digitais gravadas em fitas magnéticas. Cada imagem é composta de uma miríade de pixels (elementos de imagem); cada pixel captura o brilho de de cada pequeno ponto do céu.

Mas o céu não é feito de pixels. A tarefa dos gerenciadores de dados do Sloan Digital Sky Survey é transformar dados digitais - os pixels eletronicamente gravados no topo da montanha no Novo México - e transformá-los em informações reais sobre objetos reais. Os astrônomos processam os dados para produzir informações que eles possam usar para identificar e medir propriedades de estrelas e galáxias. Os astrônomos devem ser capazes de encontrar, distingüir e medir o brilho de objetos celestes e então organizar as estrelas, galáxias e quasares em um catálogo.

Os experts em computação comparam o projeto a algo como criar uma lista telefônica de Manhattan dos céus. Cada estrela é como uma pessoa na lista telefônica, com um nome e endereço. Existem até páginas amarelas neste catálogo celeste: o levantamento espectroscópico, uma seção contendo um número menor de itens com informações mais detalhadas. Os dados digitalizados dos espectros dão informações a respeito das velocidades com as quais as galáxias se afastam da Terra, permitindo-nos calcular as suas distâncias.

Os cientistas precisam primeiro processar os dados rapidamente (em menos de uma semana) porque os astrônomos do SDSS necessitam das informações para configurar os telescópios para funcionar da forma mais eficiente durante a próxima fase escura da lua. Se passar muito tempo, os objetos alvo irão se por, conforme as estações mudam.

Os cientistas do Fermilab têm liderado o desenvolvimento daquilo que o SDSS chama de "pipelines" de processamento de dados. Um pipeline é um programa de computador que processa automaticamente dados digitalizados para extrair certos tipos de informação. O termo "pipeline" [encanamento] denota a natureza automatizada deste processamento; os dados "fluem" através dos "encanamentos" com pouca intervenção humana. Por exemplo, o pipeline astrométrico, construído por cientistas da computação do U.S. Naval Observatory, determina as exatas posições bidimensionais de estrelas e galáxias no céu. Neste caso, dodos digitalizados de fótons que atingem o telescópio de 2,5 m entram em um lado do pipeline astrométrico e posições de objetos saem do outro lado. Entre uma ponta e outra, ao longo do caminho do pipeline, os programas convertem pixels em informações reais.

Os pipelines de dados são resultado de uma colaboração. A Princeton University scientists construiu o pipeline fotométrico e os cientistas da University of Chicago criaram o pipeline espectroscópico. A contribuição do Fermilab inclui inclui o pipeline do telescópio de monitoramento e o que seleciona candidatos para o levantamento espectroscópico. O Fermilab também coordena a boa operação de todos os pipelines.

O processamento de informação no SDSS começa quando os CCDs coletam a luz. "Pacotes" de carga são convertidos em sinais digitalizados e escritos em fitas no próprio observatório. As fitas viajam do Apache Point até o Fermilab por carregamento expresso. As fitas vão para o Feynman Computing Center do Fermilab, onde seus dados são lidos e enviados para vários pipelines: dados espectroscópicos para o pipeline espectroscópico, dados de monitoramento do telescópio para o pipeline de monitoramento, e dados de imageamento para os pipelines de astrometria, fotometria, seleção de alvos e dois outros. Desses pipelines saem infomações sobre estrelas, galáxias e quasares. Essa informção é inserida na Base de Dados de Operações, escrita no Fermilab e no Naval Observatory, que coletam as informações necessárias para manter o projeto funcionando.

Finalmente, as informações da Base de Dados de Operações serão passadas para a base de dados científica desenvolvida pelos cientistas da Johns Hopkins University. Esta base de dados científica tornará os dados prontamente disponíveis aos cientistas do projeto.


Terminologia no SDSS

Para entender como as informações são processadas, convém entender os termos usados pelos cientistas do SDSS para descrever os dados:

Um scanline ["linha de varredura"] são os dados de um único conjunto de CCDs que varrem a mesma área do céu. Cada conjunto de 5 CCDs é acomodado em uma câmara refrigerada, sendo que cada uma delas contém 6 conjuntos de CCDs separados por 80% da largura do CCD. A área do céu varrida pelas 6 colunas de CCDs, ou "camcols", é chamada de strip [faixa]. Uma dada área do céu é imageada realizando-se duas varreduras sucessivas, deslocadas entre si por aproximadamente uma largura do CCD, para preencher um stripe [listra].

O fluxo de dados de cada CCD em uma scanline é cortado em uma série de frames [quadros] que medem 2048 x 1489 pixels e se sobrepõem em 10% com os frames adjacentes. Os frames dos 5 filtros para uma dada parte do céu são chamados de field [campo].

Um run ["corrida"] é o conjunto de dados coletados por uma passagem contínua do telescópio de 2,5 m pelo céu, cobrindo uma strip. Tipicamente, um run leva algumas horas para ser feito.

As Imagens

O objetivo do SDSS é fazer imagens de todos os objetos mais brilhantes que magnitude 23 em 1/4 do céu, na área do Pólo Norte Galactico, em cinco diferentes comprimentos de onda da luz. Devido ao modo como o telescópio opera, os dados são coletados em uma malha contínua. Os dados são passados para uma série de pipelines interconectados, que corrigem defeitos, calculam e aplicam as calibrações astrométricas e fotométricas, medem o fundo de céu e encontram, medem e catalogam objetos. Já que a última etapa é, de longe, a mais demorada, o fluxo de dados é subdividido em uma série de campos, cada um deles processado independentemente.

Calibrações astrométricas (que designam coordenadas precisas a cada objeto) são executadas pelo pipeline astrométrico (Astrom). As calibrações fotométricas (que medem as condições da atmosfera durante cada run) são produzidas pelo pipeline do telescópio de monitoramento (MT). Já que as estrelas usadas nesta calibração são muito brilhantes para serem observadas pelo telescópio principal de 2,5 m, algumas áreas de céu que se sobrepõem às varreduras do 2,5 m são observadas com o Telescópio de Monitoramento. Essas áreas secundárias são usadas para fazer a ligação entre o sistema fotométrico MT e as observações principais do 2,5 m.

Fluxograma do processamento
de dados do SDSS.
Clique para uma imagem maior.

O pipeline fotométrico (Photo) converte os dados de imageamento em informações sobre os objetos celestes. O Photo consiste de três pipelines sucessivos. O último deles, o pipeline dos Frames, opera em um certo conjunto de cinco frames que cobrem um field. O Photo corrige alguns dos artefatos (colunas ruins, raios cósmicos, etc), compensa pelo fundo do detector e por variações de sensibilidade, encontra objetos em dois estágios (brilhante e fraco), busca objetos de baixo brilho superficial e combina os objetos nos cinco filtros. Em seguida, os objetos são medidos (posição, tamanho, formato, contagens) e classificados; objetos compostos são resolvidos para se obter informações sobre os membros individuais, e são recortadas imagens para o atlas. Finalmente, é impressa uma série de saídas: tabelas com os parâmetros medidos, frames corrigidos, frames quadrados de quatro pixels do céu com objetos subtraídos, imagens de atlas, frames de máscara (para cobrir erros tais como pixels saturados ou interpolados) e resumos estatísticos de cada frame.


Para executar esses cálculos, o pipeline Frames precisa conhecer as propriedades dos detectores e do fundo de céu. Essas propriedades são calculadas pelo Postage Stamp Pipeline (PSP) [Pipeline de "Selos de Correio"], que calcula essas quantidades para todo um run e as interpola ao centro de cada frame. O PSP utiliza recortes de imagens de estrelas brilhantes (mas não saturadas), rejeita estrelas impróprias (binárias, etc) e calcula os parâmetros de uma simples point spread function (PSF) ["função de espalhamento de um ponto"] - o formato da imagem de uma estrela. Esses recortes são feitos pelo Serial Stamp Collecting Pipeline (SSC) [Pipeline "Coletor de Selos em Série"], que também alinha os frames em um field. Abaixo, mostramos exemplos de alguns passos do processamento executado em parte de um frame. Clique na figura para uma imagem maior.

Etapas de Processamento

Um frame de dados brutos. A diferença no nível de bias ["viés"] dos dois amplificadores é visível.

Frame com bias corrigido mas com pixels saturados, colunas ruins e raios cósmicos sob uma máscara verde.

Frame corrigido pelos pixels saturados, colunas ruins e raios cósmicos.

Detecções de Objetos Brilhantes marcadas em azul.

Detecções de OBjetos Fracos marcadas em vermelho.

Objetos Medidos, com máscara e delimitados por caixas. Pequenas caixas vazias são objetos detectados apenas em outras bandas.

Objetos Medidos no frame de dados.

Imagem reconstruída usando postage stamps de objetos individuais e fundo de céu da imagem.


Uma vez que os dados do imageamento tenham passadp poe estes pipelines, as imagens dos cinco filtros podem ser combinadas para fazer belas imagens coloridas. acessíveis por este site. Além disso, os parâmetros medidos de todos os objetos são armazenados em uma base de dados onde os astrônomos podem fazer buscas para encontrar os objetos que eles têm interesse em estudar.

Espectros

As observações espectroscópicas têm três objetivos:
Redshifts: Para saltar de imagns bidimensionais para um mapa tridimensional do universo, nós precisamos conhecer os redshifts, ou o quanto o espectro de um objeto está deslocado, comparado aos objetos que não estão se movendo com relação à Terra. Redshifts nos permitem estimar a distância de galáxias e quasares.
Classificação: Nós queremos saber quais objetos são galáxias, quais são estrelas e quais são quasares; e quais são novos objetos ainda não descobertos.
Fluxo/Comprimento de Onda: Os espectro nos dão propriedades detalhadas dos objetos, tais como composição química.

O pipeline de dados espectroscópicos é feito para gerar essas importantes quantidades.

Assim como os dados de imageamento, os dados espectroscópicos também são processados por um grande pipeline, que recebe informação do CCD e devolve espectros completamente processados. A primeira parte do pipeline aplica correções devidas a problemas e características do detector. Estas correções requerem certos outros tipos de informação:
Imagens de Flat Field: imagens que servem para determinar como a óptica do telescópio e o espectrógrafo respondem a luz uniforme.
Lâmpadas Fluorescentes: espectros com linhas de emissão de um gás excitado bem conhecido (como neônio), que nos permitem relacionar a posição na imagem com o comprimento de onda.
Espectros do Céu: várias fibras em cada placa são reservadas para céu vazioç elas nos permitem subtrair o espectro de fundo do céu.
Estrelas Padrão: estrelas que têm propriedades conhecidas, usadas para relacionar a intensidade medida com unidades apropriadas de fluxo.
flat field
lâmpada
observação

Além de tudo isso, são feitas correções para compensar pela absorção da atmosfera da Terra (correção telúrica) e pelo desvio Doppler causado pelo movimento da Terra ao redor do Sol (correção heliocêntrica).

Uma vez que todas estas correções tenham sido aplicadas, o pipeline extrai espectros individuais dos objetos e então produz um espectro unidimensional (fluxo em função do comprimento de onda) para cada objeto. Estes espectro unidimensionais devem ser calibrados em comprimento de onda, as partes vermelha e azul juntadas, e o espectro identificado.

A última tarefa, identificação espectral, é importante e complexa. OS espectros de galáxias podem variar muito, e os espectros de estrelas, quasares e outros tipos de objetos são diferentes entre si. Não apenas as propriedades intrínsecas destes objetos variam, como eles podem estar em diferentes redshifts, o que faz com que nós vejamos uma parte diferente do espectro. Para que esses espectros façam sentido, o programa tenta encontrar primeiro todas as linhas de emissão (características espectrais devidas à emissão de comprimentos de onda de luz específicos pelos átomos ou moléculas) e identificá-las. Então, o espectro todo é comparado com uma série de "templates" [modelos] - certos espectros-padrão de diferentes tipos de objetos - que verificam quão bem um dado espectro se relaciona com cada template em diferentes redshifts. A melhor associação nos diz qual é o tipo de objeto que estamos observando e, ainda, qual seu redshift.

Um espectro de galáxia em quatro diferentes redshifts (0.0, 0.05, 0.10, 0.15, 0.20)

As Bases de Dados

O Projeto Lógico

As informações processadas são armazenados em bases de dados. O "logical database design" [projeto lógico da base de dados] consiste de objetos fotográficos e espectroscópicos. Eles são organizados em um par de "snowflake schemas" ["esquemas floco-de-neve"]. Existem modos de visualização e vários índices que dão acesso de forma conveniente aos subconjuntos convencionais (tais como estrelas e galáxias). Há procedimentos e índices definidos para tornar buscas espaciais convenientes e rápidas.

O diagrama da base de dados do SDSS DR1.

Como os programas de processamento de dados passaram por mudanças substanciais desde o início do projeto, estamos mantendo duas versões diferentes das nossas imagens processadas. Primeiramente, armazenamos a versão dos dados processados como eles estavam no momento em que os alvos para observação espectroscópica foram selecionados. A esta base de dados chamamos TARGDR1, onde DR1 designa o número da versão: Data Release 1.

Depois de os dados terem sido processados com a melhor versão disponível do programa, esses objetos são armazenados na base de dados BESTDR1. O "schema" das duas bases de dados é idêntico e muitos dos objetos aparecem em ambas, mas devido à melhor manipulação do ruído, o número de objetos em BESTDR1 é um pouco maior.

O Projeto Físico

O SkyServer inicialmente adotou uma abordagem simples para o projeto da base de dados - e já que funcionou, paramos por aí. Este projeto conta com mecanismo de armazenamento SQL [Structured Query Language] e com um otimizador de buscas para tomar todas as decisões inteligentes sobre a disposição e o acesso aos dados.

A quantidade total de dados em ambas as bases é de 818GB e o número total de linhas excede 3,4 bilhões.

Filegroups BESTDR1TARGDR1
data 1 200
PhotoOther 18.1  
PhotoObjAll 165.4  
PhotoTag 78.1 73.7
PhotoTagIndex 53.6  
PhotoObjIndex 66.3  
PhotoObjProfile 80  
PhotoObjMask 22 17.2
SpecObj 6  
Neighbors 24.2  
Frame 30 30
Log 4.2 2
Total 495.3 322.9
Countagem de arquivos e bytes nas tabelas principais.
Os índices quase dobram o espaço.

As tabelas de dados são todas criadas em vários grupos de arquivos. Os arquivos da base de dados estão distribuídos em um único volume RAIDO. Cada grupo de arquivos contém vários arquivos que estão limitados a 50Gb cada. Os arquivos de log e dados temporários também estão espalhados por esses discos. O servidor SQL cobre as tabelas percorrendo todos os arquivos e portanto, todos os discos. Ele detecta acesso sequencial, cria caminhos de acesso paralelos e utiliza múltiplos processadores para analisar os dados tão rápido quanto os discos os produzem. Ao ler ou escrever, isso automaticamente fornece a soma das larguras de banda dos discos (mais de 400 MBps no pico, 180 MBps tipicamente) sem precisar de nenhuma programação a mais por parte do usuário.

Além dessa leitura ["striping"] de grupos de arquivos, o SkyServer usa todos os valores padrão do servidor SQL. Sem nenhum ajuste especial. Essa é a principal característica do servidor SQL - o sistema prentende ser suficientemente "sem nós" para que seja fácil de usar e tenha boa performance. O SkyServer demonstra esse objetivo.

SkyServer Pessoal

Um subconjunto de 1% da base de dados do SkyServer (cerca de 1,3 GB de dados do servidor SQL) pode ser comprimido para caber em um CD ou para baixar da rede. Isso inclui o website e todos os objetos fotométricos e espectroscópicos em uma área de cerca de 6º de céu. Esse SkyServer pessoal cabe em um computador pessoal. E é útil para se fazer experimentos de buscas, para desenvolver o website e para realizar demonstrações. Essencialmente, qualquer sala de aula pode ter um mini-SkyServer para cada estudante.