En 1998, Google lanzó su motor de búsqueda, inicialmente llamado Backrub, operando en un servidor de campus de Stanford con 40 GB de datos y alojado en un caso hecho de bloques duplo. A partir de 2025, las capacidades de búsqueda de Google requieren múltiples centros de datos. Ryan Pearce ha creado un motor de búsqueda de bricolaje llamado SearchA Page, incluida una versión centrada en la privacidad llamada Seek Ninja, con el servidor ubicado en su lavandería junto con su lavadora y secadora. Pearce afirma: “En este momento, en la lavandería, tengo más almacenamiento que Google en 2000. Y eso es una locura pensar”. El servidor estaba inicialmente en la habitación de Pearce, pero fue trasladado al cuarto de servicio debido al calor excesivo. “El calor no ha sido absolutamente terrible, pero si la puerta está cerrada durante demasiado tiempo, es un problema”, dice. Los resultados de SearchA Page están mejorando, con su base de datos que contiene 2 mil millones de entradas, se espera que alcancen los 4 mil millones en seis meses. En comparación, Google tuvo 24 millones de páginas en 1998 y 400 mil millones para 2020, como se revela durante los Estados Unidos v. Google LLC antimonopolio. El motor de Pearce utiliza modelos de idiomas grandes para la expansión de palabras clave y la comprensión del contexto. “Lo que estoy haciendo es realmente una búsqueda muy tradicional”, dice Pearce. “Es lo que Google hizo probablemente hace 20 años, excepto que el único ajuste es que uso la IA para hacer expansión de palabras clave y ayudar con la comprensión del contexto, que es lo difícil”. La IA ha sido una parte clave de los motores de búsqueda, incluidas herramientas como la búsqueda de imágenes inversas, el rankbrain de Google y los resultados de 90% de ML de Bing en 2019. Ahora se ve a la IA como una forma de construir y escalar los motores de búsqueda de manera eficiente. Pearce utiliza “Arbitraje de actualización”, comprando hardware de servidor antiguo pero potente. Su CPU AMD EPYC 7532 de 32 núcleos, que cuesta más de $ 3,000 en 2020, ahora cuesta menos de $ 200 en eBay. “Podría haber obtenido otro chip por el mismo precio, lo que habría tenido el doble de hilos, pero habría producido demasiado calor”, dice. Todo el sistema costó $ 5,000, con $ 3,000 gastados en almacenamiento. La base de código de Pearce es de alrededor de 150,000 líneas de código, con un estimado de 500,000 líneas de trabajo iterativo. SearchA Page y Buscar ninja Utilice sambanova para un acceso rápido al modelo LLAMA 3 a un bajo costo. Annie Shea Weckesser, CMO de Sambanova, señala que el acceso a modelos de bajo costo se está volviendo cada vez más esencial para los desarrolladores en solitario como Pearce, y agrega que la compañía está “brindando a los desarrolladores las herramientas para ejecutar modelos de IA potentes de manera rápida y asequible, ya sea que trabajen desde una configuración del hogar o que funcionen en producción”. Pearce usa el repositorio de rastreo común para construir su rastreador. “Realmente los aprecio. Ojalá pudiera devolverles algo, pero tal vez cuando soy más grande”, dice. Falló un intento inicial de usar una base de datos vectorial, lo que resultó en resultados “muy artísticos”. Pearce ahora usa resúmenes de páginas generados por LLM. Wilson Lin, otro desarrollador de motores de búsqueda de bricolaje, utiliza una herramienta de búsqueda de vectores creados por sí mismo llamada Corenn y se basa en nueve servicios de nube separados para mantener bajos los costos. “Es mucho más barato que [Amazon Web Services]—End, una cantidad significativa “, dice Lin.” Y me da suficiente capacidad para llegar a algún lugar con este proyecto con un presupuesto razonable “. Pearce originalmente imaginó un motor de búsqueda de sitios pequeños similar a Marginalia, favoreciendo los pequeños sitios sobre Big Tech. . . Creo que quería un motor de búsqueda sin censura que quería alimentar a través de su LLM, como la búsqueda de su agente “, dice. Expandir más allá de inglés requeriría nuevos conjuntos de datos. Pearce planea mover el motor de búsqueda a una instalación de colocación de una instalación de colocación una vez que el tráfico llega a un cierto umbral y genere modestos ingresos a través de los ingresos de estilo de estilo”. Lavandería para siempre “. La fecha límite de solicitud para los premios de empresas más innovadoras de Fast Company es el viernes 3 de octubre a las 11:59 p.m. PT.
Source: SearchA Page DIY Search Engine Rivals Rivalize el almacenamiento temprano de Google
