En 1998, Google lanzó su motor de búsqueda, inicialmente llamado Backrub, que operaba en un servidor del campus de Stanford con 40 GB de datos y alojado en una caja hecha de bloques Duplo. A partir de 2025, las capacidades de búsqueda de Google requerirán múltiples centros de datos.
Ryan Pearce ha creado un motor de búsqueda de bricolaje llamado Searcha Page, que incluye una versión centrada en la privacidad llamada Seek Ninja, con el servidor ubicado en su cuarto de lavado junto a su lavadora y secadora. Pearce afirma: “En este momento, en el cuarto de lavado, tengo más espacio de almacenamiento del que tenía Google en 2000. Y es una locura pensar en eso”.
El servidor estaba inicialmente en el dormitorio de Pearce, pero fue trasladado al cuarto de servicio debido al calor excesivo. “El calor no ha sido absolutamente terrible, pero si la puerta permanece cerrada durante demasiado tiempo, es un problema”, afirma.
Los resultados de Searcha Page están mejorando: su base de datos contiene 2.000 millones de entradas y se espera que alcance los 4.000 millones en seis meses. En comparación, Google tenía 24 millones de páginas en 1998 y 400 mil millones en 2020, como se reveló durante el juicio antimonopolio entre Estados Unidos y Google LLC.
El motor de Pearce utiliza grandes modelos de lenguaje para la expansión de palabras clave y la comprensión del contexto. “Lo que estoy haciendo es en realidad una búsqueda muy tradicional”, dice Pearce. “Es lo que Google hizo probablemente hace 20 años, excepto que el único ajuste es que uso IA para expandir las palabras clave y ayudar con la comprensión del contexto, que es lo difícil”.
La IA ha sido una parte clave de los motores de búsqueda, incluidas herramientas como la búsqueda inversa de imágenes, RankBrain de Google y los resultados impulsados por ML en un 90% de Bing en 2019. La IA ahora se considera una forma de construir y escalar motores de búsqueda de manera eficiente.
Pearce utiliza el “arbitraje de actualización”, comprando hardware de servidor antiguo pero potente. Su CPU AMD EPYC 7532 de 32 núcleos, que costaba más de 3.000 dólares en 2020, ahora cuesta menos de 200 dólares en eBay. “Podría haber conseguido otro chip por el mismo precio, que habría tenido el doble de hilos, pero habría producido demasiado calor”, afirma.
Todo el sistema costó 5.000 dólares y se gastaron 3.000 dólares en almacenamiento. La base de código de Pearce es de alrededor de 150.000 líneas de código, con un estimado de 500.000 líneas de trabajo iterativo.
Searcha Page y Seek Ninja utilizan SambaNova para acceder rápidamente al modelo Llama 3 a bajo costo. Annie SheaWeckesser, CMO de SambaNova, señala que el acceso a modelos de bajo costo se está volviendo cada vez más esencial para desarrolladores individuales como Pearce, y agrega que la compañía está “brindando a los desarrolladores las herramientas para ejecutar potentes modelos de IA de manera rápida y asequible, ya sea que estén trabajando desde una configuración doméstica o en producción”.
Pearce utiliza el repositorio Common Crawl para crear su rastreador. “Realmente los aprecio. Me gustaría poder devolverles algo, pero tal vez cuando sea más grande”, dice.
Un intento inicial de utilizar una base de datos vectorial falló, lo que dio como resultado resultados “muy artísticos”. Pearce ahora utiliza resúmenes de páginas generados por LLM. Wilson Lin, otro desarrollador de motores de búsqueda DIY, utiliza una herramienta de búsqueda vectorial de creación propia llamada CoreNN y se basa en nueve servicios en la nube separados para mantener los costos bajos. “Es mucho más barato que [Amazon Web Services], una cantidad significativa”, afirma Lin. “Y me da suficiente capacidad para llegar a algún lado con este proyecto con un presupuesto razonable”.
Pearce originalmente imaginó un motor de búsqueda para sitios pequeños similar a Marginalia, favoreciendo los sitios pequeños sobre las grandes tecnologías. “Alguien de China realmente se acercó a mí porque… Creo que quería un motor de búsqueda sin censura que quisiera alimentar a través de su LLM, como la búsqueda de su agente”, dice.
Expandirse más allá del inglés requeriría nuevos conjuntos de datos. Pearce planea trasladar el motor de búsqueda a una instalación de colocación una vez que el tráfico alcance un cierto umbral y esté generando ingresos modestos a través de publicidad estilo afiliado.
“Mi plan es que si supero una cierta cantidad de tráfico, me hospedarán”, dice Pearce. “No estará en esa lavandería para siempre”.
La fecha límite de solicitud para los Premios a las Empresas Más Innovadoras de Fast Company es el viernes 3 de octubre a las 23:59 horas. PT.








