Gutenberg Digital Publishing تبني طبقة بنية تحتية “AI-native” لتحويل منشورات التراث العربي واسعة النطاق إلى مجموعات بيانات قابلة للقراءة آليًا وفهارس دلالية ورسوم/شبكات معرفة لخدمة البحث العلمي وأنظمة الذكاء الاصطناعي الحديثة.
تراث الفكر العربي محبوس في ملفات PDF ممسوحة ضوئيًا: متفرق، غير قابل للبحث بشكل فعّال، وغير صالح للاستخدام في مسارات عمل الذكاء الاصطناعي الحديثة. بدون هيكلة بيانات وربط كيانات وفهرسة دلالية، لن يمكن استخدامه على نطاق واسع في البحث أو الذكاء الاصطناعي.
بنينا خط معالجة يحول المنشورات التاريخية إلى بيانات منظمة قابلة للاستعلام: بيانات وصفية + كيانات + نمذجة موضوعات + استرجاع دلالي + مخرجات Knowledge Graph.
الابتكار الأساسي هو قابلية التوسع لتحويل مسوحات التراث العربي إلى معرفة منظمة قابلة للاستهلاك آليًا. هذه بنية تحتية، وليست مجرد نشر محتوى.
الـ MVP الحي يعرض طبقة القراءة والتصفح، لكن القيمة الأساسية هي طبقة البيانات المنظمة التي يمكن استهلاكها بواسطة نظم البحث والباحثين ومسارات الذكاء الاصطناعي.
الخطوة القادمة: Endpoints مستقرة للباحثين والمطورين للاستعلام عن corpus المنظم ورسوم المعرفة والبحث الدلالي.
نحن بالفعل نعالج الصفحات على دفعات. التوسع يعتمد أساسًا على قدرة الاستدلال السحابي، التخزين، وموثوقية الأتمتة.
الهدف هو ثبات معدل الإنتاج وتسريع الإثراء (كيانات/موضوعات/ترجمة)، وليس OCR فقط.
تقدير “صديق للمراجعة” يوضح كيف تتحول الحوسبة إلى إنتاجية. عدّل الأرقام لتطابق معدلاتك المقاسة.
| السيناريو | صفحات/يوم | صفحات/شهر | المدة المتوقعة لـ 400,000 صفحة | ملاحظات |
|---|---|---|---|---|
| محدود | 500 | 15,000 | ~27 شهر | قيود على الاستدلال + إثراء أبطأ |
| مع Credits | 2,000 | 60,000 | ~7 شهور | OCR + إثراء (كيانات/موضوعات/ترجمة) بالتوازي |
| محسّن | 4,000 | 120,000 | ~3.5 شهور | توازي أعلى + caching + routing ذكي للجودة |
خط إنتاج ثابت يخرج شهريًا snapshots (Corpus + Index + KG) ويحافظ على سرعة واجهة العرض عبر بيانات مُحضّرة ومجزأة.
نحن نستهدف نموذج أعمال مؤسسي قابل للتوسع. المنتج الأساسي هو طبقة البيانات المنظمة + البحث الدلالي + واجهات API. الدخل يأتي من خدمات ومنتجات مبنية على هذه الطبقة، مع الحفاظ على واجهة عامة مجانية كـ “عرض قيمة” ومرجع قابل للاستشهاد.
الـ Credits تُحوِّل مباشرةً إلى إنتاجية (صفحات/يوم) وإثراء أعمق (كيانات/موضوعات/ترجمة) ثم إلى منتج قابل للبيع: API مدفوع + اشتراكات مؤسسية + تراخيص بيانات.
نطلب Credits لتوسيع المعالجة الدُفعية والفهرسة دون انفجار في التكلفة. Google Cloud توفر تخزينًا موثوقًا، استدلالًا قابلًا للتوسع، وتحليلات على بيانات corpus المتنامية.
| الاحتياج | Google Cloud | النتيجة |
|---|---|---|
| إثراء دفعي + توليد metadata | Vertex AI | تحسين OCR + تسريع الكيانات/الموضوعات/الترجمة |
| تخزين أرشيفي للصور | Cloud Storage | تخزين دائم + versioning + وصول قابل للتوسع |
| تحليلات على بيانات منظمة | BigQuery | تحليل corpus + اتجاهات الموضوعات + شبكات الكيانات |
| أتمتة خطوط العمل | Cloud Run / Functions | تنسيق ingestion والمعالجة |
| وصول عالمي سريع | CDN + Hosting | تقليل زمن التحميل للـ MVP والعروض |
لا يمكن التوسع إلى مئات الآلاف من الصفحات بكفاءة بدون معالجة دفعية على السحابة وبنية بيانات مناسبة. الـ Credits تتحول مباشرة إلى: صفحات/يوم أكثر + إثراء أعمق لكل صفحة.
الـ MVP متاح للعامة ويعرض التصفح المنظم، صفحات المقالات، التصنيفات، ولوحات معلومات مستخرجة من corpus الحالي.
الـ MVP/Beta حي. المرحلة التالية: توسيع خط الإنتاج لمعالجة بقية الصفحات وإصدار مخرجات datasets وKnowledge Graph وواجهات API.
لأي استفسار متعلق بطلب Google for Startups Cloud، تواصل معنا: