تعرف على JPL و PDF.
خلال وكالة ناسا مختبر الدفع النفاث (JPL) مشهورة بالطيران روفرز على المريخ وإرسال مركبة فضائية للتحقيق الكواكب في النظام الشمسيأحدث مشروع لـ JBL هو بيت القصيد: تجميع أكبر أرشيف PDF متاح للجمهور في العالم للبحث الأمني.
تعد ملفات PDF من أكثر التنسيقات شيوعًا للوثائق الرقمية في العالم. على الرغم من أنها تبدو وكأنها نسخ ممسوحة ضوئيًا من المستندات الورقية ، إلا أنها في الواقع مجموعات من النصوص والصور والأفلام والنصوص النشطة التي لا يمكن تقديمها بأمان في أي مكان. لمعالجة هذا القلق ، دخل مختبر الدفع النفاث في شراكة مع جمعية PDF غير الربحية لإنشاء أرشيف جديد من الملفات التي ستساعد الباحثين على تحليل التهديدات المحتملة في مكتبة ضخمة من ملفات PDF الحقيقية.
متعلق ب: تريد قوة الفضاء الأمريكية من الشركات الخاصة المساعدة في مواجهة التهديدات الناشئة في الفضاء
تضمن المشروع تجميع ما يقرب من 8 ملايين ملف PDF تحتوي على أكثر من 8 تيرابايت من البيانات من مصادر مختلفة عبر الإنترنت. المبادرة جزء من مبادرة وكالة مشاريع البحوث الدفاعية المتقدمة (DARPA) SafeDocsيهدف إلى جعل المستندات الرقمية آمنة من التعليمات البرمجية الضارة ومخاوف الأمان الأخرى.
قال تيم أليسون ، عالم البيانات في مختبر الدفع النفاث: “تُستخدم ملفات PDF في كل مكان وهي مهمة للعقود والوثائق القانونية والتصميمات الهندسية ثلاثية الأبعاد والعديد من الأغراض الأخرى”. تقرير. “لسوء الحظ ، فهي معقدة ويمكن اختراقها لإخفاء التعليمات البرمجية الضارة أو تقديم معلومات مختلفة بطريقة ضارة لمستخدمين مختلفين.” لمواجهة هذه التحديات وغيرها من ملفات PDF ، يجب جمع عينة أكبر من ملفات PDF في العالم الحقيقي من الإنترنت لإنشاء مورد مشترك ومتاح مجانًا لمحترفي البرمجيات. “
باستخدام مستودع الزحف العام المتاح مجانًا لمعلومات زحف الويب كنقطة بداية ، حدد باحثو JPL ملفات PDF لإضافتها إلى المجموعة ، بما في ذلك تلك غير المكتملة بسبب حد تنزيل Common Crawl البالغ 1 ميغا بايت لكل ملف تم تنزيله. قام JPL بالوصول مباشرة إلى عناوين URL هذه بتنسيق PDF لتنزيل المستندات الكاملة ، مما يضمن أرشيفًا تمثيليًا بالكامل لأنواع PDF التي يمكن الوصول إليها على الإنترنت.
يأمل مختبر الدفع النفاث أنه من خلال إتاحة المجموعة للجمهور ، سيتمكن الباحثون من استخدام ملفات PDF وتحليلها لتحديد طرق أفضل للحفاظ على المعلومات الواردة في هذه الوثائق.